Đã cập nhật 10 h ago

Organization

Dấu chân GitHub công khai của OpenDataLab

@opendatalab

Xem hồ sơ trên GitHub

OpenDataLab provides access to numerous significant open-source datasets.

China

Kho lưu trữ công khai

90.614

Tổng số sao

2.785

Người theo dõi

OpenDataLab là một tổ chức trên GitHub chuyên cung cấp quyền truy cập vào nhiều bộ dữ liệu mã nguồn mở quan trọng. Các dự án của họ chủ yếu sử dụng Python và TypeScript, với những kho nổi bật như MinerU và PDF-Extract-Kit, phục vụ cho việc trích xuất và phân tích tài liệu.

Ngôn ngữ hàng đầu

Python 47TypeScript 6HTML 3JavaScript 1Jupyter Notebook 1

Kho lưu trữ công khai

MinerU

★67.402

Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.

Python

Đã cập nhật 13 thg 6, 2026

PDF-Extract-Kit

★9.718

A Comprehensive Toolkit for High-Quality PDF Content Extraction

Python

Đã cập nhật 12 thg 6, 2026

DocLayout-YOLO

★2.185

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Python

Đã cập nhật 12 thg 6, 2026

OmniDocBench

★1.801

[CVPR 2025] A Comprehensive Benchmark for Document Parsing and Evaluation

Python

Đã cập nhật 12 thg 6, 2026

labelU

★1.590

Open-source multimodal data annotation platform with AI auto-annotation support.

Python

Đã cập nhật 12 thg 6, 2026

LabelLLM

★1.239

The Open-Source Data Annotation Platform

TypeScript

Đã cập nhật 13 thg 6, 2026

MinerU-Diffusion

★597

A diffusion-based framework for document OCR that replaces autoregressive decoding with block-level parallel diffusion decoding.

Python

Đã cập nhật 12 thg 6, 2026

MinerU-Document-Explorer

★585

Agent-native knowledge engine with MCP tools for document indexing, wiki organization, fast retrieval and deep reading across PDF/DOCX/PPTX/Markdown

TypeScript

Đã cập nhật 12 thg 6, 2026

WanJuan1.0

★573

万卷1.0多模态语料

Ngôn ngữ không xác định

Đã cập nhật 9 thg 6, 2026

magic-doc

★550

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 9 thg 6, 2026

magic-html

★535

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 7 thg 6, 2026

UniMERNet

★483

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

Python

Đã cập nhật 11 thg 6, 2026

MinerU-HTML

★259

MinerU-HTML: An SLM-powered HTML main content extractor that outputs clean HTML bodies. Perfect for Deep Research Agents, RAG applications, and training data generation.

Python

Đã cập nhật 12 thg 6, 2026

Meta-rater

★195

[ACL 2025 Best Theme Paper] This is the official implementation for the paper: "Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models"

Python

Đã cập nhật 11 thg 6, 2026

LOKI

★179

[ICLR 2025 Spotlight] The official implementation of the paper “LOKI：A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models”

Python

Đã cập nhật 3 thg 6, 2026

MinerU-Popo

★164

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 13 thg 6, 2026

Earth-Agent

★158

[ICLR 2026] The official implementation of the paper “Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents”

Python

Đã cập nhật 11 thg 6, 2026

labelU-Kit

★154

Data annotation component library --provided as NPM packages

TypeScript

Đã cập nhật 10 thg 6, 2026

FakeVLM

★150

[NeurIPS 2025 🔥] FakeVLM: Advancing Synthetic Image Detection through Explainable Multimodal Models and Fine-Grained Artifact Analysis

Python

Đã cập nhật 9 thg 6, 2026

opendatalab-datasets

★145

datasets resource

Ngôn ngữ không xác định

Đã cập nhật 12 thg 6, 2026

mineru-vl-utils

★128

A Python package for interacting with the MinerU Vision-Language Model.

Python

Đã cập nhật 11 thg 6, 2026

laion5b-downloader

★121

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 19 thg 4, 2026

MinerU-Ecosystem

★118

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 9 thg 6, 2026

VHM

★117

VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis

Python

Đã cập nhật 8 thg 6, 2026

HA-DPO

★104

Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

Python

Đã cập nhật 24 thg 5, 2026

OHR-Bench

★102

(ICCV 2025) OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

Python

Đã cập nhật 3 thg 6, 2026

VIGC

★97

AAAI 2024: Visual Instruction Generation and Correction

Python

Đã cập nhật 4 thg 5, 2026

MLS-BRN

★89

[CVPR 2024] 3D Building Reconstruction from Monocular Remote Sensing Images with Multi-level Supervisions

Python

Đã cập nhật 1 thg 6, 2026

Vis3

★87

Data browser based on s3. 一个基于 S3 的数据（json / jsonl / parquet / html / md等）可视化工具。👇 Try online.

TypeScript

Đã cập nhật 1 thg 6, 2026

skydiffusion

★81

[ICCV 2025] The official implementation of the paper “Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm”

Python

Đã cập nhật 29 thg 5, 2026

LEGION

★78

[ICCV25 Highlight] The official implementation of the paper "LEGION: Learning to Ground and Explain for Synthetic Image Detection"

Python

Đã cập nhật 27 thg 5, 2026

CiteVQA

★68

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 7 thg 6, 2026

CLIP-Parrot-Bias

★66

ECCV2024_Parrot Captions Teach CLIP to Spot Text

Python

Đã cập nhật 19 thg 11, 2025

opendatalab-python-sdk

★60

SDK of OpenDataLab - https://opendatalab.org.cn

Python

Đã cập nhật 9 thg 5, 2026

MLLM-DataEngine

★48

MLLM-DataEngine: An Iterative Refinement Approach for MLLM

Python

Đã cập nhật 11 thg 9, 2025

WanJuan3.0

★46

WanJuan3.0（“万卷·丝路”）一个作为综合性的纯文本语料库，采集了多个国家地区的网络公开信息、文献、专利等资料，数据总规模超1.2TB，Token总数超过300B，处于国际领先水平，首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成，每个子集的数据规模均超过150GB

Ngôn ngữ không xác định

Đã cập nhật 24 thg 4, 2026

dsdl-docs

★46

Data Set Description Language Specification （新一代人工智能数据集描述语言DSDL）

HTML

Đã cập nhật 22 thg 2, 2026

ProverGen

★45

[ICLR 2025] This is the official implementation for the paper: "Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation"

Python

Đã cập nhật 26 thg 4, 2026

CHARM

★45

[ACL 2024 Main Conference] Chinese commonsense benchmark for LLMs

Python

Đã cập nhật 8 thg 4, 2026

UrBench

★37

[AAAI 2025]This repo contains evaluation code for the paper “UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios”

Python

Đã cập nhật 8 thg 4, 2026

TRivia

★34

(CVPR 2026) TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

Python

Đã cập nhật 4 thg 6, 2026

REST

★34

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 19 thg 5, 2026

image-downloader

★30

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 13 thg 5, 2026

Sciverse-Agent-Tools

★27

Standardized tool schemas and SDKs that expose Sciverse Open Platform retrieval capabilities to LLM agents.

Python

Đã cập nhật 11 thg 6, 2026

RxnCaption

★25

[CVPR 2026] SOTA Chemical Reaction Diagram Parsing Framework

Python

Đã cập nhật 13 thg 5, 2026

labelbee

★25

Không có mô tả nào được cung cấp cho kho lưu trữ này.

TypeScript

Đã cập nhật 7 thg 8, 2024

Miner-PDF-Benchmark

★24

MPB (Miner-PDF-Benchmark) is an end-to-end PDF document comprehension evaluation suite designed for large-scale model data scenarios.

Python

Đã cập nhật 2 thg 2, 2026

mineru-tutorials

★18

MinerU Training Camp course materials and tutorials

Ngôn ngữ không xác định

Đã cập nhật 1 thg 6, 2026

awesome-markdown-ebooks

★17

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Ngôn ngữ không xác định

Đã cập nhật 14 thg 5, 2026

WebMainBench

★16

WebMainBench is a high-precision benchmark for evaluating web main content extraction.

Python

Đã cập nhật 20 thg 4, 2026

CrossViewDiff

★16

The official implementation of the paper "CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis"

JavaScript

Đã cập nhật 31 thg 1, 2026

WanJuan2.0-WanJuan-CC

★14

WanJuan-CC是以CommonCrawl为基础，经过数据抽取，规则清洗，去重，安全过滤，质量清洗等步骤得到的高质量数据。

Ngôn ngữ không xác định

Đã cập nhật 26 thg 5, 2026

PM4Bench

★14

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 24 thg 7, 2025

dsdl-sdk

★13

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Jupyter Notebook

Đã cập nhật 29 thg 5, 2024

OpenHuEval

★12

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 12 thg 5, 2026

MinerU-Webkit

★10

Không có mô tả nào được cung cấp cho kho lưu trữ này.

HTML

Đã cập nhật 9 thg 6, 2026

labelU-frontend

★9

LabelU front-end library

TypeScript

Đã cập nhật 27 thg 1, 2026

awesome-mineru

★8

🕶️ A curated list of awesome things related to MinerU

Python

Đã cập nhật 4 thg 6, 2026

allz

★7

A universal command line tool for compression and decompression

Python

Đã cập nhật 3 thg 6, 2026

MolRecBench-Wild

★4

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 5 thg 6, 2026

CRaFT

★4

[AAAI25] Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning

Python

Đã cập nhật 3 thg 7, 2025

GRAIT

★3

[NAACL25 findings] Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation

Python

Đã cập nhật 16 thg 8, 2025

OmniDocLayout

★2

[CVPR26 Highlight] The official implementation of the paper "OmniDocLayout: Towards Diverse Document Layout Generation via Coarse-to-Fine LLM Learning"

Ngôn ngữ không xác định

Đã cập nhật 12 thg 6, 2026

.github

★1

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Ngôn ngữ không xác định

Đã cập nhật 27 thg 5, 2026

opendatalab.github.io

★1

Không có mô tả nào được cung cấp cho kho lưu trữ này.

HTML

Đã cập nhật 9 thg 5, 2026

labelU-ML

★1

Không có mô tả nào được cung cấp cho kho lưu trữ này.

Python

Đã cập nhật 6 thg 1, 2023

rdkit

★0

A forked repo of the official RDKit library

Ngôn ngữ không xác định

Đã cập nhật 8 thg 1, 2026

Câu hỏi thường gặp

opendatalab xây dựng những gì trên GitHub?

opendatalab phát triển nhiều kho dữ liệu mã nguồn mở, bao gồm các công cụ như MinerU, PDF-Extract-Kit, và DocLayout-YOLO, phục vụ cho việc trích xuất và phân tích tài liệu phức tạp.

Ngôn ngữ lập trình nào được opendatalab sử dụng?

opendatalab chủ yếu sử dụng các ngôn ngữ lập trình như Python và TypeScript, cùng với HTML, JavaScript và Jupyter Notebook trong các dự án của họ.

Các kho lưu trữ của opendatalab có công khai không?

Các kho lưu trữ của opendatalab đều công khai trên GitHub, cho phép người dùng truy cập và đóng góp vào các dự án mã nguồn mở của họ.

Liệu việc lộ thông tin này có dự định không?

Theo dõi OpenDataLab với RepoGuard và nhận cảnh báo ngay khi có kho lưu trữ công khai mới xuất hiện.

Theo dõi tài khoản này