RepoGuard
10 h ago güncellendi
OpenDataLab

Organization

OpenDataLab için Kamu GitHub ayak izi

@opendatalab
GitHub'da profili görüntüle

OpenDataLab provides access to numerous significant open-source datasets.

China

67

Kamu depoları

90.614

Toplam yıldız

2.785

Takipçiler

OpenDataLab, GitHub üzerindeki varlığıyla dikkate değer birçok açık kaynak veri setine erişim sağlamaktadır. Python, TypeScript, HTML ve JavaScript gibi çeşitli programlama dillerinde geliştirilmiş geniş bir yelpazede projeleri bulunmaktadır. MinerU, PDF-Extract-Kit ve DocLayout-YOLO gibi önemli repoları, belge işleme ve veri çıkarma alanında önemli işlevler sunmaktadır.

En popüler diller

Python 47TypeScript 6HTML 3JavaScript 1Jupyter Notebook 1

Kamu depoları

MinerU

67.402

Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.

Python
Güncellendi 13 Haz 2026

PDF-Extract-Kit

9.718

A Comprehensive Toolkit for High-Quality PDF Content Extraction

Python
Güncellendi 12 Haz 2026

DocLayout-YOLO

2.185

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Python
Güncellendi 12 Haz 2026

OmniDocBench

1.801

[CVPR 2025] A Comprehensive Benchmark for Document Parsing and Evaluation

Python
Güncellendi 12 Haz 2026

labelU

1.590

Open-source multimodal data annotation platform with AI auto-annotation support.

Python
Güncellendi 12 Haz 2026

LabelLLM

1.239

The Open-Source Data Annotation Platform

TypeScript
Güncellendi 13 Haz 2026

MinerU-Diffusion

597

A diffusion-based framework for document OCR that replaces autoregressive decoding with block-level parallel diffusion decoding.

Python
Güncellendi 12 Haz 2026

MinerU-Document-Explorer

585

Agent-native knowledge engine with MCP tools for document indexing, wiki organization, fast retrieval and deep reading across PDF/DOCX/PPTX/Markdown

TypeScript
Güncellendi 12 Haz 2026

WanJuan1.0

573

万卷1.0多模态语料

Bilinmeyen Dil
Güncellendi 9 Haz 2026

magic-doc

550

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 9 Haz 2026

magic-html

535

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 7 Haz 2026

UniMERNet

483

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

Python
Güncellendi 11 Haz 2026

MinerU-HTML

259

MinerU-HTML: An SLM-powered HTML main content extractor that outputs clean HTML bodies. Perfect for Deep Research Agents, RAG applications, and training data generation.

Python
Güncellendi 12 Haz 2026

Meta-rater

195

[ACL 2025 Best Theme Paper] This is the official implementation for the paper: "Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models"

Python
Güncellendi 11 Haz 2026

LOKI

179

[ICLR 2025 Spotlight] The official implementation of the paper “LOKI:A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models”

Python
Güncellendi 3 Haz 2026

MinerU-Popo

164

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 13 Haz 2026

Earth-Agent

158

[ICLR 2026] The official implementation of the paper “Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents”

Python
Güncellendi 11 Haz 2026

labelU-Kit

154

Data annotation component library --provided as NPM packages

TypeScript
Güncellendi 10 Haz 2026

FakeVLM

150

[NeurIPS 2025 🔥] FakeVLM: Advancing Synthetic Image Detection through Explainable Multimodal Models and Fine-Grained Artifact Analysis

Python
Güncellendi 9 Haz 2026

opendatalab-datasets

145

datasets resource

Bilinmeyen Dil
Güncellendi 12 Haz 2026

mineru-vl-utils

128

A Python package for interacting with the MinerU Vision-Language Model.

Python
Güncellendi 11 Haz 2026

laion5b-downloader

121

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 19 Nis 2026

MinerU-Ecosystem

118

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 9 Haz 2026

VHM

117

VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis

Python
Güncellendi 8 Haz 2026

HA-DPO

104

Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

Python
Güncellendi 24 May 2026

OHR-Bench

102

(ICCV 2025) OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

Python
Güncellendi 3 Haz 2026

VIGC

97

AAAI 2024: Visual Instruction Generation and Correction

Python
Güncellendi 4 May 2026

MLS-BRN

89

[CVPR 2024] 3D Building Reconstruction from Monocular Remote Sensing Images with Multi-level Supervisions

Python
Güncellendi 1 Haz 2026

Vis3

87

Data browser based on s3. 一个基于 S3 的数据(json / jsonl / parquet / html / md等)可视化工具。👇 Try online.

TypeScript
Güncellendi 1 Haz 2026

skydiffusion

81

[ICCV 2025] The official implementation of the paper “Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm”

Python
Güncellendi 29 May 2026

LEGION

78

[ICCV25 Highlight] The official implementation of the paper "LEGION: Learning to Ground and Explain for Synthetic Image Detection"

Python
Güncellendi 27 May 2026

CiteVQA

68

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 7 Haz 2026

CLIP-Parrot-Bias

66

ECCV2024_Parrot Captions Teach CLIP to Spot Text

Python
Güncellendi 19 Kas 2025

opendatalab-python-sdk

60

SDK of OpenDataLab - https://opendatalab.org.cn

Python
Güncellendi 9 May 2026

MLLM-DataEngine

48

MLLM-DataEngine: An Iterative Refinement Approach for MLLM

Python
Güncellendi 11 Eyl 2025

WanJuan3.0

46

WanJuan3.0(“万卷·丝路”)一个作为综合性的纯文本语料库,采集了多个国家地区的网络公开信息、文献、专利等资料,数据总规模超1.2TB,Token总数超过300B,处于国际领先水平,首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GB

Bilinmeyen Dil
Güncellendi 24 Nis 2026

dsdl-docs

46

Data Set Description Language Specification (新一代人工智能数据集描述语言DSDL)

HTML
Güncellendi 22 Şub 2026

ProverGen

45

[ICLR 2025] This is the official implementation for the paper: "Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation"

Python
Güncellendi 26 Nis 2026

CHARM

45

[ACL 2024 Main Conference] Chinese commonsense benchmark for LLMs

Python
Güncellendi 8 Nis 2026

UrBench

37

[AAAI 2025]This repo contains evaluation code for the paper “UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios”

Python
Güncellendi 8 Nis 2026

TRivia

34

(CVPR 2026) TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

Python
Güncellendi 4 Haz 2026

REST

34

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 19 May 2026

image-downloader

30

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 13 May 2026

Sciverse-Agent-Tools

27

Standardized tool schemas and SDKs that expose Sciverse Open Platform retrieval capabilities to LLM agents.

Python
Güncellendi 11 Haz 2026

RxnCaption

25

[CVPR 2026] SOTA Chemical Reaction Diagram Parsing Framework

Python
Güncellendi 13 May 2026

labelbee

25

Bu depo için açıklama sağlanmadı.

TypeScript
Güncellendi 7 Ağu 2024

Miner-PDF-Benchmark

24

MPB (Miner-PDF-Benchmark) is an end-to-end PDF document comprehension evaluation suite designed for large-scale model data scenarios.

Python
Güncellendi 2 Şub 2026

mineru-tutorials

18

MinerU Training Camp course materials and tutorials

Bilinmeyen Dil
Güncellendi 1 Haz 2026

awesome-markdown-ebooks

17

Bu depo için açıklama sağlanmadı.

Bilinmeyen Dil
Güncellendi 14 May 2026

WebMainBench

16

WebMainBench is a high-precision benchmark for evaluating web main content extraction.

Python
Güncellendi 20 Nis 2026

CrossViewDiff

16

The official implementation of the paper "CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis"

JavaScript
Güncellendi 31 Oca 2026

WanJuan2.0-WanJuan-CC

14

WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。

Bilinmeyen Dil
Güncellendi 26 May 2026

PM4Bench

14

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 24 Tem 2025

dsdl-sdk

13

Bu depo için açıklama sağlanmadı.

Jupyter Notebook
Güncellendi 29 May 2024

OpenHuEval

12

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 12 May 2026

MinerU-Webkit

10

Bu depo için açıklama sağlanmadı.

HTML
Güncellendi 9 Haz 2026

labelU-frontend

9

LabelU front-end library

TypeScript
Güncellendi 27 Oca 2026

awesome-mineru

8

🕶️ A curated list of awesome things related to MinerU

Python
Güncellendi 4 Haz 2026

allz

7

A universal command line tool for compression and decompression

Python
Güncellendi 3 Haz 2026

MolRecBench-Wild

4

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 5 Haz 2026

CRaFT

4

[AAAI25] Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning

Python
Güncellendi 3 Tem 2025

GRAIT

3

[NAACL25 findings] Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation

Python
Güncellendi 16 Ağu 2025

OmniDocLayout

2

[CVPR26 Highlight] The official implementation of the paper "OmniDocLayout: Towards Diverse Document Layout Generation via Coarse-to-Fine LLM Learning"

Bilinmeyen Dil
Güncellendi 12 Haz 2026

.github

1

Bu depo için açıklama sağlanmadı.

Bilinmeyen Dil
Güncellendi 27 May 2026

opendatalab.github.io

1

Bu depo için açıklama sağlanmadı.

HTML
Güncellendi 9 May 2026

labelU-ML

1

Bu depo için açıklama sağlanmadı.

Python
Güncellendi 6 Oca 2023

rdkit

0

A forked repo of the official RDKit library

Bilinmeyen Dil
Güncellendi 8 Oca 2026

Sıkça sorulan sorular

opendatalab GitHub'da ne tür projeler geliştiriyor?

OpenDataLab, açık kaynak veri setleri ile ilgili projeler geliştirmektedir. Özellikle belge işleme ve veri çıkarma üzerine odaklanmış olan MinerU ve PDF-Extract-Kit gibi önemli repoları bulunmaktadır.

opendatalab hangi programlama dillerini kullanıyor?

OpenDataLab, GitHub'daki projelerinde Python, TypeScript, HTML, JavaScript ve Jupyter Notebook gibi dilleri kullanmaktadır. Bu diller, geniş bir uygulama yelpazesine olanak tanımaktadır.

opendatalab'ın repoları kamuya açık mı?

Evet, OpenDataLab'ın GitHub üzerindeki tüm repoları kamuya açıktır. Bu, kullanıcıların projeleri incelemesine ve katkıda bulunmasına olanak sağlar.

Bu ifşa amaçlı mı?

OpenDataLab ile RepoGuard'ı izleyin ve yeni bir kamu deposu belirdiğinde anında uyarı alın.

Bu hesabı izleyin