RepoGuard
10 h ago에 업데이트됨
OpenDataLab

Organization

OpenDataLab의 공개 GitHub 발자국

@opendatalab
GitHub에서 프로필 보기

OpenDataLab provides access to numerous significant open-source datasets.

China

67

공개 저장소

90,614

총 별점

2,785

팔로워

OpenDataLab은 공개 GitHub에 다양한 오픈 소스 데이터셋을 제공합니다. 주요 프로그래밍 언어로는 Python, TypeScript, HTML, JavaScript, Jupyter Notebook이 있으며, MinerU, PDF-Extract-Kit, DocLayout-YOLO와 같은 주목할 만한 레포지토리를 보유하고 있습니다.

주요 언어

Python 47TypeScript 6HTML 3JavaScript 1Jupyter Notebook 1

공개 저장소

MinerU

67,402

Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.

Python
업데이트됨 2026년 6월 13일

PDF-Extract-Kit

9,718

A Comprehensive Toolkit for High-Quality PDF Content Extraction

Python
업데이트됨 2026년 6월 12일

DocLayout-YOLO

2,185

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Python
업데이트됨 2026년 6월 12일

OmniDocBench

1,801

[CVPR 2025] A Comprehensive Benchmark for Document Parsing and Evaluation

Python
업데이트됨 2026년 6월 12일

labelU

1,590

Open-source multimodal data annotation platform with AI auto-annotation support.

Python
업데이트됨 2026년 6월 12일

LabelLLM

1,239

The Open-Source Data Annotation Platform

TypeScript
업데이트됨 2026년 6월 13일

MinerU-Diffusion

597

A diffusion-based framework for document OCR that replaces autoregressive decoding with block-level parallel diffusion decoding.

Python
업데이트됨 2026년 6월 12일

MinerU-Document-Explorer

585

Agent-native knowledge engine with MCP tools for document indexing, wiki organization, fast retrieval and deep reading across PDF/DOCX/PPTX/Markdown

TypeScript
업데이트됨 2026년 6월 12일

WanJuan1.0

573

万卷1.0多模态语料

알 수 없는 언어
업데이트됨 2026년 6월 9일

magic-doc

550

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 6월 9일

magic-html

535

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 6월 7일

UniMERNet

483

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

Python
업데이트됨 2026년 6월 11일

MinerU-HTML

259

MinerU-HTML: An SLM-powered HTML main content extractor that outputs clean HTML bodies. Perfect for Deep Research Agents, RAG applications, and training data generation.

Python
업데이트됨 2026년 6월 12일

Meta-rater

195

[ACL 2025 Best Theme Paper] This is the official implementation for the paper: "Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models"

Python
업데이트됨 2026년 6월 11일

LOKI

179

[ICLR 2025 Spotlight] The official implementation of the paper “LOKI:A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models”

Python
업데이트됨 2026년 6월 3일

MinerU-Popo

164

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 6월 13일

Earth-Agent

158

[ICLR 2026] The official implementation of the paper “Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents”

Python
업데이트됨 2026년 6월 11일

labelU-Kit

154

Data annotation component library --provided as NPM packages

TypeScript
업데이트됨 2026년 6월 10일

FakeVLM

150

[NeurIPS 2025 🔥] FakeVLM: Advancing Synthetic Image Detection through Explainable Multimodal Models and Fine-Grained Artifact Analysis

Python
업데이트됨 2026년 6월 9일

opendatalab-datasets

145

datasets resource

알 수 없는 언어
업데이트됨 2026년 6월 12일

mineru-vl-utils

128

A Python package for interacting with the MinerU Vision-Language Model.

Python
업데이트됨 2026년 6월 11일

laion5b-downloader

121

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 4월 19일

MinerU-Ecosystem

118

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 6월 9일

VHM

117

VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis

Python
업데이트됨 2026년 6월 8일

HA-DPO

104

Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

Python
업데이트됨 2026년 5월 24일

OHR-Bench

102

(ICCV 2025) OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

Python
업데이트됨 2026년 6월 3일

VIGC

97

AAAI 2024: Visual Instruction Generation and Correction

Python
업데이트됨 2026년 5월 4일

MLS-BRN

89

[CVPR 2024] 3D Building Reconstruction from Monocular Remote Sensing Images with Multi-level Supervisions

Python
업데이트됨 2026년 6월 1일

Vis3

87

Data browser based on s3. 一个基于 S3 的数据(json / jsonl / parquet / html / md等)可视化工具。👇 Try online.

TypeScript
업데이트됨 2026년 6월 1일

skydiffusion

81

[ICCV 2025] The official implementation of the paper “Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm”

Python
업데이트됨 2026년 5월 29일

LEGION

78

[ICCV25 Highlight] The official implementation of the paper "LEGION: Learning to Ground and Explain for Synthetic Image Detection"

Python
업데이트됨 2026년 5월 27일

CiteVQA

68

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 6월 7일

CLIP-Parrot-Bias

66

ECCV2024_Parrot Captions Teach CLIP to Spot Text

Python
업데이트됨 2025년 11월 19일

opendatalab-python-sdk

60

SDK of OpenDataLab - https://opendatalab.org.cn

Python
업데이트됨 2026년 5월 9일

MLLM-DataEngine

48

MLLM-DataEngine: An Iterative Refinement Approach for MLLM

Python
업데이트됨 2025년 9월 11일

WanJuan3.0

46

WanJuan3.0(“万卷·丝路”)一个作为综合性的纯文本语料库,采集了多个国家地区的网络公开信息、文献、专利等资料,数据总规模超1.2TB,Token总数超过300B,处于国际领先水平,首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GB

알 수 없는 언어
업데이트됨 2026년 4월 24일

dsdl-docs

46

Data Set Description Language Specification (新一代人工智能数据集描述语言DSDL)

HTML
업데이트됨 2026년 2월 22일

ProverGen

45

[ICLR 2025] This is the official implementation for the paper: "Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation"

Python
업데이트됨 2026년 4월 26일

CHARM

45

[ACL 2024 Main Conference] Chinese commonsense benchmark for LLMs

Python
업데이트됨 2026년 4월 8일

UrBench

37

[AAAI 2025]This repo contains evaluation code for the paper “UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios”

Python
업데이트됨 2026년 4월 8일

TRivia

34

(CVPR 2026) TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

Python
업데이트됨 2026년 6월 4일

REST

34

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 5월 19일

image-downloader

30

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 5월 13일

Sciverse-Agent-Tools

27

Standardized tool schemas and SDKs that expose Sciverse Open Platform retrieval capabilities to LLM agents.

Python
업데이트됨 2026년 6월 11일

RxnCaption

25

[CVPR 2026] SOTA Chemical Reaction Diagram Parsing Framework

Python
업데이트됨 2026년 5월 13일

labelbee

25

이 저장소에 대한 설명이 제공되지 않았습니다.

TypeScript
업데이트됨 2024년 8월 7일

Miner-PDF-Benchmark

24

MPB (Miner-PDF-Benchmark) is an end-to-end PDF document comprehension evaluation suite designed for large-scale model data scenarios.

Python
업데이트됨 2026년 2월 2일

mineru-tutorials

18

MinerU Training Camp course materials and tutorials

알 수 없는 언어
업데이트됨 2026년 6월 1일

awesome-markdown-ebooks

17

이 저장소에 대한 설명이 제공되지 않았습니다.

알 수 없는 언어
업데이트됨 2026년 5월 14일

WebMainBench

16

WebMainBench is a high-precision benchmark for evaluating web main content extraction.

Python
업데이트됨 2026년 4월 20일

CrossViewDiff

16

The official implementation of the paper "CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis"

JavaScript
업데이트됨 2026년 1월 31일

WanJuan2.0-WanJuan-CC

14

WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。

알 수 없는 언어
업데이트됨 2026년 5월 26일

PM4Bench

14

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2025년 7월 24일

dsdl-sdk

13

이 저장소에 대한 설명이 제공되지 않았습니다.

Jupyter Notebook
업데이트됨 2024년 5월 29일

OpenHuEval

12

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 5월 12일

MinerU-Webkit

10

이 저장소에 대한 설명이 제공되지 않았습니다.

HTML
업데이트됨 2026년 6월 9일

labelU-frontend

9

LabelU front-end library

TypeScript
업데이트됨 2026년 1월 27일

awesome-mineru

8

🕶️ A curated list of awesome things related to MinerU

Python
업데이트됨 2026년 6월 4일

allz

7

A universal command line tool for compression and decompression

Python
업데이트됨 2026년 6월 3일

MolRecBench-Wild

4

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2026년 6월 5일

CRaFT

4

[AAAI25] Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning

Python
업데이트됨 2025년 7월 3일

GRAIT

3

[NAACL25 findings] Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation

Python
업데이트됨 2025년 8월 16일

OmniDocLayout

2

[CVPR26 Highlight] The official implementation of the paper "OmniDocLayout: Towards Diverse Document Layout Generation via Coarse-to-Fine LLM Learning"

알 수 없는 언어
업데이트됨 2026년 6월 12일

.github

1

이 저장소에 대한 설명이 제공되지 않았습니다.

알 수 없는 언어
업데이트됨 2026년 5월 27일

opendatalab.github.io

1

이 저장소에 대한 설명이 제공되지 않았습니다.

HTML
업데이트됨 2026년 5월 9일

labelU-ML

1

이 저장소에 대한 설명이 제공되지 않았습니다.

Python
업데이트됨 2023년 1월 6일

rdkit

0

A forked repo of the official RDKit library

알 수 없는 언어
업데이트됨 2026년 1월 8일

자주 묻는 질문

opendatalab은 GitHub에서 무엇을 개발하나요?

opendatalab은 다양한 오픈 소스 프로젝트를 개발하며, 데이터 처리 및 문서 분석에 중점을 둡니다. 특히 MinerU와 PDF-Extract-Kit 같은 레포지토리가 주목받고 있습니다.

opendatalab에서 사용하는 프로그래밍 언어는 무엇인가요?

opendatalab은 주로 Python과 TypeScript를 사용하며, HTML, JavaScript, Jupyter Notebook도 활용합니다. 이러한 언어들은 데이터 처리와 웹 애플리케이션 개발에 적합합니다.

opendatalab의 레포지토리는 공개인가요?

네, opendatalab의 모든 레포지토리는 공개되어 있습니다. 이를 통해 사용자들은 다양한 오픈 소스 프로젝트에 접근하고 기여할 수 있습니다.

이 노출이 의도된 것인가요?

OpenDataLab을 RepoGuard로 모니터링하고 새로운 공개 저장소가 나타나는 순간 알림을 받으세요.

이 계정 모니터링하기