OpenDataLab provides access to numerous significant open-source datasets.
67
公開リポジトリ
90,614
合計スター
2,785
フォロワー
Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.
A Comprehensive Toolkit for High-Quality PDF Content Extraction
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception
[CVPR 2025] A Comprehensive Benchmark for Document Parsing and Evaluation
Open-source multimodal data annotation platform with AI auto-annotation support.
The Open-Source Data Annotation Platform
A diffusion-based framework for document OCR that replaces autoregressive decoding with block-level parallel diffusion decoding.
Agent-native knowledge engine with MCP tools for document indexing, wiki organization, fast retrieval and deep reading across PDF/DOCX/PPTX/Markdown
万卷1.0多模态语料
このリポジトリに関する説明は提供されていません。
このリポジトリに関する説明は提供されていません。
UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition
MinerU-HTML: An SLM-powered HTML main content extractor that outputs clean HTML bodies. Perfect for Deep Research Agents, RAG applications, and training data generation.
[ACL 2025 Best Theme Paper] This is the official implementation for the paper: "Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models"
[ICLR 2025 Spotlight] The official implementation of the paper “LOKI:A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models”
このリポジトリに関する説明は提供されていません。
[ICLR 2026] The official implementation of the paper “Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents”
Data annotation component library --provided as NPM packages
[NeurIPS 2025 🔥] FakeVLM: Advancing Synthetic Image Detection through Explainable Multimodal Models and Fine-Grained Artifact Analysis
datasets resource
A Python package for interacting with the MinerU Vision-Language Model.
このリポジトリに関する説明は提供されていません。
このリポジトリに関する説明は提供されていません。
VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis
Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
(ICCV 2025) OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
AAAI 2024: Visual Instruction Generation and Correction
[CVPR 2024] 3D Building Reconstruction from Monocular Remote Sensing Images with Multi-level Supervisions
Data browser based on s3. 一个基于 S3 的数据(json / jsonl / parquet / html / md等)可视化工具。👇 Try online.
[ICCV 2025] The official implementation of the paper “Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm”
[ICCV25 Highlight] The official implementation of the paper "LEGION: Learning to Ground and Explain for Synthetic Image Detection"
このリポジトリに関する説明は提供されていません。
ECCV2024_Parrot Captions Teach CLIP to Spot Text
SDK of OpenDataLab - https://opendatalab.org.cn
MLLM-DataEngine: An Iterative Refinement Approach for MLLM
WanJuan3.0(“万卷·丝路”)一个作为综合性的纯文本语料库,采集了多个国家地区的网络公开信息、文献、专利等资料,数据总规模超1.2TB,Token总数超过300B,处于国际领先水平,首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GB
Data Set Description Language Specification (新一代人工智能数据集描述语言DSDL)
[ICLR 2025] This is the official implementation for the paper: "Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation"
[ACL 2024 Main Conference] Chinese commonsense benchmark for LLMs
[AAAI 2025]This repo contains evaluation code for the paper “UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios”
(CVPR 2026) TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
このリポジトリに関する説明は提供されていません。
このリポジトリに関する説明は提供されていません。
Standardized tool schemas and SDKs that expose Sciverse Open Platform retrieval capabilities to LLM agents.
[CVPR 2026] SOTA Chemical Reaction Diagram Parsing Framework
このリポジトリに関する説明は提供されていません。
MPB (Miner-PDF-Benchmark) is an end-to-end PDF document comprehension evaluation suite designed for large-scale model data scenarios.
MinerU Training Camp course materials and tutorials
このリポジトリに関する説明は提供されていません。
WebMainBench is a high-precision benchmark for evaluating web main content extraction.
The official implementation of the paper "CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis"
WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。
このリポジトリに関する説明は提供されていません。
このリポジトリに関する説明は提供されていません。
このリポジトリに関する説明は提供されていません。
このリポジトリに関する説明は提供されていません。
LabelU front-end library
🕶️ A curated list of awesome things related to MinerU
A universal command line tool for compression and decompression
このリポジトリに関する説明は提供されていません。
[AAAI25] Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning
[NAACL25 findings] Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation
[CVPR26 Highlight] The official implementation of the paper "OmniDocLayout: Towards Diverse Document Layout Generation via Coarse-to-Fine LLM Learning"
このリポジトリに関する説明は提供されていません。
このリポジトリに関する説明は提供されていません。
このリポジトリに関する説明は提供されていません。
A forked repo of the official RDKit library