OpenDataLab provides access to numerous significant open-source datasets.
67
Kho lưu trữ công khai
90.614
Tổng số sao
2.785
Người theo dõi
OpenDataLab là một tổ chức trên GitHub chuyên cung cấp quyền truy cập vào nhiều bộ dữ liệu mã nguồn mở quan trọng. Các dự án của họ chủ yếu sử dụng Python và TypeScript, với những kho nổi bật như MinerU và PDF-Extract-Kit, phục vụ cho việc trích xuất và phân tích tài liệu.
Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.
A Comprehensive Toolkit for High-Quality PDF Content Extraction
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception
[CVPR 2025] A Comprehensive Benchmark for Document Parsing and Evaluation
Open-source multimodal data annotation platform with AI auto-annotation support.
The Open-Source Data Annotation Platform
A diffusion-based framework for document OCR that replaces autoregressive decoding with block-level parallel diffusion decoding.
Agent-native knowledge engine with MCP tools for document indexing, wiki organization, fast retrieval and deep reading across PDF/DOCX/PPTX/Markdown
万卷1.0多模态语料
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition
MinerU-HTML: An SLM-powered HTML main content extractor that outputs clean HTML bodies. Perfect for Deep Research Agents, RAG applications, and training data generation.
[ACL 2025 Best Theme Paper] This is the official implementation for the paper: "Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models"
[ICLR 2025 Spotlight] The official implementation of the paper “LOKI:A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models”
Không có mô tả nào được cung cấp cho kho lưu trữ này.
[ICLR 2026] The official implementation of the paper “Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents”
Data annotation component library --provided as NPM packages
[NeurIPS 2025 🔥] FakeVLM: Advancing Synthetic Image Detection through Explainable Multimodal Models and Fine-Grained Artifact Analysis
datasets resource
A Python package for interacting with the MinerU Vision-Language Model.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis
Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
(ICCV 2025) OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
AAAI 2024: Visual Instruction Generation and Correction
[CVPR 2024] 3D Building Reconstruction from Monocular Remote Sensing Images with Multi-level Supervisions
Data browser based on s3. 一个基于 S3 的数据(json / jsonl / parquet / html / md等)可视化工具。👇 Try online.
[ICCV 2025] The official implementation of the paper “Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm”
[ICCV25 Highlight] The official implementation of the paper "LEGION: Learning to Ground and Explain for Synthetic Image Detection"
Không có mô tả nào được cung cấp cho kho lưu trữ này.
ECCV2024_Parrot Captions Teach CLIP to Spot Text
SDK of OpenDataLab - https://opendatalab.org.cn
MLLM-DataEngine: An Iterative Refinement Approach for MLLM
WanJuan3.0(“万卷·丝路”)一个作为综合性的纯文本语料库,采集了多个国家地区的网络公开信息、文献、专利等资料,数据总规模超1.2TB,Token总数超过300B,处于国际领先水平,首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GB
Data Set Description Language Specification (新一代人工智能数据集描述语言DSDL)
[ICLR 2025] This is the official implementation for the paper: "Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation"
[ACL 2024 Main Conference] Chinese commonsense benchmark for LLMs
[AAAI 2025]This repo contains evaluation code for the paper “UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios”
(CVPR 2026) TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Standardized tool schemas and SDKs that expose Sciverse Open Platform retrieval capabilities to LLM agents.
[CVPR 2026] SOTA Chemical Reaction Diagram Parsing Framework
Không có mô tả nào được cung cấp cho kho lưu trữ này.
MPB (Miner-PDF-Benchmark) is an end-to-end PDF document comprehension evaluation suite designed for large-scale model data scenarios.
MinerU Training Camp course materials and tutorials
Không có mô tả nào được cung cấp cho kho lưu trữ này.
WebMainBench is a high-precision benchmark for evaluating web main content extraction.
The official implementation of the paper "CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis"
WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
LabelU front-end library
🕶️ A curated list of awesome things related to MinerU
A universal command line tool for compression and decompression
Không có mô tả nào được cung cấp cho kho lưu trữ này.
[AAAI25] Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning
[NAACL25 findings] Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation
[CVPR26 Highlight] The official implementation of the paper "OmniDocLayout: Towards Diverse Document Layout Generation via Coarse-to-Fine LLM Learning"
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
A forked repo of the official RDKit library
opendatalab phát triển nhiều kho dữ liệu mã nguồn mở, bao gồm các công cụ như MinerU, PDF-Extract-Kit, và DocLayout-YOLO, phục vụ cho việc trích xuất và phân tích tài liệu phức tạp.
opendatalab chủ yếu sử dụng các ngôn ngữ lập trình như Python và TypeScript, cùng với HTML, JavaScript và Jupyter Notebook trong các dự án của họ.
Các kho lưu trữ của opendatalab đều công khai trên GitHub, cho phép người dùng truy cập và đóng góp vào các dự án mã nguồn mở của họ.
Theo dõi OpenDataLab với RepoGuard và nhận cảnh báo ngay khi có kho lưu trữ công khai mới xuất hiện.
Theo dõi tài khoản này