Tổ chức allenai có một sự hiện diện mạnh mẽ trên GitHub với một loạt các kho mã nguồn công khai. Họ chủ yếu sử dụng các ngôn ngữ như Python, C# và Scala, và có nhiều dự án nổi bật như allennlp, OLMo và longformer, phục vụ cho nghiên cứu và phát triển trong lĩnh vực trí tuệ nhân tạo.
Toolkit for linearizing PDFs for LLM datasets/training
An open-source NLP research library, built on PyTorch.
Modeling, training, eval, and inference code for OLMo
AllenAI's post-training codebase
A modular RL library to fine-tune language models to human preferences
Longformer: The Long-Document Transformer
A full spaCy pipeline and models for scientific/biomedical documents.
An open-source platform for Visual AI.
A BERT model for scientific text.
Data and tools for generating and inspecting OLMo pre-training data.
🪐 Objaverse-XL is a Universe of 10M+ 3D Objects. Contains API Scripts for Downloading and Processing!
PyTorch building blocks for the OLMo ecosystem
S2ORC: The Semantic Scholar Open Research Corpus: https://www.aclweb.org/anthology/2020.acl-main.447/
Expanding natural instructions
OLMoE: Open Mixture-of-Experts Language Models
Code for the Molmo Vision-Language Model
ImageNet classification using binary Convolutional Neural Networks
library supporting NLP and CV research on scientific papers
Official code for VisProg (CVPR 2023 Best Paper!)
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Given a scholarly PDF, extract figures, tables, captions, and section titles.
RewardBench: the first evaluation tool for reward models.
Code for the Molmo2 Vision-Language Model
Official Repository for MolmoAct2
SPECTER: Document-level Representation Learning using Citation-informed Transformers
Allen Institute for AI: WildDet3D: Scaling Promptable 3D Detection in the Wild
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Officially supported AllenNLP models
CVPR 2024: Language Guided Generation of 3D Embodied AI Environments.
Code associated with the Don't Stop Pretraining ACL 2020 paper
An open-source implementation of Whisper
Parsers for scientific papers (PDF2JSON, TEX2JSON, JATS2JSON)
🏘️ Scaling Embodied AI by Procedurally Generating Interactive 3D Houses
A deep NLP library, based on Keras / tf, focused on question answering (but useful for other NLP too)
An open source framework for research in Embodied-AI from AI2.
Reproducible, flexible LLM evaluations
Official Repository for MolmoAct
One framework to evaluate any VLA model on any robot simulation benchmark.
ScienceWorld is a text-based virtual environment centered around accomplishing tasks from the standardized elementary science curriculum.
An end-to-end open ecosystem for robot learning
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Repo housing the open sourced code for the ai2 scholar qa app and also the corresponding library
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Public space for the user community of Semantic Scholar APIs to share scripts, report issues, and make suggestions.
Data and models for the SciFact verification task.
Benchmarking LLMs with Challenging Tasks from Real Users
Earth system foundation model data, training, and eval
frozen-in-time version of our Paper Finder agent for reproducing evaluation results
Không có mô tả nào được cung cấp cho kho lưu trữ này.
A virtual environment for developing and evaluating automated scientific discovery agents.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Official code for NeurIPS 2025 paper "AutoDiscovery: Open-ended Scientific Discovery via Bayesian Surprise"
Dataset of medical images, captions, subfigure-subcaption annotations, and inline textual references
ACL 2025: Synthetic data generation pipelines for text-rich images.
Discovering Data-driven Hypotheses in the Wild
Data generation and training repository for SERA: Soft-Verified Efficient Repository Agents.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Code for Bolmo: Byteifying the Next Generation of Language Models
Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs
Official repository for the A-OKVQA dataset
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Semantic Scholar's Author Disambiguation Algorithm & Evaluation Suite
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Repository for Decomposed Prompting
RoboTHOR Challenge
Code and website for "MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation".
A tool for developing remote sensing datasets and models.
Tooling for exact and MinHash deduplication of large-scale text datasets
OlmoEarth projects
CodeNav is an LLM agent that navigates and leverages previously unseen code repositories to solve user queries.
Efficient and low latency real-time global-scale GPS trajectory modeling
📱👉🏠 Perform conditional procedural generation to generate houses like your own!
Collection of public APIs for embedding scientific papers
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
ArtifactLinker: Linking Scientific Artifacts for Automatic State-of-the-Art Discovery
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Measuring the Signal to Noise Ratio in Language Model Evaluation
Reasoning by Communicating with Agents
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Benchmarking Generalization to New Tasks from Natural Language Instructions
A machine learning software for extracting information from scholarly documents
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
A web application for playing 20 Questions to crowdsource common sense. 🤖
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Synthetic GUI Pointing Data Generation
A fast AWS S3 browser, with inspiration from s5cmd
A Python Library for Document Layout Understanding
Resource manager for MolmoSpaces
GitHub actions for skiff2 repositories.
Repo for collection of feedback on OlmoEarth
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Evaluation code for the paper "Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users"
Policy zoo for data generation + evaluation in MolmoSpaces
Facebook AI Research Sequence-to-Sequence Toolkit written in Python.
allenai phát triển một loạt các dự án mã nguồn mở, bao gồm thư viện NLP allennlp và công cụ mô hình hóa OLMo. Những dự án này tập trung vào nghiên cứu và ứng dụng trí tuệ nhân tạo.
allenai chủ yếu sử dụng các ngôn ngữ lập trình như Python, Jupyter Notebook, C# và Scala cho các dự án của họ, cho phép họ phát triển các giải pháp AI đa dạng và hiệu quả.
Có, tất cả các kho mã nguồn của allenai đều là công khai trên GitHub. Điều này cho phép cộng đồng nghiên cứu và phát triển có thể truy cập, sử dụng và đóng góp cho các dự án của họ.
Theo dõi Ai2 với RepoGuard và nhận cảnh báo ngay khi có kho lưu trữ công khai mới xuất hiện.
Theo dõi tài khoản này