This is the repo of LAION, a non-profit organization to liberate machine learning research, models and datasets.
126
Kho lưu trữ công khai
47.159
Tổng số sao
4.257
Người theo dõi
LAION-AI là một tổ chức phi lợi nhuận hoạt động trên GitHub, nơi họ chia sẻ một loạt các kho mã nguồn công khai liên quan đến nghiên cứu và mô hình học máy. Các ngôn ngữ chính mà họ sử dụng bao gồm Python, Jupyter Notebook và TypeScript, với nhiều kho nổi bật như Open-Assistant và CLAP.
OpenAssistant is a chat-based assistant that understands tasks, can interact with third-party systems, and retrieve information dynamically to do so.
Contrastive Language-Audio Pretraining
CLIP-like model evaluation
Audio Dataset for training CLAP and other models
A linear estimator on top of clip to predict the aesthetic quality of pictures
Pretrained Dalle2 from laion
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
A summary of all lucidrains repositores and links to training / research approaches by LAION or other communities.
Collect large 3d dataset and build models
Description and pointers of laion datasets
A phenaki reproduction using pytorch.
Open Instruction Generalist is an assistant trained on massive synthetic instructions to perform many millions of tasks
Reproducible scaling laws for contrastive language-image learning (https://arxiv.org/abs/2212.07143)
Home of `erlich` and `ongo`. Finetune latent-diffusion/glid-3-xl text2image on your own data.
Aim for the moon. If you miss, you may hit a star.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Alice in Wonderland code base for experiments and raw experiments data
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Implementation of a discord channel scraper to generate datasets.
Let's make a video clip
O-GIA is an umbrella for research, infrastructure and projects ecosystem that should provide open source, reproducible datasets, models, applications & safety tools for Open Generalist Interactive Agents (O-GIA). O-GIA systems will act in collaboration with human or autonomously, supporting various kind of validated decision making and assistance.
A repository containing datasets and tools to train a watermark classifier.
An open toolbox for NSFW & toxicity detection
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Big-Interleaved-Dataset
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Tools for content datamining and NLP at scale
BUD-E (Buddy) is an open-source voice assistant framework that facilitates seamless interaction with AI models and APIs, enabling the creation and integration of diverse skills for educational and research applications.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Adversarial Training and SFT for Bot Safety Models
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Inverts CLIP text embeds to image embeds and visualizes with deep-image-prior.
Building the laion5B paper
This repository contains prompts & best practices to annotate audio clips with a very high degree of details using Audio-Language-Models
Aggregating embeddings over time
This repository will be a summary and outlook on all our open, medical, AI advancements.
(wip) Use LAION-AI's CLIP "conditoned prior" to generate CLIP image embeds from CLIP text embeds.
Anh - LAION's multilingual assistant datasets and models
Scaled diffusion transformer for text-to-speech synthesis (DiT + T5Gemma2 conditioning, TorchTitan & Megatron backends, tested up to 1024 GPUs)
BUD-E (Buddy) is an open-source voice assistant framework that facilitates seamless interaction with AI models and APIs, enabling the creation and integration of diverse skills for educational and research applications.
Un-*** 50 billions multimodality dataset
Không có mô tả nào được cung cấp cho kho lưu trữ này.
A frontend that is compatible to the school-bud-e-backend.
Here we provide and collect many functions to generate math problem and step by step solutions for LLM training
Không có mô tả nào được cung cấp cho kho lưu trữ này.
A general human-ai interaction platform.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Open-weights voice acting pipeline combining zero-shot voice cloning with natural-language direction. Provide a reference voice (or generate one) and describe how the line should be performed. Produces speech that keeps the voice identity while following emotional and stylistic prompts—no training required.
Frontend (and soon also midleware and backend) for a new, opensource image generation platform.
This project provides a data set with bounding boxes, body poses, 3D face meshes & captions of people from our LAION-2.2B. Additionally it provides clusters based on the poses and face meshes and pose-related captions based on these cluster assignments.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
This is the LAION repository for creating open super-resolution models with the help of LAION-5B subsets.
This repository contains training code and checkpoitns for finetuning glide.
Projects at LAION
Easily compute model embeddings and save the embeddings.
Official repo for Project Alexandria
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Knowledge Acquisition and Interlinking via Semantic Embeddings and Reasoning
MegaTron open-sci fork
Collection of three complementary voice taxonomies: VoiceNet (59 speech dimensions), EmoNet (40 emotion categories), VocalBurst (82 non-speech sounds)
Retrieval-augmented voice cloning and emotion conditioning data generation pipeline. Combines Echo TTS, ChatterboxVC, and Empathic Insight Voice+ to generate large-scale datasets of emotionally conditioned speech with disentangled speaker identity and emotional prosody.
OpenCLIP fork with MaMMUT support
A collection of safety classifiers and models to process image and texts.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Official repository for the NeurIPS 2025 paper “EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition.” Includes a 40-category emotion taxonomy, balanced synthetic datasets, expert annotations, and baseline models for fair and reproducible evaluation.
A repository with data for annotation.
A basic setup for decentralized-learning that can be used for training future DALLE/CLIP/CLAP models.
High-level Python library for zero-shot voice conversion using Resemble AI's Chatterbox S3Gen model
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Building an agentic voice assistant for mobile & desktop devices with episodic, semantic & procedural memories
A template for procedural template generation using JSON outputs form LLMs.
Alice in Wonderland project and initiative webpage
Creating subsets from laion5b via embeddings search
Không có mô tả nào được cung cấp cho kho lưu trữ này.
File server for curiosit-e content.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
A prototype showing how to stream using Django x htmx.
A client library for Crawling@Home's effort to filter CommonCrawl with CLIP, building a large scale image-text dataset.
School Bud-E is an intelligent and empathetic learning assistant designed to revolutionize the educational experience.
Admin Bud-E is a lightweight, privacy-first control center for AI chat, speech-to-text, and text-to-speech. Manage providers, routing, and costs with a simple Admin Console. Give users per-period credits, prices per model, and a shared Common Pool. EU-friendly via OpenAI-Format endpoints or our optional Google Cloud Vertex proxy.
🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Mobile app development of all bud-e derivatives.
LaionBox: Fine-tuned DramaBox TTS with Multi-Auxiliary Differentiable Losses
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Self-contained DramaBox voice acting pipeline: VoiceNet taxonomy, multi-GPU prompt generation, TTS synthesis, and audio refinement
Benchmark analysis
JAX/TPU training code for EchoTTS with DACVAE latent codec
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Multi-node scaling benchmarks for CLAP contrastive audio-language models on HPC clusters
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
Không có mô tả nào được cung cấp cho kho lưu trữ này.
LAION-AI phát triển nhiều dự án mã nguồn mở liên quan đến học máy, bao gồm Open-Assistant, một trợ lý chat thông minh, và CLAP, một công cụ tiền huấn luyện ngôn ngữ và âm thanh.
LAION-AI chủ yếu sử dụng các ngôn ngữ lập trình như Python, Jupyter Notebook và TypeScript trong các dự án của mình, cho phép họ tạo ra nhiều kho mã nguồn đa dạng và hữu ích.
Các kho mã của LAION-AI đều được công khai trên GitHub, cho phép cộng đồng truy cập, sử dụng và đóng góp cho các dự án nghiên cứu và phát triển của tổ chức.
Theo dõi LAION AI với RepoGuard và nhận cảnh báo ngay khi có kho lưu trữ công khai mới xuất hiện.
Theo dõi tài khoản này