KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.
15
Repository pubblici
22.973
Stelle totali
1146
Follower
L'organizzazione kvcache-ai su GitHub presenta una vasta gamma di repository focalizzati sulla ricerca e lo sviluppo di tecnologie per l'ottimizzazione del servizio di modelli di linguaggio. Utilizza principalmente linguaggi come Python, Cuda, C++, Go e JavaScript. Tra i progetti più noti ci sono ktransformers e Mooncake, che sono strumenti fondamentali per l'inferenza e l'ottimizzazione dei modelli LLM.
A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations
Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.
Nessuna descrizione fornita per questo repository.
A high-throughput and memory-efficient inference and serving engine for LLMs
Nessuna descrizione fornita per questo repository.
SGLang is a fast serving framework for large language models and vision language models.
FlashInfer: Kernel Library for LLM Serving
DeepEP: an efficient expert-parallel communication library that supports fault tolerance
SGLang is a fast serving framework for large language models and vision language models.
🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support
A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.
A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.
🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.
GPU cluster manager for optimized AI model deployment
SGLang is a fast serving framework for large language models and vision language models.
kvcache-ai sviluppa progetti legati all'ottimizzazione e al servizio di modelli di linguaggio. I repository includono framework come ktransformers e Mooncake, che supportano l'inferenza e la fine-tuning di modelli LLM.
kvcache-ai utilizza diverse lingue di programmazione, tra cui Python, Cuda, C++, Go e JavaScript. Questi linguaggi sono scelti per le loro capacità nel gestire applicazioni avanzate di machine learning.
Sì, tutti i repository di kvcache-ai su GitHub sono pubblici. Questo consente a ricercatori e sviluppatori di accedere e contribuire a progetti che riguardano l'ottimizzazione del servizio di modelli di linguaggio.
Monitora kvcache.ai con RepoGuard e ricevi un avviso nel momento in cui appare un nuovo repository pubblico.
Monitora questo account