KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.
15
Dépôts publics
22 973
Total des étoiles
1 146
Abonnés
L'organisation kvcache-ai sur GitHub présente une variété de projets orientés vers l'optimisation du service des modèles de langage. Parmi ses dépôts notables, on trouve ktransformers et Mooncake, qui exploitent des langages tels que Python, C++, et Go pour améliorer l'efficacité des inférences LLM.
A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations
Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.
Aucune description fournie pour ce dépôt.
A high-throughput and memory-efficient inference and serving engine for LLMs
Aucune description fournie pour ce dépôt.
SGLang is a fast serving framework for large language models and vision language models.
FlashInfer: Kernel Library for LLM Serving
DeepEP: an efficient expert-parallel communication library that supports fault tolerance
SGLang is a fast serving framework for large language models and vision language models.
🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support
A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.
A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.
🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.
GPU cluster manager for optimized AI model deployment
SGLang is a fast serving framework for large language models and vision language models.
kvcache-ai développe plusieurs projets liés à l'optimisation des modèles de langage, tels que ktransformers et Mooncake, qui servent de cadre flexible pour l'inférence LLM et la plateforme de service pour Kimi.
kvcache-ai utilise une gamme de langages de programmation, notamment Python, Cuda, C++, Go et JavaScript, pour ses projets variés axés sur l'efficacité des modèles de langage.
Oui, tous les dépôts de kvcache-ai sur GitHub sont publics, permettant à la communauté de consulter et de contribuer aux projets axés sur l'optimisation des modèles de langage.
Surveillez kvcache.ai avec RepoGuard et soyez alerté dès qu'un nouveau dépôt public apparaît.
Surveiller ce compte