KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.
15
Publieke repositories
22.973
Totaal aantal sterren
1.146
Volgers
De organisatie kvcache-ai is actief op GitHub met een breed scala aan openbare repositories. Hun focus ligt op efficiënte LLM-servering, met projecten zoals ktransformers en Mooncake, die gebruik maken van verschillende programmeertalen zoals Python, Cuda en C++. Deze projecten zijn ontwikkeld in samenwerking met topindustriepartners.
A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations
Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.
Geen beschrijving gegeven voor deze repository.
A high-throughput and memory-efficient inference and serving engine for LLMs
Geen beschrijving gegeven voor deze repository.
SGLang is a fast serving framework for large language models and vision language models.
FlashInfer: Kernel Library for LLM Serving
DeepEP: an efficient expert-parallel communication library that supports fault tolerance
SGLang is a fast serving framework for large language models and vision language models.
🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support
A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.
A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.
🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.
GPU cluster manager for optimized AI model deployment
SGLang is a fast serving framework for large language models and vision language models.
kvcache-ai ontwikkelt verschillende projecten op GitHub die gericht zijn op LLM-servering en optimalisatie. Belangrijke repositories zijn onder andere ktransformers, Mooncake en vllm, die efficiënte oplossingen bieden voor LLM-inferentie.
kvcache-ai gebruikt een verscheidenheid aan programmeertalen waaronder Python, Cuda, C++, Go en JavaScript. Deze talen ondersteunen hun projecten gericht op LLM-technologie en servering.
Ja, alle repositories van kvcache-ai zijn openbaar op GitHub. Dit stelt de gemeenschap in staat om de projecten in te zien, bij te dragen en gebruik te maken van hun onderzoek en ontwikkeling op het gebied van LLM-servering.
Monitor kvcache.ai met RepoGuard en krijg een waarschuwing op het moment dat er een nieuwe publieke repository verschijnt.
Monitor dit account