KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.
15
Öffentliche Repositories
22.965
Sterne gesamt
1.146
Follower
Die öffentliche GitHub-Präsenz von kvcache.ai umfasst eine Vielzahl von Repositories, die sich auf effizientes LLM-Serving konzentrieren. Zu den Hauptprogrammiersprachen gehören Python, Cuda, C++, Go und JavaScript. Bedeutende Repositories wie ktransformers und Mooncake sind in der Community weit verbreitet und bieten innovative Lösungen im Bereich der Sprachmodelloptimierung.
A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations
Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.
Keine Beschreibung für dieses Repository vorhanden.
A high-throughput and memory-efficient inference and serving engine for LLMs
Keine Beschreibung für dieses Repository vorhanden.
SGLang is a fast serving framework for large language models and vision language models.
FlashInfer: Kernel Library for LLM Serving
DeepEP: an efficient expert-parallel communication library that supports fault tolerance
SGLang is a fast serving framework for large language models and vision language models.
🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support
A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.
A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.
🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.
GPU cluster manager for optimized AI model deployment
SGLang is a fast serving framework for large language models and vision language models.
kvcache-ai entwickelt eine Reihe von Projekten, die sich mit dem Serving und der Optimierung von großen Sprachmodellen beschäftigen. Zu den bemerkenswerten Repositories gehören ktransformers und Mooncake, die innovative Ansätze in diesem Bereich bieten.
Die Hauptprogrammiersprachen von kvcache-ai sind Python, Cuda, C++, Go und JavaScript. Diese Sprachen werden in verschiedenen Repositories eingesetzt, um effiziente Lösungen für LLM-Serving zu entwickeln.
Ja, die Repositories von kvcache-ai sind öffentlich zugänglich. Dies ermöglicht es der Entwicklergemeinschaft, auf die Ressourcen zuzugreifen und zur Weiterentwicklung von Projekten wie ktransformers und Mooncake beizutragen.
Überwache kvcache.ai mit RepoGuard und werde benachrichtigt, sobald ein neues öffentliches Repository auftaucht.
Diesen Account überwachen