KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.
15
Публичные репозитории
22 973
Всего звезд
1 146
Подписчики
Организация kvcache-ai активно ведет свою деятельность на GitHub, создавая разнообразные репозитории, в том числе такие проекты, как ktransformers и Mooncake. Основные языки программирования, используемые в их репозиториях, включают Python, Cuda, C++, Go и JavaScript, что подчеркивает их фокус на эффективном обслуживании LLM.
A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations
Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.
Описание для этого репозитория не предоставлено.
A high-throughput and memory-efficient inference and serving engine for LLMs
Описание для этого репозитория не предоставлено.
SGLang is a fast serving framework for large language models and vision language models.
FlashInfer: Kernel Library for LLM Serving
DeepEP: an efficient expert-parallel communication library that supports fault tolerance
SGLang is a fast serving framework for large language models and vision language models.
🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support
A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.
A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.
🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.
GPU cluster manager for optimized AI model deployment
SGLang is a fast serving framework for large language models and vision language models.
kvcache-ai разрабатывает ряд проектов, включая ktransformers и Mooncake, которые сосредоточены на оптимизации и обслуживании языковых моделей. Эти работы способствуют развитию технологий LLM и их практическому применению.
kvcache-ai использует несколько языков программирования, включая Python, Cuda, C++, Go и JavaScript. Это разнообразие позволяет им разрабатывать высокоэффективные решения для обслуживания языковых моделей.
Да, репозитории kvcache-ai являются публичными. Это позволяет другим разработчикам и исследователям изучать их код и вносить вклад в проекты, связанные с обслуживанием и оптимизацией языковых моделей.
Следите за kvcache.ai с помощью RepoGuard и получайте уведомления в момент появления нового публичного репозитория.
Следить за этим аккаунтом