Mis à jour 6 min ago

Organization

Empreinte publique GitHub de kvcache.ai

KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.

Dépôts publics

22 973

Total des étoiles

1 146

Abonnés

L'organisation kvcache-ai sur GitHub présente une variété de projets orientés vers l'optimisation du service des modèles de langage. Parmi ses dépôts notables, on trouve ktransformers et Mooncake, qui exploitent des langages tels que Python, C++, et Go pour améliorer l'efficacité des inférences LLM.

Langues principales

Python 5Cuda 2C++ 1Go 1JavaScript 1

Dépôts publics

ktransformers

★17 272

A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations

Python

Mis à jour 13 juin 2026

Mooncake

★5 567

Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.

C++

Mis à jour 13 juin 2026

TrEnv-X

★84

Aucune description fournie pour ce dépôt.

Mis à jour 1 juin 2026

vllm

★15

A high-throughput and memory-efficient inference and serving engine for LLMs

Python

Mis à jour 26 mai 2026

kvcache-blog

★11

Aucune description fournie pour ce dépôt.

JavaScript

Mis à jour 12 juin 2026

sglang

★11

SGLang is a fast serving framework for large language models and vision language models.

Python

Mis à jour 5 juin 2026

custom_flashinfer

★7

FlashInfer: Kernel Library for LLM Serving

Cuda

Mis à jour 1 mars 2026

DeepEP_fault_tolerance

★3

DeepEP: an efficient expert-parallel communication library that supports fault tolerance

Cuda

Mis à jour 10 mars 2026

sglang_awq

★2

SGLang is a fast serving framework for large language models and vision language models.

Python

Mis à jour 2 mars 2026

accelerate

★1

🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support

Langue inconnue

Mis à jour 13 avr. 2026

Model-Optimizer

★0

A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.

Langue inconnue

Mis à jour 6 mai 2026

evalscope

★0

A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.

Python

Mis à jour 10 avr. 2026

transformers

★0

🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.

Langue inconnue

Mis à jour 7 avr. 2026

gpustack

★0

GPU cluster manager for optimized AI model deployment

Langue inconnue

Mis à jour 8 déc. 2025

sglang-npu

★0

SGLang is a fast serving framework for large language models and vision language models.

Langue inconnue

Mis à jour 12 août 2025

Questions fréquemment posées

Quels projets kvcache-ai développe-t-il sur GitHub ?

kvcache-ai développe plusieurs projets liés à l'optimisation des modèles de langage, tels que ktransformers et Mooncake, qui servent de cadre flexible pour l'inférence LLM et la plateforme de service pour Kimi.

Quels langages de programmation utilise kvcache-ai ?

kvcache-ai utilise une gamme de langages de programmation, notamment Python, Cuda, C++, Go et JavaScript, pour ses projets variés axés sur l'efficacité des modèles de langage.

Les dépôts de kvcache-ai sont-ils publics ?

Oui, tous les dépôts de kvcache-ai sur GitHub sont publics, permettant à la communauté de consulter et de contribuer aux projets axés sur l'optimisation des modèles de langage.

Cette exposition est-elle intentionnelle ?

Surveillez kvcache.ai avec RepoGuard et soyez alerté dès qu'un nouveau dépôt public apparaît.

Surveiller ce compte