Actualizado 2 min ago

Organization

Huella pública de GitHub de kvcache.ai

KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.

Repositorios públicos

22.973

Total de estrellas

1146

Seguidores

La organización kvcache-ai en GitHub se centra en la investigación y desarrollo de soluciones eficientes para el servicio de modelos de lenguaje grande (LLM). Sus principales lenguajes de programación incluyen Python, Cuda y C++. Entre sus repositorios destacados se encuentran ktransformers y Mooncake, que abordan optimizaciones para la inferencia y el servicio de LLMs.

Principales lenguajes

Python 5Cuda 2C++ 1Go 1JavaScript 1

Repositorios públicos

ktransformers

★17.272

A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations

Python

Actualizado 13 jun 2026

Mooncake

★5567

Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.

C++

Actualizado 13 jun 2026

TrEnv-X

★84

No se proporcionó descripción para este repositorio.

Actualizado 1 jun 2026

vllm

★15

A high-throughput and memory-efficient inference and serving engine for LLMs

Python

Actualizado 26 may 2026

kvcache-blog

★11

No se proporcionó descripción para este repositorio.

JavaScript

Actualizado 12 jun 2026

sglang

★11

SGLang is a fast serving framework for large language models and vision language models.

Python

Actualizado 5 jun 2026

custom_flashinfer

★7

FlashInfer: Kernel Library for LLM Serving

Cuda

Actualizado 1 mar 2026

DeepEP_fault_tolerance

★3

DeepEP: an efficient expert-parallel communication library that supports fault tolerance

Cuda

Actualizado 10 mar 2026

sglang_awq

★2

SGLang is a fast serving framework for large language models and vision language models.

Python

Actualizado 2 mar 2026

accelerate

★1

🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support

Idioma desconocido

Actualizado 13 abr 2026

Model-Optimizer

★0

A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.

Idioma desconocido

Actualizado 6 may 2026

evalscope

★0

A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.

Python

Actualizado 10 abr 2026

transformers

★0

🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.

Idioma desconocido

Actualizado 7 abr 2026

gpustack

★0

GPU cluster manager for optimized AI model deployment

Idioma desconocido

Actualizado 8 dic 2025

sglang-npu

★0

SGLang is a fast serving framework for large language models and vision language models.

Idioma desconocido

Actualizado 12 ago 2025

Preguntas frecuentes

¿Qué construye kvcache-ai en GitHub?

kvcache-ai desarrolla una variedad de proyectos relacionados con la optimización y el servicio de modelos de lenguaje grande (LLM). Sus repositorios incluyen ktransformers, que se centra en la inferencia de LLM, y Mooncake, que actúa como plataforma de servicio para LLMs.

¿Qué lenguajes de programación utiliza kvcache-ai?

kvcache-ai utiliza varios lenguajes de programación en sus proyectos, siendo los principales Python, Cuda, C++, Go y JavaScript. Esta diversidad permite el desarrollo de herramientas especializadas para el servicio de modelos de lenguaje.

¿Son públicos los repositorios de kvcache-ai?

Sí, todos los repositorios de kvcache-ai son públicos en GitHub. Esto permite que la comunidad acceda a sus proyectos y contribuya a la investigación sobre el servicio eficiente de modelos de lenguaje grande.

¿Esta exposición es intencionada?

Monitorea a kvcache.ai con RepoGuard y recibe alertas en el momento en que aparece un nuevo repositorio público.

Monitorea esta cuenta