Aggiornato 1 h ago

Organization

Impronta pubblica su GitHub di kvcache.ai

KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.

Repository pubblici

22.973

Stelle totali

1146

Follower

L'organizzazione kvcache-ai su GitHub presenta una vasta gamma di repository focalizzati sulla ricerca e lo sviluppo di tecnologie per l'ottimizzazione del servizio di modelli di linguaggio. Utilizza principalmente linguaggi come Python, Cuda, C++, Go e JavaScript. Tra i progetti più noti ci sono ktransformers e Mooncake, che sono strumenti fondamentali per l'inferenza e l'ottimizzazione dei modelli LLM.

Lingue principali

Python 5Cuda 2C++ 1Go 1JavaScript 1

Repository pubblici

ktransformers

★17.272

A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations

Python

Aggiornato 13 giu 2026

Mooncake

★5567

Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.

C++

Aggiornato 13 giu 2026

TrEnv-X

★84

Nessuna descrizione fornita per questo repository.

Aggiornato 1 giu 2026

vllm

★15

A high-throughput and memory-efficient inference and serving engine for LLMs

Python

Aggiornato 26 mag 2026

kvcache-blog

★11

Nessuna descrizione fornita per questo repository.

JavaScript

Aggiornato 12 giu 2026

sglang

★11

SGLang is a fast serving framework for large language models and vision language models.

Python

Aggiornato 5 giu 2026

custom_flashinfer

★7

FlashInfer: Kernel Library for LLM Serving

Cuda

Aggiornato 1 mar 2026

DeepEP_fault_tolerance

★3

DeepEP: an efficient expert-parallel communication library that supports fault tolerance

Cuda

Aggiornato 10 mar 2026

sglang_awq

★2

SGLang is a fast serving framework for large language models and vision language models.

Python

Aggiornato 2 mar 2026

accelerate

★1

🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support

Lingua sconosciuta

Aggiornato 13 apr 2026

Model-Optimizer

★0

A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.

Lingua sconosciuta

Aggiornato 6 mag 2026

evalscope

★0

A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.

Python

Aggiornato 10 apr 2026

transformers

★0

🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.

Lingua sconosciuta

Aggiornato 7 apr 2026

gpustack

★0

GPU cluster manager for optimized AI model deployment

Lingua sconosciuta

Aggiornato 8 dic 2025

sglang-npu

★0

SGLang is a fast serving framework for large language models and vision language models.

Lingua sconosciuta

Aggiornato 12 ago 2025

Domande frequenti

Cosa costruisce kvcache-ai su GitHub?

kvcache-ai sviluppa progetti legati all'ottimizzazione e al servizio di modelli di linguaggio. I repository includono framework come ktransformers e Mooncake, che supportano l'inferenza e la fine-tuning di modelli LLM.

Quali linguaggi di programmazione utilizza kvcache-ai?

kvcache-ai utilizza diverse lingue di programmazione, tra cui Python, Cuda, C++, Go e JavaScript. Questi linguaggi sono scelti per le loro capacità nel gestire applicazioni avanzate di machine learning.

I repository di kvcache-ai sono pubblici?

Sì, tutti i repository di kvcache-ai su GitHub sono pubblici. Questo consente a ricercatori e sviluppatori di accedere e contribuire a progetti che riguardano l'ottimizzazione del servizio di modelli di linguaggio.

Questa esposizione è intenzionata?

Monitora kvcache.ai con RepoGuard e ricevi un avviso nel momento in cui appare un nuovo repository pubblico.

Monitora questo account