Bijgewerkt 4 min ago

Organization

Publieke GitHub-voetafdruk van kvcache.ai

KVCache.AI is a joint research project between MADSys and top industry collaborators, focusing on efficient LLM serving.

Publieke repositories

22.973

Totaal aantal sterren

1.146

Volgers

De organisatie kvcache-ai is actief op GitHub met een breed scala aan openbare repositories. Hun focus ligt op efficiënte LLM-servering, met projecten zoals ktransformers en Mooncake, die gebruik maken van verschillende programmeertalen zoals Python, Cuda en C++. Deze projecten zijn ontwikkeld in samenwerking met topindustriepartners.

Top talen

Python 5Cuda 2C++ 1Go 1JavaScript 1

Publieke repositories

ktransformers

★17.272

A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations

Python

Bijgewerkt 13 jun 2026

Mooncake

★5.567

Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI.

C++

Bijgewerkt 13 jun 2026

TrEnv-X

★84

Geen beschrijving gegeven voor deze repository.

Bijgewerkt 1 jun 2026

vllm

★15

A high-throughput and memory-efficient inference and serving engine for LLMs

Python

Bijgewerkt 26 mei 2026

kvcache-blog

★11

Geen beschrijving gegeven voor deze repository.

JavaScript

Bijgewerkt 12 jun 2026

sglang

★11

SGLang is a fast serving framework for large language models and vision language models.

Python

Bijgewerkt 5 jun 2026

custom_flashinfer

★7

FlashInfer: Kernel Library for LLM Serving

Cuda

Bijgewerkt 1 mrt 2026

DeepEP_fault_tolerance

★3

DeepEP: an efficient expert-parallel communication library that supports fault tolerance

Cuda

Bijgewerkt 10 mrt 2026

sglang_awq

★2

SGLang is a fast serving framework for large language models and vision language models.

Python

Bijgewerkt 2 mrt 2026

accelerate

★1

🚀 A simple way to launch, train, and use PyTorch models on almost any device and distributed configuration, automatic mixed precision (including fp8), and easy-to-configure FSDP and DeepSpeed support

Onbekende taal

Bijgewerkt 13 apr 2026

Model-Optimizer

★0

A unified library of SOTA model optimization techniques like quantization, pruning, distillation, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed.

Onbekende taal

Bijgewerkt 6 mei 2026

evalscope

★0

A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.

Python

Bijgewerkt 10 apr 2026

transformers

★0

🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.

Onbekende taal

Bijgewerkt 7 apr 2026

gpustack

★0

GPU cluster manager for optimized AI model deployment

Onbekende taal

Bijgewerkt 8 dec 2025

sglang-npu

★0

SGLang is a fast serving framework for large language models and vision language models.

Onbekende taal

Bijgewerkt 12 aug 2025

Veelgestelde vragen

Wat bouwt kvcache-ai op GitHub?

kvcache-ai ontwikkelt verschillende projecten op GitHub die gericht zijn op LLM-servering en optimalisatie. Belangrijke repositories zijn onder andere ktransformers, Mooncake en vllm, die efficiënte oplossingen bieden voor LLM-inferentie.

Welke programmeertalen gebruikt kvcache-ai?

kvcache-ai gebruikt een verscheidenheid aan programmeertalen waaronder Python, Cuda, C++, Go en JavaScript. Deze talen ondersteunen hun projecten gericht op LLM-technologie en servering.

Zijn de repositories van kvcache-ai openbaar?

Ja, alle repositories van kvcache-ai zijn openbaar op GitHub. Dit stelt de gemeenschap in staat om de projecten in te zien, bij te dragen en gebruik te maken van hun onderzoek en ontwikkeling op het gebied van LLM-servering.

Is deze blootstelling bedoeld?

Monitor kvcache.ai met RepoGuard en krijg een waarschuwing op het moment dat er een nieuwe publieke repository verschijnt.

Monitor dit account