Mooncake:以 KVCache 为中心的服务分解架构LLMFast’25 CCFA
背景Kimi,要在满足TTFT和TPOT的SLO的基础上,增大吞吐量
高峰期,机器其实是有限的,prefill后,decode实例不够用。要学会拒绝
2025-04-21