Llumnix:大型语言模型服务的动态调度背景1.LLM服务多样化,有总结任务,有生成小说任务,有VIP任务。
KV-cache会随着推理越来越多,对GPU内存的需求也在增加。
使用动态内存分配的连续批处理
GPU满载容易爆炸,所
2024-12-30