爱敲代码の鱼儿-博客
Llumnix:大型语言模型服务的动态调度 Llumnix:大型语言模型服务的动态调度
Llumnix:大型语言模型服务的动态调度背景1.LLM服务多样化,有总结任务,有生成小说任务,有VIP任务。 KV-cache会随着推理越来越多,对GPU内存的需求也在增加。 使用动态内存分配的连续批处理 GPU满载容易爆炸,所
2024-12-30
DistServe:为大语言模型服务进行prefill和decode的分解 DistServe:为大语言模型服务进行prefill和decode的分解
DistServe:为大语言模型服务进行prefill和decode的分解DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language
2024-12-12
ServerlessLLM:大型语言模型的低延迟无服务器推理 ServerlessLLM:大型语言模型的低延迟无服务器推理
ServerlessLLM:大型语言模型的低延迟无服务器推理背景 当使用Serverless部署LLM时,由于用户需要的LLM模型(gpt-4o,openai-1o,Longchat-lite),各式各样,将模型全部保存在本地存在巨量GPU
2024-11-12
数据中心中大语言模型开发的表征-NSDI'24 数据中心中大语言模型开发的表征-NSDI'24
数据中心中大语言模型开发的表征-NSDI’24LLM和普通的深度学习不同。尤其是在范式转变,定制软件栈和模型架构层面。 为了解决这一差距,我们对上海人工智能实验室的数据中心Acme的运营经验进行了深入研究。 该中心拥有两个专门用于LLM开发
2024-10-14