爱敲代码の鱼儿-博客
Mooncake:以 KVCache 为中心的服务分解架构LLM Mooncake:以 KVCache 为中心的服务分解架构LLM
Mooncake:以 KVCache 为中心的服务分解架构LLMFast’25 CCFA 背景Kimi,要在满足TTFT和TPOT的SLO的基础上,增大吞吐量 高峰期,机器其实是有限的,prefill后,decode实例不够用。要学会拒绝
2025-04-21
大模型科研篇1-PD概念和并行计算概念 大模型科研篇1-PD概念和并行计算概念
大模型科研篇1-PD概念和并行计算概念PD概念大模型的 prefill 和 decode 是什么意思? 在大规模语言模型(如 GPT-3、GPT-4 等)的推理(inference)过程中,prefill 和 decode 是两个关键阶段,
2025-02-23
Llumnix:大型语言模型服务的动态调度 Llumnix:大型语言模型服务的动态调度
Llumnix:大型语言模型服务的动态调度背景1.LLM服务多样化,有总结任务,有生成小说任务,有VIP任务。 KV-cache会随着推理越来越多,对GPU内存的需求也在增加。 使用动态内存分配的连续批处理 GPU满载容易爆炸,所
2024-12-30
DistServe:为大语言模型服务进行prefill和decode的分解 DistServe:为大语言模型服务进行prefill和decode的分解
DistServe:为大语言模型服务进行prefill和decode的分解DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language
2024-12-12
ServerlessLLM:大型语言模型的低延迟无服务器推理 ServerlessLLM:大型语言模型的低延迟无服务器推理
ServerlessLLM:大型语言模型的低延迟无服务器推理背景 当使用Serverless部署LLM时,由于用户需要的LLM模型(gpt-4o,openai-1o,Longchat-lite),各式各样,将模型全部保存在本地存在巨量GPU
2024-11-12
数据中心中大语言模型开发的表征-NSDI'24 数据中心中大语言模型开发的表征-NSDI'24
数据中心中大语言模型开发的表征-NSDI’24LLM和普通的深度学习不同。尤其是在范式转变,定制软件栈和模型架构层面。 为了解决这一差距,我们对上海人工智能实验室的数据中心Acme的运营经验进行了深入研究。 该中心拥有两个专门用于LLM开发
2024-10-14
K8S学习 K8S学习
K8S学习容器/docker的基本知识镜像Images,仓库Repositories,容器:Container 从远端仓库拉取镜像到本地,镜像实例化为容器 容器提交给镜像,在本地将镜像推送给远端仓库 给镜像打标签 docker
2024-05-31