分类: 论文阅读 | 爱敲代码の鱼儿

爱敲代码の鱼儿

Never really desperate, only the lost of the soul.

爱敲代码の鱼儿-博客

文章分类

项目 1 Java 12 Golang 1 Effective-Java 1 JavaGuide 8 JavaWeb 12 JVM 1 Redis 5 MySQL 1 面试 4 Spring 1 前端 4 论文阅读 5 k8s 1 框架使用和源码 1 实习期间学习 12 科研 1 学成在线 1

                            
                            Mooncake：以 KVCache 为中心的服务分解架构LLM
                        
                                Mooncake：以 KVCache 为中心的服务分解架构LLMFast’25 CCFA
背景Kimi，要在满足TTFT和TPOT的SLO的基础上，增大吞吐量

高峰期，机器其实是有限的，prefill后，decode实例不够用。要学会拒绝
                            
                                2025-04-21
                            
                                    论文阅读
                                
                            Llumnix：大型语言模型服务的动态调度
                        
                                Llumnix：大型语言模型服务的动态调度背景1.LLM服务多样化，有总结任务，有生成小说任务，有VIP任务。

KV-cache会随着推理越来越多，对GPU内存的需求也在增加。
使用动态内存分配的连续批处理

GPU满载容易爆炸，所
                            
                                2024-12-30
                            
                                    论文阅读
                                
                            DistServe：为大语言模型服务进行prefill和decode的分解
                        
                                DistServe：为大语言模型服务进行prefill和decode的分解DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language
                            
                                2024-12-12
                            
                                    论文阅读
                                
                            ServerlessLLM：大型语言模型的低延迟无服务器推理
                        
                                ServerlessLLM：大型语言模型的低延迟无服务器推理背景
当使用Serverless部署LLM时，由于用户需要的LLM模型（gpt-4o,openai-1o,Longchat-lite)，各式各样，将模型全部保存在本地存在巨量GPU
                            
                                2024-11-12
                            
                                    论文阅读
                                
                            数据中心中大语言模型开发的表征-NSDI'24
                        
                                数据中心中大语言模型开发的表征-NSDI’24LLM和普通的深度学习不同。尤其是在范式转变，定制软件栈和模型架构层面。
为了解决这一差距，我们对上海人工智能实验室的数据中心Acme的运营经验进行了深入研究。 该中心拥有两个专门用于LLM开发
                            
                                2024-10-14
                            
                                    论文阅读