无标签

论文阅读

发布日期: 2024-12-12

DistServe：为大语言模型服务进行prefill和decode的分解

DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving

这篇论文是北大金鑫组和阶跃星辰公司，加州大学圣地亚哥分校合作的，已经被OSDI‘24接收。主要思路是将一个推理请求的prefill和decoding分解进行batch，从而最优化goodput。

背景

处理一个端到端LLM请求甚至比百度（普通搜索引擎）慢。

大模型推理分为两个阶段prefill 和 decode。大模型相关

prefill的成果： time-to-first-token (TTFT)

Decode 的成果：time-per-output-token (TPOT)

不同的应用程序对每个指标提出了不同的要求。例如，实时聊天机器人优先考虑低TTFT来快速响应，而TPOT仅在比人类阅读速度（即250字/分钟）快时才重要。【投放大量资源给prefill】

相反，文档摘要强调低TPOT，以加快摘要生成速度。【投放大量资源给decode】

绿色的长条是prefill; 蓝色的短条是decode。

SLI：服务质量指标（service level indicator). 大部分服务都将请求延迟,处理请求所消耗的时间——作为一个关键SLI

SLO：服务质量目标,SLI小于一个值，比如用户请求返回结果要小于1秒。

吞吐量衡量的是所有用户和请求中完成的请求或词元的数量，因此忽略了这些时延要求。我们引入了有效吞吐量（goodput），即每秒完成请求的遵守SLO（TTFT和TPOT要求）的数量，并展示了它是一个更优指标，因为它捕获了在SLO达成下的请求吞吐量——因此既考虑了成本又考虑了服务质量。

有效吞吐量（P90 TTFT < 200ms和P90 TPOT < 50ms）= 当至少90%的请求同时满足TTFT < 200ms和TPOT < 50ms时，系统可以承受的每秒最大请求速率。

rps：每秒请求 request per second

图1:将prefill和decode两个阶段拆开，会让响应速度变快。

有效吞吐量(合并) = min(3,1.6) = 1.6 RPS（每GPU）

拆开 Goodput(2P1D) = min(5.6 x 2, 10) = 10 reqs/s / 3 GPUs ≈ 3.3 reqs/s (per GPU)

每个GPU提升了两倍的有效吞吐量！

该实验表明，在没有使用任何并行策略的情况下，这种简单的解耦能产生2倍的有效吞吐量。

M/D/1 队列

一个最简单的队列模型成为M/D/1队列。

M表明到达服从Markov过程，在这个文本中，泊松过程到达服从特定的概率分布，此分布以准确表明了许多真实世界的模拟；

D表明离开是确定的并以固定的速度发生；

1表明只有一台服务器。

解决的问题/问题特点

计算中的预填充和解码阶段各具独特属性。预填充对计算资源的需求量极大，哪怕是小批次的预填充任务，甚至单个较长的预填充任务，都足以使GPU的计算能力达到饱和。与此相对，解码任务则需要更大的批大小才能充分利用计算资源，并且更容易受到GPU内存带宽限制的影响。

如果我只有一块GPU，我进行批处理。然后如果有prefill请求过来，现在的decode很容易就要延迟，就不满足TPOT了。

本来只有decode的机器，加入了一个prefill的请求，request的长度是128和1024，然后会和decode抢资源，这样延时肯定会高。

那我一般怎么满足TPOT呢，由于这种干扰，为同时满足TTFT和TPOT的SLO，系统必须过度配置资源以满足时延目标，尤其是在SLO要求严格的情况下。加钱加gpu

此外，由于合并，预填充和解码计算的并行策略（张量、流水线或数据并行）本质上是耦合的。

如前所述，由于它们的计算模式和时延目标截然不同，预填充和解码阶段的最优并行策略通常也不同。

例如，当实时吞吐量(TTFT)要求严格而总吞吐量(TPOT)要求宽松时，预填充阶段更倾向于使用张量并行(TP)来满足严格的时延目标，而解码阶段则更倾向于数据或流水线并行以提高吞吐量。

解决上述问题，最直接的想法，把prefill和decode放到不同的GPU上。

解耦造成了在预填充和解码GPU之间传输中间状态（即KV Cache）的成本。在LLM推理中，KV Cache看似是一个巨大的内存开销，而在GPU之间传输KV Cache则像是一种瓶颈。然而，我们展示的情况恰恰相反：通过适当的放置（placement），KV Cache传输开销可以有效地最小化，甚至低于一个解码步数的时间，这要归功于现在的高速网络，如NVLink和PCI-e 5.0

总结一下：

1.满足约束：TTFT 和 TPOT 施加激进的服务级别目标 (SLO)

2.目标：有效吞吐量大一点

3.格外要求：不要加钱，不要加很多gpu。

创新点/解决方案

在摘要中提到的贡献

1.分析不分离不行，提出prefill和decode分离

2.自动判别怎么分离，2p1d还是其他的分配方案

3.用真实世界的工作负载进行全面的评估

三、权衡分析

3.1 prefill实例的分析

在相同的批处理大小下，不同的输出文本长度，会对应不同的吞吐量。

增大批处理大小，一般会让prefill的吞吐量增大，但是如果batch size超过一个阈值，那么增量就不明显了。批处理大小1->30很明显，从30->100不明显，因为gpu也没那么强。

上面是实验结果，在低速率的情况下，橙色的好；在高速率的情况下，蓝色的好。

右边可以看到随着K的减小，橙色越来越浅，耗时越来越长。

下面是作者用排队论的思想进行建模，作者写这个的意义是，我这个实际的实验结果，和排队论的理论结果是吻合的。

K：对于算子内并行性，我们引入了一个加速系数K，其中1 < K < 2，反映了算子内并行性的高通信开销引起的不完美加速。

D：由于预填充长度均匀，每个请求的执行时间都记为D，保持不变。

R：假设泊松到达率为R，使用条件为RD < 1，平均TTFT（Avg_T T F T）可以通过M/D/1队列[47]以接近形式建模：

对于算子间并行（流水线并行）inter-op

对于算子内并行（数据并行，张量并行）intra-op

3.2 decode实例的分析

随着加gpu，decode阶段的表现：

如果采用inter-op，吞吐量会表现很好

如果采用intra-op, 延迟会有明显降低，这个指标表现很好

3.3 实际的问题

流水线并行处理，在每个请求token长度不一样的时候，会产生大量气泡。

KV-cache的转移开销，OPT-66B 上单个 512 个令牌请求的 KV 缓存大小约为 1.13GB。假设平均到达率为每秒 10 个请求，我们需要传输 1.13 × 10 = 11.3 GB 数据。常用的节点内 NVLINK，其中 A100 GPU 之间的峰值带宽为 600 GB/ s，但是所有的GPU都有NVLINK吗