大模型科研篇1-PD概念和并行计算概念

PD概念

大模型的 prefill 和 decode 是什么意思？

在大规模语言模型（如 GPT-3、GPT-4 等）的推理（inference）过程中，prefill 和 decode 是两个关键阶段，分别对应于模型在生成文本时的不同处理过程。这两个概念对于理解和优化大模型的性能至关重要。

Encoder 针对 Encoder-Decoder 模型：
- 模型结构：Encoder-Decoder 模型明确区分了编码器和解码器部分。
- 任务类型：适用于需要将输入序列转换为输出序列的任务，如机器翻译。
Prefill 针对自回归语言模型（Decoder-only 模型）：
- Prefill decode
- 模型结构：如 GPT-3、GPT-4，没有明确的编码器部分，整个模型是一个大型的解码器。
- 任务类型：以文本生成为主，根据输入提示生成后续文本。

Transformer = Bert +GPT = Encoder + Decoder

下面是 Anyscale 公司，在 llmperf 工具中采用的一些推理性能测试指标：

重温一下self-attention什么是QKV，3个W是要学的参数矩阵，X是输入。

注意力机制：使用 Q、K、V 计算注意力权重，生成每个令牌的上下文感知表示（Contextual Representation）

X=[1,2,3,4] 分别对应缓慢输入进来的Q1,Q2,Q3,Q4

推理过程中，W是不变了。所以之前的K和V可以缓存。只是省去了K=XW的计算过程而已。

这样，在后续 token 的 Attention 计算中，无需重复计算 K 和 V，从而显著节约计算时间。

Qwen2 7B 这个国产大模型，在 4 K 序列长度下，KV Cache 大小是 1.6 GB！这是什么概念呢？要知道很多人的显卡也就 8GB 或者 16GB。怎么解决， PagedAttention！PagedAttention 的设计灵感来源于操作系统的虚拟内存分页技术。

将KV缓存分割成固定大小的“页” ,根据当前需要处理的数据，动态地加载相关的页面到内存中，并卸载不再需要的页面。

输入序列被分词器转换为令牌token。一个个英文单词X how are you

模型计算这些令牌的嵌入表示。

通过自注意力机制，计算出每个令牌位置的键和值向量，并存储在KV缓存中。

生成第一个输出令牌。I;m

KV缓存：包含所有输入令的键和值向量。

第一个输出令牌：预填充阶段生成的第一个输出令牌。

使用传递过来的KV缓存和第一个输出令牌作为初始状态。

逐步生成后续的输出令牌，每次生成一个新令牌时，都会更新KV缓存。

重复上述过程，直到生成完整的输出序列。

假设我们有一个简单的句子：“Hello, how are you?”，并且我们想用一个语言模型来生成接下来的回复。

分词：首先，输入文本会被分词器转换成一系列的令牌。例如，对于这个句子，分词器可能会将其分割为以下令牌序列：
1. ["Hello", ",", "how", "are", "you", "?"]
预填充阶段 (Prefill Phase)：在预填充阶段，模型会处理整个输入序列，以生成初始的键-值6个（KV）缓存。这些缓存将用于后续的解码步骤。在这个阶段，模型实际上是在理解输入的上下文，并准备好生成输出“Today”。
解码阶段 (Decode Phase)：接下来，进入解码阶段，模型开始逐个生成新的令牌。假设我们的模型预测下一个令牌是“Today”，那么输出序列现在变为：
1. ["Hello", ",", "how", "are", "you", "?", "Today"]

模型继续基于当前的上下文和之前的KV缓存来预测下一个令牌。比如，模型可能接着生成“I’m”、“fine”等，直到完成整个句子或达到预设的最大长度。

通过这种方式，令牌作为文本的基本单位，使得模型能够逐步理解和生成自然语言。