Interactive LLM Systems Map

模型部署里的并行方式TP / PP / EP / DP

这不是一组抽象缩写，而是把超大模型部署到多张卡、多台机器时常见的几种并行手段。你会看到模型是按层切、按张量切、按专家切，还是按数据批次切到多个完整副本上，通信压力又是如何随之变化。

TP Tensor Parallel PP Pipeline Parallel EP Expert Parallel DP Data Parallel

GPU 数量

32 GPUs

观察不同切分方式如何占用同一批 GPU 资源。

模型层数

80 Layers

PP 按层切段时，stage 的职责会随着层数变化。

输入 Token

128 Tokens

输入越长，prefill 阶段传输的 activation 越大。

输出 Token

128 Tokens

输出越长，decode 阶段的小消息同步轮数越多。

单机内多卡互联强，想让同一层的大矩阵分摊到多张 GPU。典型是 TP=8 放在一台 8 卡机器内。

模型太大，单机放不下，按层切到多台机器。跨机只传 hidden states，通常比跨机 TP/EP 更稳。

MoE 模型里 expert 很多，把不同 expert 摊到不同 GPU。吞吐潜力高，但非常依赖网络质量和 all-to-all 实现。

单份模型已经能装下，但想用多个完整副本并行处理同一批数据或同一轮调度里的多个样本。它提升整体吞吐，不直接解决单份模型装不下的问题。