这不是一组抽象缩写,而是把超大模型部署到多张卡、多台机器时常见的几种并行手段。你会看到模型是按层切、按张量切、按专家切,还是按数据批次切到多个完整副本上,通信压力又是如何随之变化。
单机内多卡互联强,想让同一层的大矩阵分摊到多张 GPU。典型是 TP=8 放在一台 8 卡机器内。
模型太大,单机放不下,按层切到多台机器。跨机只传 hidden states,通常比跨机 TP/EP 更稳。
MoE 模型里 expert 很多,把不同 expert 摊到不同 GPU。吞吐潜力高,但非常依赖网络质量和 all-to-all 实现。
单份模型已经能装下,但想用多个完整副本并行处理同一批数据或同一轮调度里的多个样本。它提升整体吞吐,不直接解决单份模型装不下的问题。