NVIDIA Blackwell AI机架在MoE环境中大幅领先AMD Instinct

NVIDIA的Blackwell GB200 NVL72 AI机架已在MoE(专家混合)环境中进行测试,根据报告显示,它们的性能远超AMD的Instinct MI355X。

NVIDIA的“极致协同设计”让其在MoE架构中占据优势,进一步拉大与AMD的差距

AI模型正快速向以MoE为核心的格局转变,因为这能更高效地利用计算资源;然而,与密集模型相比,规模化MoE会带来巨大的计算瓶颈。MoE通过运行标记为“专家”的独立子网络,需要在节点之间进行大量全互联通信和数据传输,导致延迟和带宽压力。超大规模云服务商正在寻找性价比最高的方案,Signal65的分析指出,NVIDIA的GB200 NVL72是MoE架构的首选。

引用SemiAnalysis的InferenceMAX基准测试,报告称NVIDIA的Blackwell AI服务器在相同集群配置下,每GPU的吞吐量提升了28倍(75 token/秒),远超AMD的MI355X。如果你想了解性能差距如此巨大的原因,NVIDIA早已给出答案。为解决MoE AI模型扩展中的性能瓶颈,NVIDIA采用了“协同设计”方案,即使用72芯片的GB200组合30TB超高速共享内存,使专家并行度提升到全新水平。

有趣的是,AI经济学关注的是哪种架构能提供更佳的总拥有成本(TCO)。Signal65引用Oracle云的定价数据指出,NVIDIA的GB200 NVL72机架的每token成本仅为对手的1/15,且交互率更高,这也是NVIDIA硬件栈被广泛采用的关键原因之一。作为一年一度更新产品的公司,NVIDIA能在每一次新的AI前沿(推理、预填充、解码等)中保持领先,从而巩固其优势。

当然,这些数据并不能完整呈现AMD与NVIDIA在AI领域的全貌,因为红队(Team Red)尚未推出新一代机架级产品。MI355X Instinct以其高容量HBM3e在高密度环境中表现激进。但在纯MoE场景下,NVIDIA目前占据主导。随着未来机架级解决方案(如Helios与Vera Rubin)的推出,竞争只会愈发激烈。