英伟达的H100在数据中心里吃得比谁都香,但这场芯片博弈从来不是单挑。AMD的MI300X带着CPU+GPU异构架构卷进战场,国产寒武纪思元910和华为昇腾910B又祭出存算一体新玩法——这本质是算力范式与生态壁垒的双重较量。
先看英伟达的统治力。其CUDA生态就像安卓系统一样,90%的LLM模型训练默认用T4/A100/H100。当GPT-4参数量从百亿跃升至万亿级时,FP8张量核心带来的2倍能效比成了关键指标。但问题来了:2023年Q2全球AI芯片市场占比,英伟达高达84%,剩下16%由AMD(7.5%)、英特尔(4%)瓜分。这个数字像极了Windows桌面市占率,让人想起当年"Intel Inside"的广告词——现在该喊"CUDA Everywhere"了。
AMD的反击点在于异构集成。MI300X把CDNA3 GPU与Zen4 CPU打包,内存带宽直接拉到3TB/s,比H100高40%。更骚的是,ROCm 5.0终于支持了PyTorch的混合精度训练,虽然兼容度不如CUDA完善。某大厂客户实测显示,在Stable Diffusion批量推理场景下,MI300X的每瓦性能比A100高37%。不过现实很骨感:目前能完整跑通Llama 3训练的只有英伟达硬件,AMD方案需要打补丁,这生态代价堪比Linux装驱动。
国产芯片的破局思路是绕开CUDA。寒武纪的MLU910采用C920指令集,针对Transformer做了稀疏化优化,在中文BERT微调时比V100省电30%。但致命短板是框架支持:PyTorch对MLU的算子覆盖不足60%,而TensorFlow甚至没有官方支持。华为昇腾910B另辟蹊径,通过Ascend编译器将MindSpore算子动态映射到NPU,在盘古大模型训练中实现了与A100相近的吞吐。可问题是,国内开发者要同时维护CUDA/MindSpore两套代码库——这种分裂感,就像手机用户被迫在鸿蒙和安卓之间选阵营。
技术路线之争本质是商业模式的镜像。英伟赌定了"芯片+软件+服务"的铁三角,哪怕制程落后台积电两代,只要CUDA生态不倒,客户就愿意为迁移成本买单。AMD押注异构计算的未来,可惜ROCm的生态建设速度慢于预期。国产厂商则陷入两难:完全自研意味着教育市场,但追赶需要时间。某头部AI公司CTO私下吐槽:"我们测试过昇腾芯片,但团队更熟悉CUDA,换平台意味着半年工期延误。"
未来半年会出关键胜负手:英伟达若能在Hopper之后推出更便宜的B100系列巩固价格带;AMD能否让ROCm支持主流大模型的分布式训练;以及国产芯片是否能在存内计算领域实现突破——比如寒武纪的类脑架构在稀疏模型上的表现。但无论谁赢,这场战争终将回归一个朴素的道理:AI芯片不是堆参数竞赛,而是算力密度×软件效率×供应链韧性的综合较量。