生成式AI当道,吃了第一口螃蟹的英伟达生而逢时,市值从去年的五千亿美元摇身一变成为与亚马逊、谷歌等齐肩的万亿巨头。
卖着三十万元一张的显卡,数着其他科技巨头收上来的钞票,连续打破预期的业绩印证了英伟达显卡在数据中心AI训练领域有多么受欢迎。
然而,有超额利润的地方总会招致竞争对手的冲击,更何况是日新月异的科技赛道,AMD、英特尔,甚至准备自研芯片的科技巨头跃跃欲试,英伟达的护城河,会由谁打破?
《福布斯》杂志评论称:“如果业界还有英伟达潜在的对手,那一定包括苏姿丰和她掌管的AMD。”
如何战胜芯片市场里的大Boss?
这道题AMD是最有发言权的,公司曾将英特尔在数据中心和PC的份额从将近垄断逼到剩下六成,靠的是集结了领先制程和架构、不断追赶的CPU产品。
这一次,面对势头正劲的英伟达,AMD能否再度赶超?
下一个万亿芯片巨头会是AMD吗?
01最初两家企业在产品开发和市场选择上形成错位竞争,英伟达一直在图像显卡领域深耕,在高端芯片上处于领先地位。在向英伟达发起正面冲击之前,AMD曾凭借全新的Zen架构和台积电7nm工艺颠覆了PC和数据中心的CPU霸主—英特尔。
目前,英伟达在GPU领域一枝独秀,但AMD的产品架构要更丰富一些,在PC端同时布局了X86CPU和独立GPU产品。相比传统CPU,采用集成显卡具备更强的图像渲染能力,这为AMD日后快速进入AI加速芯片领域竞争奠定了基础。
根据Statista,2023年第三季度PC端CPU市场中,AMD以35%的市占率仅次于英特尔;而在独立GPU,英伟达以超过七成的份额占据领先优势,同样居次的AMD今年第二季度的出货量占全球的17%。
总的来看,在GPU显卡领域,英伟达构建了领先算力和软件生态的强大壁垒,用户体验更高,在高端旗舰市场更具优势。
而AMD显卡不只追求图形渲染性能,更注重通用运算性能的提升,在入门级显卡性价比更高,但在开发者环境中,AMD采用的OpenCL实际远不如CUDA完善,软件不兼容的问题会影响AMD芯片的生态网络价值。
正因为AMD较早地完成了对两种处理器芯片的布局,在AI大模型加速普及,未来能够塞进各种智能终端硬件时,这种全面性给了AMD构建更加多元的AI产品矩阵的机会,包括融合RyzenAI的Ryzen7040系列CPU、自适应数据中心平台VersalAI、Alveo加速器、第四代EPYCGenoa处理器,以及目前公布即将上市的InstinctMI300。
其中被认为最有希望挑战英伟达地位,重现16年对英特尔的成功突围,莫过于MI300。
AMD在CES2023大会上推出了这款InstinctMI300加速器,是首款数据中心级的APU产品,AMD于2011年首创,简单来说是将CPU与GPU封装在一起,专门用于AI语言大模型训练及推理,对标的就是英伟达的GraceHopper(GraceCPU+HopperH100GPU)。
作为一款能与H100在AI训练端匹敌的产品,从芯片架构、制程、算力、内存带宽上比较,这款MI300在规格及性能上十分接近英伟达的GH系列,但软件生态上的落后或暂时无法撼动英伟达在训练端的客户粘性。
首先看芯片架构,MI300是AMD首款结合了4CPU与CNDA3GPU的产品,采用3D堆叠技术和Chipet设计,配备了9个基于5nm制程的芯片组,与英伟达GraceHopper的4nm制程(属台积电5nm体系)看齐。
MI300晶体管数量达到1460亿,多于英伟达H100的800亿。MI300配备了24个Zen4数据中心CPU核心和128GBHBM3内存,并以8192位宽总线配置运行。
算力上,上代MI250X的FP32算力达47.9TFLOPS,虽已超越英伟达A100的19.5TFLOPS,但其发布时间在英伟达之后。AMD并未公布MI300与H100的算力比较,我们只知道对比上一代的MI250X,MI300预计能提升8倍,能耗水平(TFLOPS/watt)将优化5倍,可以推断此次性能提升有望接近GraceHopper水平。
内存带宽上,高容量及显存带宽是MI300的优势,这两项指标分别是英伟达H100的2.4倍及1.6倍,由于内存容量大幅提升,单颗MI300X芯片可以运行800亿参数模型。
而近期英伟达发布的H200作为对MI300的回应,重点也在内存带宽上进行了升级。H200拥有高达141GB的显存,带宽则从3.35TB/s增加到了4.8TB/s,内存容量上超过了MI300的128GB,带宽按照H100的1.6倍则稍微逊色于MI300。
AI训练推理中随着模型参数提升带来的海量数据计算和传输,对GPU-CPU之间的数据传输速度提出了更高要求。
GraceHoopper通过NVLink-C2C和NVLinkSwitch实现CPU-GPU和GPU-GPU互连,双方作为内存共享对等体可以直接访问对方的对应内存空间,支持900GB/s,高达150TB的高带宽内存访问,有效解决GPU大规模并行运算中“单节点本地内存不足”的痛点,优势要更突出一些。
AMD暂未公布MI300的传输带宽,但3DChiplet架构使其内部CPU和GPU可共享同一内存空间,这样CPU执行计算的时候不需要先将数据进行复制,减少了内存带宽的占用。MI300使用的新一代存储芯片HBM3内存带宽约为819GB/s,与英伟达NVLinkC2C900GB/s带宽相近。
MI300在规格性能上或已十分接近英伟达领先算力的标准,但后者真正的杀手锏,
