英特尔的一款人工智能芯片,楔入了英伟达(Nvdia)炙手可热产品的中间地带。
国际和国内企业推出的人工智能芯片不少,但英伟达的GPU及其软件生态居于先导地位。在大模型领域同样如此,引领潮流的ChatGPT使用英伟达芯片用于训练和推理,中国本土推出的近百款大模型绝大多数都能和英伟达芯片适配。英特尔最近在中国推出Gaudi2芯片,这款产品强过英伟达的A100,却又弱于英伟达的H100。
大模型(Model)和英伟达的芯片,形成一种紧密的耦合,我们姑且称之为“MN组合”。这个组合从性能上看,目前最有效率,也最昂贵。英特尔、AMD、华为等企业奋起直追。芯片竞争者们希望在人工智能赛道占据更有利的地形,大模型企业们则希望有更多元、价格更适宜的选项。它们都希望打破这种组合。
美国对先进芯片的出口限制,令国内人工智能的算力短缺加剧。这给国内芯片企业创造了特殊机遇。开发大模型的企业“当前更关注第二选择”,华为昇腾计算业务总裁张迪煊对第一财经表示:“过去更多是我们在找企业,现在很多企业找过来了。”
“MN组合”
浪潮信息是芯片短缺的最新受害者。
据浪潮信息7月11日披露的业绩预告,该公司上半年营业收入出现接近三成的同比下滑,扣除非经常性损益的利润下滑超过八成。
浪潮信息是全球最大的AI服务器厂商,连续6年中国AI服务器市场份额第一。国际数据公司IDC此前披露的报告显示,2021年的全球人工智能服务器市场上浪潮信息以20.8%的占有率位居全球之首。从更广泛的服务器市场来看,浪潮信息长期保持全球第二、中国第一的市场份额。
浪潮信息行业巨人的形象,在芯片短缺时期变得暗淡。浪潮信息将2023年上半年的业绩暴跌归结于“全球GPU及相关专用芯片供应紧张等因素”。
GPU是主要用于图形处理的芯片,它有别于普通消费者手机或者电脑中使用的CPU。现在全球GPU市场的主导者是英伟达,它早期开发这类芯片用于游戏市场,因游戏产品对于图形处理的要求更高。随着人工智能技术的发展,GPU暴力计算的能力在新战场风头无两。英伟达一度是浪潮信息最重要的芯片提供方之一。
浪潮信息既是AI服务器的提供方,为其客户提供基础算力,同时它也在开发自己的人工智能大模型,这意味着它自身也需要耗费不少的算力。浪潮信息的AI团队发布的中文语言模型“源1.0”,它的参数量达2457亿,超过GPT-3的1750亿。
大模型是人工智能目前最热的研发方向。OpenAI开发的大模型ChatGPT发布后成为一个现象级的产品,比尔·盖茨将之视为可以比肩Windows图形界面的革新性技术,而英伟达的创始人黄仁勋则称现在已经到了AI的“iPhone时刻”。
ChatGPT是与英伟达紧密相连的。微软在其云计算平台Azure上构建了超级计算集群,并提供给OpenAI用于ChatGPT的训练和推理,其中动用了大量英伟达GPU。随着大模型的火爆,美国和中国都聚集了大量科技巨头跟进,其中包括了国内的华为、百度、阿里以及腾讯等,还有美国的谷歌、Meta等。
英伟达芯片占据先发优势,成为国内国外大模型项目的首选方案。
大模型遍地开花,推升算力需求,加之美国对高性能芯片出口中国的限制,令有需求的国内企业加大了囤积力度。这样的背景下,英伟达的GPU一卡难求。算力的饥渴蔓延到了每一个角落。
“肯定都是英伟达”,在谈到人工智能相关企业囤积的AI芯片种类时,某人工智能公司技术负责人对第一财经记者这样表示。
该公司从去年至今,囤了几百张英伟达的A800板卡,主要帮助企业在通用大模型的基础上,构建满足垂直场景需求的领域大模型。
英特尔和AMD等企业也有AI芯片,不过与英伟达的产品相比还有差距。考虑到大模型动辄百亿级的参数量,芯片性能影响到大模型的训练和推理速度。“其实都能用,不过看企业能接受的训练时长是多少。比如用慢点的卡可能需要一个月的训练时间,那么快点的卡可能只需要一两天。这是训练速度的问题。”该负责人表示。
在日进千里的技术浪潮里,很少企业愿意等待。如果仅仅从效率维度来看,大模型与英伟达的“MN组合”还是被企业视作当下最优解。
第二选择
英特尔用一款人工智能芯片,楔入了英伟达的产品组合中间地带。
“在AI推理工作负载中,与英伟达A100相比,至强的推理性能可超5倍;与AMD的64核EPYCCPU相比,至强的推理性能可超2倍。就AMDEPYC而言,英特尔可以更少的内核,提供更高的AI性能。”英特尔公司执行副总裁SandraRivera表示,“在AI训练工作负载中,与英伟达A100相比,至强拥有近3倍的性能提升。”
英特尔最近在中国推出了其Gaudi2产品,它搭配至强可扩展处理器,为大语言模型提供算力解决方案。
相对英伟达的A100芯片,英特尔Gaudi2性能更强;相对英伟达的H100芯片,英特尔的Gaudi2则性能偏弱。
“对于包含整个GPT-3语料库的代表性切片的GPT-3训练评估,Gaudi2在384个加速器上训练GPT-3的时间为311分钟,英伟达在512个H100GPU上的训练时间则为64分钟。这意味着,基于GPT-3模型,每个H100的性能领先于Gaudi23.6倍。”英特尔Haban