GPT-5出世,需5万张H100!全球H100总需求43万张, 英伟达GPU陷短缺风暴
时间:2023-08-06 00:00:00来自:新浪财经字号:T  T

GPT-5的训练,需要5万张H100加持。英伟达GPU已成为各大AI公司开发大模型的首选利器。然而,SamAltaman自曝GPU很缺,竟不希望太多人用ChatGPT。

「谁将获得多少H100,何时获得H100,都是硅谷中最热门的话题。」

OpenAI联合创始人兼职科学家AndrejKarpathy近日发文,阐述了自己对英伟达GPU短缺的看法。

近来,社区广为流传的一张图「我们需要多少张GPU」,引发了众多网友的讨论。

根据图中内容所示:

-GPT-4可能在大约10000-25000张A100上进行了训练

-Meta大约21000A100

-Tesla大约7000A100

-StabilityAI大约5000A100

-Falcon-40B在384个A100上进行了训练

–Inflection使用了3500和H100,来训练与GPT-3.5能力相当的模型

另外,根据马斯克的说法,GPT-5可能需要30000-50000个H100。

此前,摩根士丹利曾表示GPT-5使用25000个GPU,自2月以来已经开始训练,不过SamAltman之后澄清了GPT-5尚未进行训。

不过,Altman此前表示,

我们的GPU非常短缺,使用我们产品的人越少越好。

如果人们用的越少,我们会很开心,因为我们没有足够的GPU。

在这篇名为「NvidiaH100GPU:供需」文章中,深度剖析了当前科技公司们对GPU的使用情况和需求。

文章推测,小型和大型云提供商的大规模H100集群容量即将耗尽,H100的需求趋势至少会持续到2024年底。

那么,GPU需求真的是遇到了瓶颈吗?

各大公司GPU需求:约43万张H100

当前,生成式AI爆发仍旧没有放缓,对算力提出了更高的要求。

一些初创公司都在使用英伟达昂贵、且性能极高的H100来训练模型。

马斯克说,GPU在这一点上,比药物更难获得。

SamAltman说,OpenAI受到GPU的限制,这推迟了他们的短期计划(微调、专用容量、32k上下文窗口、多模态)。

Karpathy发表此番言论之际,大型科技公司的年度报告,甚至都在讨论与GPU访问相关的问题。

上周,微软发布了年度报告,并向投资者强调,GPU是其云业务快速增长的「关键原材料」。如果无法获得所需的基础设施,可能会出现数据中心中断的风险因素。

这篇文章据称是由HK发帖的作者所写。

他猜测,OpenAI可能需要50000个H100,而Inflection需要22,000个,Meta可能需要25k,而大型云服务商可能需要30k(比如Azure、GoogleCloud、AWS、Oracle)。

Lambda和CoreWeave以及其他私有云可能总共需要100k。他写道,Anthropic、Helsing、Mistral和Character可能各需要10k。

作者表示,这些完全是粗略估计和猜测,其中有些是重复计算云和从云租用设备的最终客户。

整体算来,全球公司需要约432000张H100。按每个H100约35k美元来计算,GPU总需求耗资150亿美元。

这其中还不包括国内,大量需要像H800的互联网公司。

还有一些知名的金融公司,比如JaneStreet、JPMorgan、TwoSigma等,每家都在进行部署,从数百张A/H100开始,扩展到数千张A/H100。

包括OpenAI、Anthropic、DeepMind、谷歌,以及X.ai在内的所有大型实验室都在进行大型语言模型的训练,而英伟达的H100是无可替代的。

H100为什么成首选?

H100比A100更受欢迎,成为首选,部分原因是缓存延迟更低和FP8计算。

因为它的效率高达3倍,但成本只有(1.5-2倍)。考虑到整体系统成本,H100的性能要高得多。

从技术细节来说,比起A100,H100在16位推理速度大约快3.5倍,16位训练速度大约快2.3倍。

A100vsH100速度

H100训练MoE

H100大规模加速

大多数公司购买H100,并将其用于训练和推理,而A100主要用于推理。

但是,由于成本、容量、使用新硬件和设置新硬件的风险,以及现有的软件已经针对A100进行了优化,有些公司会犹豫是否要切换。

GPU并不短缺,而是供应链问题

英伟达的一位高管表示,问题不在于GPU短缺,而在于这些GPU如何进入市场。

英伟达正在正在开足马力生产GPU,但是这位高管称,GPU的产能最主要受到的是供应链的限制。

芯片本身可能产能充足,但是其他的组件的产能不足会严重限制GPU的产能。

这些组件的生产要依赖整个世界范围内的其他供应商。

不过需求是可以预测的,所以现在问题正在逐渐得到解决。

GPU芯片的产能情况

首先,英伟达只与台积电合作生产H100。英伟达所有的5nmGPU都只与台积电合作。

未来可能会与英特尔和三星合作,但是短期内不可能,这就使得H100的生产受到了限制。

根据爆料者称,台积电有4个生产节点为5nm芯片提供产能:N5,N5P,N4,N5P

而H100只在N5或者是N5P的中的4N节点上生产,是一个5nm的增强型节点。

而英伟达需要和苹果,高通和AMD共享这个节点的产能。

而台积电晶圆厂需要提前12个月就对各个客户的产能搭配做出规划。

如果之前英伟达和台积电低估了H100的需求,那么现在产能就会受到限制。

而爆料

本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持