近日,路透社报道称OpenAI正在考虑自研芯片。根据报道,自从去年开始,OpenAI已经开始在为人工智能模型训练芯片缺货(即NvidiaGPU供货紧张)的问题开始考虑对策,而目前正在积极准备自研芯片以满足未来对于人工智能芯片的需求。事实上,不久之前OpenAI的CEOSamAltman曾公开表示NvidiaGPU缺货对于OpenAI以及整个人工智能行业都存在着很大的影响。另外,从今年开始OpenAI开始招募硬件相关的人才,官方网站上有数个软硬件协同设计的职位在招聘,同时在今年九月OpenAI还招募了人工智能编译器领域的著名牛人AndrewTulloch加入,这似乎也在印证OpenAI自研芯片方面的投入。OpenAI官方对此事拒绝发表评论,但是如果这件事最后落地的话,OpenAI将会是继谷歌、亚马逊、微软、特斯拉等之后又一个加入自研芯片行列的硅谷科技巨头。
OpenAI为什么要自研芯片如前所述,OpenAI自研芯片的主要动力是因为GPU缺货。更具体地说,是因为无论是购买Nvidia的GPU,还是使用基于GPU的云服务,价格都太贵,尤其是考虑到OpenAI未来模型训练需要的算力可能还会指数级提升。
OpenAI从数年前开始就布局生成式人工智能,而在去年的GPT-3以及去年下半年的ChatGPT公布后,由于这些生成式大语言模型的能力在过去数年内得到了大幅提升并且到达了可以和人类实现有意义的对话的地步,OpenAI一举成为了人工智能领域的领头羊,而生成式人工智能也成为了预计未来几年内对于人类社会影响最大的技术。根据路透社的报道,OpenAI去年录得收入2800万美元,而总体亏损为5.4亿美元;而OpenAI巨大的亏损背后,主要原因就是由于算力开销。值得注意的是,5.4亿美元的损失还是在生成式人工智能火爆前夕的2022年;在未来算力开销可望会指数级提升,这主要由于:
大模型竞争更激烈,模型进化速度变快,需要的算力快速提升:除了OpenAI之外,谷歌等科技巨头也在力推自己的大模型,这使得大模型的进化速度显著变快,未来预计一个季度到半年就要更新一代,而最尖端模型需要的算力估计每年都会上升一个数量级
大模型应用场景变得更广:目前,微软和谷歌已经在搜索和代码编写领域开始使用大模型,预计在未来会有更多的大模型应用场景,包括自动任务处理、多模态问答等等,而这些会让不同的模型数量大大提升,同时也大大提升了模型部署需要的总算力。
根据美国金融公司Bernstein的分析,如果ChatGPT的访问量达到谷歌搜索十分之一的水平(而这也是OpenAI未来的重要目标之一),那么每年OpenAI的GPU开销将达到160亿美元。而这样的开销,可能是未来OpenAI进一步规模化的一个重要瓶颈。
那么,OpenAI如果要自研芯片,那么将能把成本节省多少呢?目前,一台使用八卡NvidiaH100GPU的服务器采购成本约为30万美元,加上云服务商的溢价使用这台服务器三年的总成本为100万美元左右(这是AWS的官方报价,其他云服务商提供的价格应该在同一数量级);如果OpenAI能用自研芯片把这样的八卡服务器的成本降低到10万美元以下,将会大大降低其成本。另一方面,如果自研芯片成功的话,在大规模部署的情况下单张加速卡的成本控制在1万美元以下应该很有希望,也即八卡服务器的成本控制在10万美元之下并非遥不可及。
OpenAI自研芯片,有何独特之处目前,自研芯片的科技公司已经有不少,那么OpenAI如果自研芯片会和谷歌、亚马逊等科技公司的自研芯片有什么不同呢?
首先,OpenAI的自研芯片纯粹是为了自己的模型训练使用,这一点和谷歌、亚马逊等自研芯片并且目标放在云端服务器上供客户使用的商业模型不一样。对于谷歌、亚马逊等自研芯片供云服务客户使用的场合来说,由于用户使用模型的场景并不明确,使用的软件栈不确定、具体训练的模型也不确定,因此需要在芯片设计上满足兼容性的需求,而这样兼容性的考虑往往会以牺牲每个训练任务的效率和性能为代价。相反,OpenAI自研芯片只是为了自己使用,而且训练的模型非常明确:就是以Transformer为基本组件的大语言模型,而且使用的软件栈也完全控制在自己手里,因此可以确保设计有非常高的针对性。
第二点不同在于OpenAI对于模型有非常深入的理解。OpenAI在生成模型领域是领军企业,目前GPT系列模型仍然是大语言生成式模型中性能最好的模型,而且OpenAI在生成式模型领域有着多年积累,因此OpenAI对于目前生成式模型的各种设计方案有着深入的理解,这意味着OpenAI有足够的能力和积累做芯片-模型协同设计,能够根据芯片的特性去设计相应的模型,同时也可以根据模型的需求去明确芯片的设计指标,包括如何在计算单元、存储和芯片间互联之中做最优化的折衷等。最关键的是,OpenAI对于未来几年的生成式大模型的路线图有着行业中最明确的规划,这意味着即使自研芯片需要数年的时间,也不用过于担心芯片真正量产后已经无法赶上模型更新的局面。从这个角度来说,OpenAI的自研芯片和谷歌以及亚马逊都有很不一样的地方,但是和特斯拉的Dojo系列自研模型训练芯片却有相似之处;而和特斯拉又不一样的是,OpenAI对于模型训练的需求显然会远高于特斯拉,而这样的自研芯片的重要程度对于OpenAI来