今年早些时候,外媒曝光了微软与OpenAI的一项“疯狂计划”:斥资千亿美金,定制一个史无前例的数据中心。然而,面对这一重大利好,英伟达却心情复杂:
爆料显示,OpenAI拒绝使用英伟达的InfiniBand网络设备,转而投奔以太网的阵营[1]。
众所周知,一个数据中心往往有数千甚至上万台服务器;而连通这些服务器的,正是以InfiniBand和以太网为代表的网络互联技术。
英伟达是InfiniBand路线的主要玩家,独家提供了相关的交换机、电缆等硬件设备;其余的科技公司,则扎堆在以太网赛道。
OpenAI的“反水”,对英伟达而言是个巨大噩耗。
要知道,InfiniBand与以太网,彼此已互相竞争多年。InfiniBand曾一度遥遥领先:2015年时,超级计算机Top500榜单中,超过半数的上榜者都在使用InfiniBand。但在当下,随着大客户陆续倒戈,InfiniBand正在输掉比赛。
去年7月,AMD、微软等9家硅谷大厂联手成立了超以太网联盟(UEC),准备彻底击溃InfiniBand。今年一季度,英伟达的InfiniBand网络设备收入,出现了环比下降[2]。与数据中心等一路狂飙的业务相比,显得格外突出。
那么问题来了:
1.英伟达的“亲儿子”InfiniBand,为何会处于劣势?
2.对于英伟达而言,互联网为何是场不能失败的竞赛?
派别之争
InfiniBand的初衷,是为了解决当前算力最大的瓶颈——传输速度。
两台服务器连接在一起,“1+1”所实现的算力必定会“小于2”,因为数据传输速度远远小于服务器的算力。可以把每台服务器,想象成一座拥有一万辆卡车的小城镇;受制于客观环境,每天只能往隔壁城镇运输200卡车的货物。
数据中心则是由上千个小镇构成的王国。小镇与小镇之间的运输问题,会严重拖累整个王国的发展。
而限制传输速度的罪魁祸首,是落后的网络协议。
所谓网络协议,可以简单理解为一种“交通规则”。计算机之间的信息传输,都沿着这一“交通规则”有序进行。最初的交通规则,是一种名为TCP/IP的网络协议。
这项交通规则,有个明显缺陷:数据在传输时,需要经过CPU,极度占用CPU资源,导致延迟特别高。
相当于卡车运货的公路上,设有大批人工收费站。车子每开一段路,都要停下来掏出钱包缴费,造成了严重拥堵,运行效率可想而知。
在这一大背景下,全新的RDMA网络协议(远程直接内存访问)应运而生。顾名思义,它可以绕过CPU,直接访问另一台服务器的内存。换句话说,新的交通规则,将高速公路上的人工收费站全撤走了,改设成ETC。
但基于RDMA网络协议,业界却衍生出了两个不同的实现方向:
一是“外部革新派”。
基于RDMA全部推翻重来,重新构建一套网络协议,以实现极致的性能。其成果,正是英伟达的InfiniBand。全新的交通规则,使得数据传输可以同时绕过CPU与内存,相当于把ETC也撤了,直接通过GPU进行数据交互。
InfiniBand(无限带宽)这个名字,正是其极致理念的一种体现。
二是“内部改良派”。
一个热知识,以太网是最普及的局域网技术,几乎所有计算机系统都支持以太网设备。改良派的做法,正是利用RDMA网络协议,去改造以太网。
由此可见,InfiniBand与以太网的竞争,本质是同一技术路线的派别之争。
在算力供应严重不足的当下,大刀阔斧革新的InfiniBand,本应更加受到市场青睐。然而,各大硅谷巨头却“十动然拒”。不光是微软,Meta也选择全面拥抱以太网。
InfiniBand之所以如此不受待见,问题恰恰出在革新过于激进了。
激进的代价
2019年,围绕以色列公司Mellanox,微软、英特尔、英伟达三家巨头展开了激烈地竞购。
Mellanox是InfiniBand方案的唯一提供商,市值为22亿美金。为此,英特尔专门预留了60亿美金的现金流,本以为胜券在握;没想到英伟达更狠,以69亿美金的高价将Mellanox收入囊中[7]。
这是英伟达有史以来最贵的一笔收购。然而,老黄的梭哈,给英伟达带来了不菲的经济回报。
前文曾提到,InfiniBand只是一种“交通规则”;想要使用这项技术,还得搭配硬件。
然而,由于InfiniBand的革新过于激进,重新设计了物理链路层、网络层、传输层,并不适配传统的硬件,需要更换整套基础设施,包括专门的交换机、网卡、电缆。
这些配套网络设备,全部由英伟达独家提供。
相当于InfiniBand重新定义了一套更高效的交通规则,但并不适用于小镇原本的燃油卡车;为了提升送货效率,小镇还得向英伟达采购一批新能源卡车。
由此可见,InfiniBand其实是一套“专用”方案。通过推广这一方案,英伟达可以大搞捆绑销售,向客户兜售专用的配套网络设施。
因此,InfiniBand的使用成本一直很高。科技公司在建设数据中心时,需要掏出20%的开支用于InfiniBand;如果改成通用的以太网方案,只需要一半甚至更少的费用[8]。
为了让科技公司用InfiniBand,老黄可谓用尽套路:
例如英伟达同时售卖InfiniBand与以太网的网卡,两者的电路板设计完全相同,但以太网的交货