ChatGPT是OpenAI推出的人机对话聊天机器人,月活用户数在上线两个月后便突破了1亿,成为史上用户数增长最快的消费应用。我们认为ChatGPT并非偶然、亦不会是个例,以此为代表的AIGC应用有望随着技术和商业模式的不断成熟,驶入发展的快车道,长期或将深刻影响社会生活的方方面面。从投资角度来看,应用端的百花齐放意味着短期回报的不确定性,而支撑AIGC应用蓬勃发展、及其背后海量参数的大模型训练的底层硬件基础设施有望成为“卖水者”,凭借较高的确定性在投资层面先行。
结合ChatGPT在训练和推理过程中对算力、网络等硬件的需求,我们量化测算出在中性情景下,该应用有望推动约65亿美元的增量市场空间。展望未来,我们认为GPT-3向GPT-4的迭代、更丰富的AIGC应用出现,都将推动这一增量空间持续向上。建议关注AI芯片、AI服务器、高速率光模块/网络设备等弹性较高的细分赛道及龙头供应商。
摘要
半导体方面,我们认为大模型的出现对芯片算力、存储容量、通信带宽、及软件栈等多个维度上的技术要求将呈现提高,并有望创造出可观AI芯片增量市场空间。在中性情形下,我们测算训练及推理相关AI芯片增量市场空间有望达到3亿/20亿美元。此外,我们认为服务器CPU、存储芯片、FPGA、PCB相关产品技术规格有望向更高水平迭代,市场规模也呈现相应增加。
在云计算设备方面,我们认为AI模型训练的高算力、高能耗需求与国内“东数西算”的算力布局相契合,有望加速西部AI超算中心的建设;同时,服务器、光模块、存储器等硬件设备有望率先受益。
服务器:我们认为AI服务器相较于通用服务器,具备大存储带宽/大片间互联带宽及良好的散热能力。在中性假设下,我们测算模型训练/ChatGPT应用对应的服务器增量空间约8亿美元/50亿美元。
光模块:我们认为ChatGPT对光模块行业存在以下三方面的深远影响:1)中性情景下,模型训练/ChatGPT推理将分别新增约214万美元/1055万美元的光模块需求;2)驱动高速光模块渗透率加速提升;3)硅光+CPO方案优势进一步凸显,新技术有望加速普及。
存储/温控等:我们认为,GPT-3.5等AI模型的训练及推理对存储器提出了更高的要求,有望加速SSD对HDD的替代进程;同时,AI服务器高能耗特性,有望推动数据中心的散热系统向液冷更新迭代。
风险
ChatGPT相关算法技术及应用商业落地进展不及预期。
云硬件为大模型商业化平坦之路披荆斩棘ChatGPT是OpenAI推出的人机对话聊天机器人,这一应用背后的基础是基于Transformer算法建立的GPT-3.5模型,隶属大模型(LargeLanguageModels,LLM)的分类。大模型的优点在于,其可以通过大量语料等数据,有监督式地预训练语言模型,再经过强化学习等方式微调,迁移至各种具体的自然语言处理NLP任务。
我们认为,以GPT为代表的生成类AI模型若想得到高质量的结果,则必须通过拥有海量数据的数据集来进行训练。而生成后的模型,尽管计算量有所下降,千亿级别的海量参数也对推理计算量及效率提出了挑战。我们认为原来单机单卡的训练和推理将成为历史,分布式计算会成为新时代的主题,从对云计算基础设施的优化需求来看,不仅单位设备算力、数据互联、存储等多方面需求面临挑战,而且如何把这些需求都以合理的方式去平衡,确保某一个单独的方面不会成为瓶颈,才是当下的核心问题。我们认为,服务器、存储器、光模块、AI加速芯片、CPU等云硬件的技术迭代、市场规模发展是生成式AI模型商业化之路逐渐平坦的前提。
大模型应用驱动半导体技术升级,市场规模成长可期
整体来看,我们认为大模型的出现将提高对芯片算力、存储容量、通信带宽、及软件栈等多个维度上的技术要求,并有望创造出可观的AI芯片增量市场空间;此外,CPU、存储芯片、FPGA、PCB相关需求也会同步增加。
大模型发展下,AI芯片的挑战与市场机会
对计算的挑战
大算力AI芯片是支撑ChatGPT类似应用落地及大模型高效生产的基本前提。我们看到,针对自然语言处理相关深度学习模型,为了更强大更精准的语言语义理解和推理能力,近些年来的发展趋势是引入了带有Attention机制及Transformer网络,使得模型的大小每年以1-2个数量级的速度提升,参数量由亿级往千亿级过渡(BERT-Large模型参数量仅有340M,而GPT-3的参数量达到175B)。我们认为,大模型的引入往往会引发训练时间长、推理速度慢等一系列的问题。
根据腾讯云数据,对于24层、参数数量340M的Bert-Large模型,在8张V100卡的服务器中,13G预料的训练时间需要48-60小时,对应100ExaFLOPS的计算量。根据Nvidia在2021年发布的论文[1],完成GPT3模型(ChatGPT应用实际上基于参数更高的GPT-3.5,并仍处于更新中)一次迭代的计算量就高达4.5ExaFLOPS,而完整训练的计算量高达430ZettaFLOPS(对应约95K次迭代),是Bert-Large模型训练所需要计算量的千倍之多。
对存储容量的挑战
根据Nvidia的测算,对于参数为175B的模型,若在一个原生未经优化的框架下执行(不剪枝压缩、不降精度),各部分大概需要的显存空间估算如下:1)模型