ScalingLaws:大模型训练的重要指导法则,规模越大模型效果越优。ScalingLaws是最早由OpenAI提出的大模型开发的黄金经验法则,核心在于得到模型参数规模、模型训练数据量以及模型计算资源三因素之间关系。实验结果显示,在transformer架构下,如果不断扩大模型三因素规模,得到的模型效果越优,算力规模增大和升级仍是通往AGI的关键。
ScalingLaws:模型三因素之间存在幂律关系,可对模型进行效果预测,同时三因素之间存在最优解。OpenAI在论文《ScalingLawsforNeuralLanguageModels》中发现AI大语言模型性能的三个主要因素(即模型大小、数据集大小和训练计算量)存在幂律关系,幂律关系意味着可通过对数转换变成线性关系,从而实现模型建模,达到预训练模型对模型效果的预测作用,从而为模型实际训练提供重要参考和指导。同时DeepMind对于ScalingLaws的进一步研究发现,在设定条件下,模型三因素之间存在最优解。
随着训练规模不断增大,大模型会出现涌现特质,且该现象具备普遍性。“涌现”能力(EmergentAbility)主要指的是当模型参数规模的增大突破某一阈值时,某些能力突然巨大提升。通过实验数据发现,当不断增加训练规模,大模型会出现涌现特质,表现为理解能力、解决问题等方面能力的突然提升。
从大语言模型到多模态模型,ScalingLaws已经得到充分验证。1)GPT-4:
通过基于ScalingLaws得到的幂律关系等结论,结合各种优化方法,OpenAI能够从较小计算量训练的模型来可靠预测GPT-4某些方面性能;2)Baichuan2:
当将大语言模型训练数据库变为中文时,基于ScalingLaws的搭建的预测模型,精准实现了对于最终训练模型的效果预测;3)Sora:作为多模态AI模型(文生视频),Sora模型基于transformer架构,通过训练同样获得了涌现特质,证明ScalingLaws在多模态领域依然有效。
投资逻辑及标的推荐:当前大模型仍处于发展前期,尤其是多模态模型还处在发展早期,基于ScalingLaws的启示,为了达到最优的模型效果,当我们不断增加模型参数规模时,所需要配置的算力规模仍需要等比例提升,推动算力硬件需求长期增长。通往AGI的进程中,算力仍然是主要掣肘,GPU及其网络设备仍需持续升级换代。算力硬件基础设施一般包括服务器、交换机、光模块三个重点环节,对应的产业链相关标的值得关注。重点推荐:中际旭创、天孚通信、新易盛;建议关注:鼎通科技、中瓷电子、太辰光、罗博特科、源杰科技、仕佳光子、博创科技、光库科技、光迅科技、华工科技等。
风险提示:大模型训练架构发生变化,导致ScalingLaws结论失效的风险;贸易摩擦加剧;AI应用进度不及预期。