智能涌现①|对话华傲数据董事长贾西贝:距离数据用光还剩3年时间,我们对此可以做点什么?
时间:2023-07-14 21:33:21来自:21世纪经济报道字号:T  T

编者按:

今年是数字经济发展的井喷之年。年初,国内发布了数字中国规划,宣告数字经济入国策;国外AI技术的发展,带领全球走入ChatGPT时刻。其中,AI是数字经济领域里的兵家必争之地,也是加速数字经济发展的新引擎。因此,中国市场上出现了“百模大战”的奇观。

在AI大模型领域,有一个现象叫“智能涌现”,并且被不少AI从业者认为是模型演进过程中最有魅力的地方。据业界人士描述,当大模型训练突破一定参数门槛时,其“智力”上会出现一个质的飞跃,而这个飞跃就是“涌现”。好比是,佛家禅宗里所言的“顿悟”。

实际上,“涌现(emergence)”这个词,最早是一个生物学概念,用于形容许多小个体相互作用后产生了大的整体,并在大整体上展现原本个体不具备的新特性。这就好像中文里所说的“众人拾柴火焰高”。同时,不少业内人士认为,AI今后的发展也应是如此。

此外,伴随AI“涌现”产生改变的还有人的思维模式。在这个最令科技工作者振奋的时代,思想的奇妙碰撞时时刻刻都在发生。但也正因如此,上个月形成的共识,也许下个月就会被推翻。

为抓住这些思维“涌现”,南方财经全媒体策划有《智能涌现》专栏,对话AI产业链上的一线工作者,力求用一篇又一篇的稿件,记录AI时代下的思维火花。

作为栏目的第一篇,我们打算从数据开始切入整个产业。因为数据不仅是“涌现”的门槛,也是AI发展的胜负手。为此,我们请到了一家在数字中国事业里深耕12年的“专精特新”企业——华傲数据。华傲数据董事长贾西贝此前在爱丁堡大学读博期间从事科研多年,现在是一名企业家及深圳市人大代表,可以说是一位同时兼具学界和商界两种不同视角的采访对象。

“若是这么多大模型都需要数据喂养,不出三年,AI大模型吞噬数据的速度,将使全球陷入数据荒。”在某个深夜里,华傲数据董事长贾西贝在微信上和南方财经全媒体记者交流时感叹道。

作为一个勇闯中国公共数据加工治理无人区10余年的开荒者,贾西贝一面为科技工作者迎来最好的时代而开心,一面又为中文数据生态的发展而忧心。

此前贾西贝在采访中提出,数据是AI大模型的胜负手。此次南方财经全媒体记者在线下与他对话过程中,他进一步延伸和完善了这个观点,并且还从数据角度出发,表达了自己对“百模大战”终局的看法。

此外,作为一名企业家、深圳市人大代表,贾西贝就如他的名字那样,“贾贾为真”,敢于提出新观点,他在采访中呼吁道,AI大模型领域急盼一套“专精特新”政策,以此逆转马太效应,激发创新生态。

离数据用光也就剩下3年时间南方财经:假设今天全球陷入数据荒,这将会对AI的发展产生什么影响?

贾西贝:我之前看到一个统计,说是2026年左右,全世界能够投喂给大模型的数据将告罄。按这个统计,离数据用光也就剩下3年时间。虽然自然产生的数据可复制、可复用,但却像地层沉积的煤炭、石油等能源一样,具有不可再生性,一旦错过了当时的生成环境,就很难在后期重复生成。同时,训练数据的收集需要人类社会的长期积累,不是啥时候想生成就生成。虽然AI合成数据已经在训练中越来越多地使用,但从长期效应来看仍有数据污染、技术抄袭等诸多争议。就像能源领域节能低碳成为全球议题一样,AI领域节约使用数据、降低数据消耗速度的“节数低数”模型也在逐渐成为研究热点。

再者,大模型讲求“大”,而这个“大”是呈指数级别的消耗数据。例如,北京最近制定的大模型扶持政策,定下的选拔门槛是10亿参数以上。而这个门槛放到几年前,几乎没有人能达到,那时候1000万参数就已经是天花板级别了。但现在中国进入“百模大战”新纪元,尤其这个“战”包含了大家对“智能涌现”的追求。好比说,大模型是一个对数据有着巨大食量的小孩,若是有一天这个小孩没有可食用的数据了,那么他的智力就停滞了。若是保证了其摄取的营养,当大模型突破了一定参数之后,就会出现“智能涌现”,模型理解力将有一个巨大的飞跃,可以说是大模型里最有魅力的地方。

目前业界认为,智能涌现的最低阈值需要600亿参数以上。而从ChatGPT的经验来看,用语元(Token)衡量的训练数据规模,常常是参数规模的数十甚至更多倍。参数规模的爆发,伴随的是语料算料需求的更猛烈的爆发。就像地球生物进化中有寒武纪生命大爆发一样,我们已经看到了“百模大战、千模大战”的爆发和追求更强智能参数的爆发。往后模型爆发和参数爆发互相激荡,将带来了更猛烈的数据爆发。因此,我会提出数据是AI大模型的胜负手。

可能有人会说,中国有14亿人口和5千余家上市公司,应该在数据上是长板。但据我观察,现今中文数据大而不强。因为数据与算法模型不同,后者可以重金悬赏,但前者由于数据安全、个人信息保护等制约,在流通上有诸多限制,不仅跨境难,跨企业也难。此前高文院士也在演讲中提到,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。因此,如果说全球都面临着数据荒问题,那么中文数据恐怕会更荒。

不仅如此,大模型这个小孩还要食用品质优良的数据。ChatGPT最重要

  • 浏览记录
  • 我的关注
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持