摇钱树还是吞金兽?大模型考验AI数据服务商
时间:2023-11-07 00:00:00来自:证券时报字号:T  T

“大模型对数据采集、标注等方面的要求都非常高。以前大家还在卷价格,但现在处理一条数据,成本甚至能达到几百块钱。”在一场大模型语料数据推介会中,北京晴数智慧科技有限公司(下称“晴数智慧”)的数据专家乔天说道。

作为一家数据服务公司,晴数智慧主要为人工智能研发企业和科研机构提供高质量的AI训练数据集及专业咨询服务。乔天的感受并不是个例。证券时报记者采访多家AI数据服务商发现,今年以来大模型的火热,为一批AI数据服务商带来了更多订单需求,却也极大提升了数据产品和服务的成本。

大模型时代,机遇与挑战并存。布局大模型是为未来种下一棵确定的“摇钱树”,还是在养一只“钱”景不明的“吞金兽”?随着三季报尽数出炉,部分上市公司的业绩也透露出一个信号:AI数据服务商业绩承压,正面临成本考验。

收益——

需求井喷带来更多订单

算力、数据、算法,被称为支撑AI大模型的三驾马车。在今年的世界人工智能大会上,中信智库专家委员会主任、中信建投证券研究所所长武超则表示,一个模型的好坏,20%由算法决定,80%由数据质量决定,未来高质量的数据将是提升模型性能的关键。

训练大模型需要大量高质量的数据。如果将大模型比作一个学习者,那唯有提供优质的“学习材料”,才能让其更有效地掌握知识,提升智力水平。随着预训练大模型技术的发展,对数据的质量和数量的要求也越来越高。根据德勤预测,2027年AI预训练数据服务的市场规模有望达到160亿元,5年复合增速为28.9%。

而且,目前大模型加速应用于千行百业,对于垂直领域高质量数据集的需求更是呈现井喷的状态。记者梳理发现,A股主要的AI数据服务公司最近一段时间纷纷宣布,已与大模型公司或科研机构达成了合作。

比如,国内AI训练数据龙头海天瑞声近期宣布与北京智源人工智能研究院正式签署战略合作协议,在大模型数据处理、大模型评测、数据集研发、人工智能标准研制等方面开展合作。拓尔思日前在投资者互动平台表示,公司已与人工智能企业和国家级实验室签订销售合同,为其提供高质量、多元化的数据,作为大模型预训练数据集。

“我们的一个明显感受是,大模型在场景端实现了真正的爆发。”上海数库科技首席科技官曹峰在接受记者采访时说。作为一家数据科技公司,数库科技在金融及产业领域积累了庞大的数据产品与系统服务。曹峰告诉记者,如今客户会基于大模型的能力提出许多以往技术达不到的需求,例如对现有研报和公告进行深度解析,将对上市公司调研的访谈内容形成文字并自动提取要点等等。

场景应用的多元化以及信息加工的深度化,都意味着更多和更复杂的数据需求。据介绍,这些数据有些需要借助大模型来生产,有些则是作为垂直领域大模型的训练语料或者生成内容时的参考资料。

成本——

算力与人力开销

水涨船高

虽然大模型横空出世以前,AI数据服务商已经积累了不少成熟的数据产品,然而很多并不契合训练大模型的要求。“大模型公司就像厨师,数据服务商就像菜农,厨师下单的一些‘食材’,是菜农之前没有见过的。”财经信息服务商飞迪科技创始人丘慧慧向记者做了一个生动的比喻。

“厨师”提出了定制化的、更高端的食材需求,“菜农”只能投入更多的精力、花费更高的成本去制作。这带来的一个直观影响,就是数据产品和服务的成本变高了。

具体是哪些地方需要花更多的钱呢?一名人工智能研究人员告诉记者,更高的成本主要体现在两个方面——算力和人力。算力方面,由于大模型需对数据进行更深度、精细的挖掘,离不开更强大的算力支持,数据服务商往往需要租赁或者采购更多的芯片、显卡等硬件资源。

人力方面,在过去相当长的一段时间里,AI数据服务,尤其是数据标注服务被视为劳动密集型产业,是脏活、苦活、低附加值的活。以数据标注为例,一些科技大厂和数据服务商常常在经济欠发达的地区设立数据标注团队,助力当地群众就业的同时降低人力成本。然而在大模型时代,数据质量要求大大提升,数据处理难度变大,过往依赖低成本劳动力、“价低走量”的模式不再成立。

“以前中专生或高中生就可以满足数据标注的要求,如今需要招聘大学生,甚至是硕士生、博士生,处理指定行业的垂直类数据。”一名AI数据服务商向记者表示。据媒体报道,一家头部大模型厂商建立的数据标注基地,第一批标注员的本科率达到了100%。毫无疑问,至少在现阶段,大模型让数据标注员的学历卷起来了,人力成本自然也水涨船高。

除此以外,将数据“喂”给大模型之前可能需要对其进行初加工和预处理,需要搭建新的平台。对于AI数据服务商而言,则需要布局数据存储和处理的硬件设备,同时也必然伴随着更多算法工程师的人力投入。而且在大模型浪潮下,一些积累了高质量行业数据的数据商已经不满足于提供数据服务,而是自己下场搭建行业大模型——而这则是更大的一笔投资。

因此,布局大模型注定是一项“烧钱”的业务。反映在二级市场上,多家开展数据业务的A股上市公司发布了定增募资方案,以满足大模

  • 浏览记录
  • 我的关注
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持