专访达观数据CEO陈运文:AI大模型扣响未来之门|中国经营者
时间:2023-06-13 17:51:41来自:第一财经字号:T  T

今年以来ChatGPT热潮席卷全球,成为当下最热门的话题,而如今国内的大模型创业浪潮也在扑面而来,除了多家的大厂纷纷布局之外,不少的创新企业也在纷纷发力。国产大模型之战悄然打响,行业遭遇怎样的困难?企业又该如何布局?

本期嘉宾

陈运文,达观数据创始人兼CEO。达观数据是国内领先的自然语言和文本文档处理领域的人工智能创业企业。不久前,达观数据基于多年的技术数据积累推出了曹植系统,是国内大语言模型中首批可落地的产业应用级模型。

特约评论员

张军平,复旦大学计算机科学技术学院教授、博士生导师

全文约4000字,阅读大约需要10分钟

1.国产大模型紧跟行业风口

2022年11月,硅谷创业公司OPENAI推出新型AI聊天机器人工具ChatGPT一夜之间火爆全球互联网,两个月用户数突破1亿,成为历史上增长最快的应用程序。

大模型是指具有巨量参数数量的人工神经网络模型,主要用于解决复杂的自然语言处理、语音识别等任务。大模型是ChatGPT及其同类产品的底层基础设施。

刘晔:两位是从什么时候开始接触和使用这个ChatGPT,我想两位都是业内人士,是不是会比我们更早的获悉到OpenAI在大语言模型方面的一些突破?

陈运文:ChatGPT他们在2016年就已经创办了,我们注意到他们是在2020年的3月份,那个时候他们发布了GPT3,所以我们当时也下载并且使用了GPT3的系统。当时系统坦率来说效果不太好,但我们后来到2022年的年底的时候,随着ChatGPT,也就是GPT3.5代发布以后,确实我们当时用了一下发现和3.0有天壤之别,有巨大的效果的飞跃。所以从那个时候开始非常认真地重视起GPT相关的模型。

张军平:我对这个其实接触得还没有陈总早,大概是在2023年3月份左右,结果感觉和以前最大的区别,它其实是基于一种对话的形式,而且这种对话它可以不断地跟它去聊,然后它就会有反馈,我们说ChatGPT它可能和前面的一个最大的区别是一个思维链,这种现象在以前的这个模型里面是没有的。这个数据量达到一定规模,就是应该是十的几次方以后,它会出现一个跳跃。

刘晔:你大概经历了一个什么样的决策的流程,你们是什么时候开始采取行动的?

陈运文:我们响应得非常快,在去年年底的时候,其实那个时候只在学术界或者产业界一小部分的技术人员里面是了解这个技术的,我们就敏锐地发现是一个巨大的机会,我们当时从去年年底开始就开始着手来做这件事情,然后我们从几个方面就开始组建团队来,抽调我们的精干人员去学习相关的技术、论文,去复现相应的算法模型,并且开始收集我们的数据,以及为我们算力等等,这些都是从去年年底开始。然后整个春节期间都没有休息,紧锣密鼓地来推进我们自己的国产的GPT模型的工作。

2.行业面临的共同难题

过去几个月,百度的文心一言、阿里的通义千问、科大讯飞的星火、昆仑万维的天宫、商汤的日日新、网易的子曰等等都先后问世。越来越多的国内企业入局其中,大模型之战已悄然打响。

刘晔:你当时组建了一个多大的团队?

陈运文:团队组建方面我们原来的这些技术团队,因为他们其实也一直在做自然语言处理的技术研发工作,而且这个技术团队在过去几年他们参加了一些国际的算法竞赛,也拿过冠军的,所以我们对这个团队的技术能力我们还是非常认可的,所以我们让他们加班加点来研究GPT模型的相关的核心技术。而且我们发现在这个过程当中其实问题还是很多的,比如说第一个拦路虎就是我们缺算力,不光是我们缺,整个社会都很缺,因为很缺算力,我们的这个程序要能够有非常强大的系统才能够把它拉动起来,所以的话当时有段时间就像唐僧一样到处去化缘,到处去借这个算力。

刘晔:张教授怎么来看待刚才陈总说到的这个可能遇到的第一个拦路虎,就是我们这个算力的短缺问题。

张军平:其实陈总讲的这个问题还是蛮严重的,对于我们国内来说。我们知道ChatGPT其实用的这个显卡是(英伟达)A100,用了一万块,国内的话能够有一万块显卡的这个算力可能不超过五家。然后另外的话就是这个数据当时为什么大家说国内的数据不太好做呢?因为美国的数据是在互联网上爬的,然后这个爬的过程中的话,不同网站之间它是没有太多这个限制的条件,你可以同时爬下来,但是中文的话,每个公司在这个网络数据上的格式都不一样,它的限制也不同,所以你就没有办法爬出跟这个ChatGPT一样的中文语料库,这是一块。

还有一个就是这个大模型本身我们其实对国内的话在这个对于GPT的了解其实是在GPT2这个位置,然后GPT2以后的话其实美国它已经没有开源了,我们只能猜。所以其实认识跟陈总差不多,就是数据然后模型、算力这三块我们还是存在短板的,需要去追的。

刘晔:在这个大模型的生态当中有几层,那底层可能是算力层,然后是框架层,再往上是模型层,最后是应用层。这四层当中从两位来看,就目前国内的这些不管是大厂还是创新企业,大家主要的机会会来自于哪里?

陈运文:我觉得整体来看我还是非常乐观的。因为我觉得整个这个产业链,不管是从底层的算力硬件

  • 浏览记录
  • 我的关注
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持