国内大模型"抢滩":一线城市率先发力,主攻通用人工智能
时间:2023-05-17 16:56:27来自:其他媒体字号:T  T

ChatGPT“狂飙”,国内AI大模型“抢滩”。据中国信通院测算,2022年我国人工智能核心产业规模达5080亿元,同比增长18%,企业数量超过4000家,中国人工智能产业已进入全球第一梯队。

此外,从中央到地方,政策层面不断释出利好信号,促进人工智能产业发展。

4月中共中央政治局会议指出,要重视通用人工智能发展,营造创新生态,重视防范风险。国联证券分析,政治局会议首提“通用人工智能”,产业趋势进一步明确。区别于此前中央经济工作会议等重要会议中泛指的“人工智能”,此次政治局会议明确强调“通用”,即ChatGPT自去年11月以来引领的通用性AI大模型技术路线。

近日,国家发改委主任郑栅洁发文称,加快发展数字经济。把握数字化、网络化、智能化方向,大力推进数字产业化和产业数字化,重视通用人工智能发展,支持平台企业在引领发展、创造就业、国际竞争中大显身手。

21世纪经济报道记者梳理发现,已有省市率先行动起来。去年12月,《广东省新一代人工智能创新发展行动计划(2022-2025年)》发布,提出要开展核心技术攻关,形成全球领先科技成果。

去年9月,深圳发布《深圳经济特区人工智能产业促进条例》,成为我国首部人工智能产业专项立法;上海发布《上海市促进人工智能产业发展条例》,提出建成具有国际影响力的人工智能“上海高地”。

北京则聚焦于通用人工智能,近日发布《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》(以下简称《若干措施》)。

聚焦算力资源和数据要素供给能力北京市政协经济委员会副主任、振兴国际智库理事长李志起表示,“AI大模型成熟的转化更多依赖具体的应用场景,中国在场景丰富度方面在全世界首屈一指,在政务处理、产业端应用都有优势,可以促进大模型商用的适用性。”

李志起进一步指出,北京目前是中国人工智能产业链最完整的城市,是全站式产业链的聚集地。《2022年北京人工智能产业发展白皮书》显示,截至2022年10月,北京拥有人工智能核心企业1048家,占我国人工智能核心企业总量的29%,数量位列全国第一。“在企业数量、数据要素资源、产业链和算力建设等方面,北京都走在全国前列。”

北京正在持续发力,据悉,《若干措施》由北京市科委、中关村管委会制定,对加强算力资源统筹供给能力、提升高质量数据要素供给能力、系统布局大模型技术体系持续探索通用人工智能路径、推动通用人工智能技术创新场景应用、探索营造包容审慎监管环境五大方向,明确组织机制,提出21项具体措施。

在加强算力资源统筹供给能力方向,依托全市数据中心统筹联席会议工作机制,加强市区两级相关单位与重点新型研发机构、云服务企业、算力建设企业、基础电信企业等单位的沟通协作,推动存量算力归集、新建项目论证和存量项目改造。该方向提出组织商业算力、新增算力基础设施建设、建设多云算力调度平台3项具体措施。

在提升高质量数据要素供给能力方向,归集高质量基础训练数据集,针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

记者了解到,火爆出圈的ChatGPT是基于OpenAI在GPT预训练语言大模型迭代生成的程序。大语言模型包含数千亿甚至更多参数的语言模型,以GPT-4为例,参数数量达到1.6万亿规模。在大规模语料库上经过预训练后,模型的能力被激发。从ChatGPT刮起的旋风开始,国内不少企业抢滩大模型。不过,对于语料库方面,中文环境的语料库存在不足,目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用。

对外经济贸易大学数字经济与法律创新研究中心执行主任张欣指出,数据要素在通用人工智能的训练中有着非常重要的作用。“实际上,对比国内外的大模型,除了算法、模型之外,用以训练的数据语料库差别是非常大的。《若干措施》可以说是抓住了关键。”

此外,《若干措施》提出打造“国家数据基础制度先行先试示范区”,谋划国家级数据训练基地。加快推动数据要素高水平开放的“国家数据基础制度先行先试示范区”建设,争创国家级数据训练基地,提升北京人工智能数据标注库规模和质量。倡议高质量数据网站所属企业提供部分脱敏高质量数据,进行定向有条件开放,企业或科研机构通过在线申请进行有偿使用,并探索基于数据贡献、模型应用的商业化场景合作。

搭建数据集精细化标注众包服务平台。建设指令数据集及多模态数据集众包服务平台,开发集成相关工具应用的智能云服务系统,鼓励并组织来自不同学科的专业人员标注通用人工智能模型训练数据及指令数据,提高训练数据的多样性,给予贡献者适当奖励,推动平台持续良性发展。

推动大模型技术体系系统布局和创新应用《若干措施》还提出,系统布局大模型技术体系,持续探索通用人工智能路径。

  • 浏览记录
  • 我的关注
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持