“大模型”横空出世点燃人工智能产业发展新高
数据、算法、算力人工智能“三驾马车”齐头并进
数据标注人工智能背后“人工”的力量
从知识学习到交通出行人工智能改变你我的生活
前言:随着中国数字经济的深入发展,产业数字化进程不断加速,大数据在产业决策中的比重越来越高。天眼查数据研究院特此推出“天眼新知”专栏,以天眼查大数据为依托,梳理产业格局及发展脉络,解读产业领域最新动态和投融资风向,为各方决策提供参考。
本文为天眼新知·产业分析系列,第三十四篇。
人工智能,源于一篇绕口令式的科技论文《神经活动中内在思想的逻辑演算》、源于赫赫有名的“图灵测试”、源于20世纪50年代具备长远眼光的科技先贤们一次“不经意”的讨论。
人工智能,起始于对人类自身理解的深入挖掘,对人的意识、思维的信息过程的模拟。今时今日,人工智能不再是科幻电影中无法触及的概念,它已成为家喻户晓的“现实”,在减轻人类的体力负担和脑力负担方面已渐渐显示出优势,比如在极端天气预测等层面显露头角。
随着深度学习,大模型等关键技术的深入发展,以Chat-GPT爆发为新起点,人工智能将快速迈入下一个“未知”的阶段。
一、人工智能:工具属性与思维能力的深度融合
人工智能从标准的定义来讲,可参考《人工智能标准化白皮书(2018)》中所提。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
在大多人的眼中,人工智能是一位非常给力的助手,工具,可以实现处理工作过程的自动化,提升工作效率,比如执行与人类智能有关的智能行为,如判断、推理、证明、识别、感知、理解、通信、设计、思考、规划、学习和问题求解等思维活动。
但与之其工具属性,能力属性相比,人工智能更为重要的是一种思维,是用来描述模仿人类与其他人类思维相关联的“认知”功能的机器,如“学习”和“解决问题”。
人工智能产业在20世纪50年代提出后,限于当时的技术能力,多限于理论知识的讨论,而真正开始爆发还是自2012年的AlexNet模型问世。
1.人工智能1.0时代(2012年-2018年)
人工智能概念于1956年被提出,AI产业的第一轮爆发源自2012年,2012年AlexNet模型问世开启了CNN在图像识别的应用,2015年机器识别图像的准确率首次超过人(错误率低于4%),开启了计算机视觉技术在各行各业的应用,带动了人工智能1.0时代的创新周期,AI+开始赋能各行各业,带动效率提升。但是,人工智能1.0时代面临着模型碎片化,AI泛化能力不足等问题。
2.人工智能2.0时代(2017年-至今)
2017年GoogleBrain团队提出Transformer架构,奠定了大模型领域的主流算法基础,从2018年开始大模型迅速流行,2018年谷歌团队的模型参数首次过亿,到2022年模型参数达到5400亿,模型参数呈现指数级增长,“预训练+微调”的大模型有效解决了1.0时代AI泛化能力不足的问题。新一代AI技术有望开始全新一轮的技术创新周期。
天眼查数据显示,截至目前,人工智能相关企业近267.4万余家,其中,2023年一季度新增注册企业17万余家,与2022年同期相比,上涨6.8%;
从地域分布来看,广东以39.9万余家位列区域首位;江苏、北京分列二、三位,分别拥有22.4万余家以及21.8万余家;
从成立时间来看,53.6%的相关企业成立于1-5年内,成立于1年以内的相关企业占比27.7%;
另据天眼查不完全统计,人工智能产业自2023年1月以来,融资事件合计发生143起,融资金额超800亿元。
二、数据、算法、算力:人工智能的“三驾马车”
1.数据:“巧妇难为无米之炊”
人工智能的快速发展推动数据规模不断提升。据IDC测算,2025年全球数据规模将达到163ZB,其中80%-90%是非结构化数据。数据服务进入深度定制化的阶段,百度、阿里巴巴、京东等公司根据不同场景和需求推出数据定制的服务;企业需求的数据集从通用简单场景向个性化复杂场景过渡,例如语音识别数据集从普通话向小语种、方言等场景发展,智能对话数据集从简答问答、控制等场景向应用场景、业务问答等方向发展。
各方积极探索建立高质量知识集,推动知识驱动的未来人工智能应用发展。知识集中包含语音、图像、文本等传统数据和定义、规则、逻辑关系等,是知识的数据化呈现,业界著名知识集有Wordnet、Hownet等。例如阿里巴巴联合香港理工大学基于服装设计知识开发FashionAI知识集,加速了AI在服装设计产业落地应用。
2.算法(模型、软件):“困难”总比方法多
根据中国信通院《人工智能白皮书(2022年)》,超大规模预训练模型持续推动技术升级,继续朝着大规模、多模态方向发展。自2020年OpenAI推出GPT-3后,谷歌、华为、智源研究院、中科院、阿里巴巴等企业和研究机构也相继发力,陆续推出超大规模预训练模型,包括SwitchTransformer、DALL·EMT-NLG、盘古、悟道2.0、紫东太初和M6等。当前,预训练模型参数数量、训练数据规模按