随着人工智能技术的蓬勃发展,高质量数据的重要性愈发凸显,成为推动大模型竞争的关键要素之一。然而,数据存量的增长速度远远低于数据集规模的增长速度,据人工智能研究机构epoch的研究预测,语言数据可能在2030-2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。
高质量数据的稀缺性导致数据采集成本水涨船高,许多公司面临着数据获取困境。因此,引领人工智能领域的企业,如微软、OpenAI、Cohere等公司,纷纷转向使用合成数据作为解决方案,以降低数据成本,推动AI技术的发展。
合成数据有望成为解决数据不足、数据采集成本过高的关键,那么合成数据是如何合成的?与“真实”数据相比有何优劣?应用场景有哪些?哪些公司在合成数据布局上更有优势?
合成数据有望助力突破数据瓶颈
在人工智能迈入2.0时代的关键转折点,数据质量和数量成为了最为紧迫的挑战。然而,现有真实数据采集的成本高昂,且存在有限性,限制了人工智能技术的进一步发展。
Forrester将合成数据、强化学习、Transformer网络、联邦学习和因果推理视为实现人工智能2.0的五项关键技术进展。合成数据是通过计算机模拟或算法生成的带有注释的信息,可模拟实际情况,补充真实数据的不足,提高数据质量和数量,并有效降低数据采集和处理的成本。
合成数据能够解决数据匮乏、数据质量、数据隐私等问题,提供现实世界难以或无法采集的数据,提高数据多样性和提升训练速度。
根据美国AI研究机构Cognilytica的数据,2021年合成数据市场规模大概在1.1亿美元,到2027年将达到11.5亿美元。Gartner预测,到2024年用于训练Al的数据中有60%将是合成数据,到2030年AI模型使用的绝大部分数据将由人工智能合成。
数据合成可以分为两类,一是通过传统算法合成,需要明确的物理规律,例如图像生成,通过3D建模来渲染图像。难点在于逼真细致的建模,场景静态与动态合理与自洽,快速的建模技术与合理的建模成本。当模拟技术发展到?定的阶段,通过模拟获得感知数据是?种更好的获取数据的?式。因为其成本更低,质量更高,约束更少。
二是通过生成模型(AI)合成,这类数据并不是从?然中采集得到的,?是智能体?成的,比如?本数据。这类数据需要通过复杂的智能活动才能?成,AI可以模仿人类?成这类数据。利用已经学到的知识,AI通过思考可以对已有的知识进行整理,去伪存真,得到更?质量的数据,并通过逻辑推理,发现新的知识。由于世界上可用的开源?本数据已经大部分被利用了,可以预见这类AI生成的数据的比例会越来越高。
国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软、英伟达、亚马逊等科技巨头均推出了合成数据的工具或者应用,用于训练自主飞行器、为AI训练构建具有物理属性的合成数据技术引擎等。
AI训练数据服务商appen表示,在处理真实世界的数据时,身份隐私的重要性将继续增加。合成数据创建人工生成数据集,因此数据中自然不包含个人身份信息。合成数据还可以快速生成大量数据,因此可以在无需时间或安全限制的情况下生成边缘用例数据。在2022年预测中,预见了对合成数据的需求,并与Mindtech合作,为客户提供合成数据。
中航证券高级分析师刘牧野对第一财经表示,合成数据相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温,开始涌现了合成数据即服务这一发展前景十分广阔的全新商业模式,建议关注国内进行AI算法研究,且拥有庞大数据的公司,包括百度(09888.HK)、阿里巴巴(09988.HK)、腾讯控股(00700.HK)、金山办公(688111.SH)、中国电信(601728.SH)等。
合成数据有望在金融、医疗、智能驾驶等领域率先落地
合成数据早期主要应用于计算机视觉领域,目前,合成数据正迅速向金融、医疗、零售、工业等诸多产业领域拓展应用。合成数据以其独特优势,为模型训练提供了更多样化的数据,从而使人工智能模型更可靠、更准确。这一趋势对于面临数据稀缺性或涉及敏感信息处理的行业尤为有益。
有研究人员在2018年曾发现,顶尖的面部识别软件在识别肤色较深的人时,错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个人类种族的子集。在这种情况下,合成数据可以在不需采集更多真实数据的情况下,轻松获取更多样化的训练数据。通过改变同一人的发型、头部姿势等特征,或者创造具有不同肤色、种族特征、骨骼结构等的面孔,让模型得到更广泛的训练,从而提高了可靠性。
在数据敏感的金融和生物医药领域,合成数据也展现了其隐私保护的巨大潜力。在金融行业,合成数据可以为金融机构提供一种有效的方法,用于在不提供敏感的历史交易信息的前提下,训练量化交易模型,从而提升获利能力。此外,合成数据还可以用于训练客服机器人,改善客户服务体验,为金融机构提供更智能、高效的客户支持。
合成数据的应用为药物研发工作也提供了巨大帮助。通过合成数据集,可以在不泄露患者隐私信息的条件下训练相关模型,加速新药研发过程,发现潜在