股票频道

合成数据或破数据量瓶颈,哪些领域将率先落地

时间：2023-07-26 00:00:00来自：第一财经字号：T T

随着人工智能技术的蓬勃发展，高质量数据的重要性愈发凸显，成为推动大模型竞争的关键要素之一。然而，数据存量的增长速度远远低于数据集规模的增长速度，据人工智能研究机构epoch的研究预测，语言数据可能在2030-2040年耗尽，其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。

高质量数据的稀缺性导致数据采集成本水涨船高，许多公司面临着数据获取困境。因此，引领人工智能领域的企业，如微软、OpenAI、Cohere等公司，纷纷转向使用合成数据作为解决方案，以降低数据成本，推动AI技术的发展。

合成数据有望成为解决数据不足、数据采集成本过高的关键，那么合成数据是如何合成的?与“真实”数据相比有何优劣?应用场景有哪些?哪些公司在合成数据布局上更有优势?

合成数据有望助力突破数据瓶颈

在人工智能迈入2.0时代的关键转折点，数据质量和数量成为了最为紧迫的挑战。然而，现有真实数据采集的成本高昂，且存在有限性，限制了人工智能技术的进一步发展。

Forrester将合成数据、强化学习、Transformer网络、联邦学习和因果推理视为实现人工智能2.0的五项关键技术进展。合成数据是通过计算机模拟或算法生成的带有注释的信息，可模拟实际情况，补充真实数据的不足，提高数据质量和数量，并有效降低数据采集和处理的成本。

合成数据能够解决数据匮乏、数据质量、数据隐私等问题，提供现实世界难以或无法采集的数据，提高数据多样性和提升训练速度。

根据美国AI研究机构Cognilytica的数据，2021年合成数据市场规模大概在1.1亿美元，到2027年将达到11.5亿美元。Gartner预测，到2024年用于训练Al的数据中有60%将是合成数据，到2030年AI模型使用的绝大部分数据将由人工智能合成。

数据合成可以分为两类，一是通过传统算法合成，需要明确的物理规律，例如图像生成，通过3D建模来渲染图像。难点在于逼真细致的建模，场景静态与动态合理与自洽，快速的建模技术与合理的建模成本。当模拟技术发展到?定的阶段，通过模拟获得感知数据是?种更好的获取数据的?式。因为其成本更低，质量更高，约束更少。

二是通过生成模型(AI)合成，这类数据并不是从?然中采集得到的，?是智能体?成的，比如?本数据。这类数据需要通过复杂的智能活动才能?成，AI可以模仿人类?成这类数据。利用已经学到的知识，AI通过思考可以对已有的知识进行整理，去伪存真，得到更?质量的数据，并通过逻辑推理，发现新的知识。由于世界上可用的开源?本数据已经大部分被利用了，可以预见这类AI生成的数据的比例会越来越高。

国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软、英伟达、亚马逊等科技巨头均推出了合成数据的工具或者应用，用于训练自主飞行器、为AI训练构建具有物理属性的合成数据技术引擎等。

AI训练数据服务商appen表示，在处理真实世界的数据时，身份隐私的重要性将继续增加。合成数据创建人工生成数据集，因此数据中自然不包含个人身份信息。合成数据还可以快速生成大量数据，因此可以在无需时间或安全限制的情况下生成边缘用例数据。在2022年预测中，预见了对合成数据的需求，并与Mindtech合作，为客户提供合成数据。

中航证券高级分析师刘牧野对第一财经表示，合成数据相关创新创业方兴未艾，合成数据创业公司不断涌现，合成数据领域的投资并购持续升温，开始涌现了合成数据即服务这一发展前景十分广阔的全新商业模式，建议关注国内进行AI算法研究，且拥有庞大数据的公司，包括百度(09888.HK)、阿里巴巴(09988.HK)、腾讯控股(00700.HK)、金山办公(688111.SH)、中国电信(601728.SH)等。

合成数据有望在金融、医疗、智能驾驶等领域率先落地

合成数据早期主要应用于计算机视觉领域，目前，合成数据正迅速向金融、医疗、零售、工业等诸多产业领域拓展应用。合成数据以其独特优势，为模型训练提供了更多样化的数据，从而使人工智能模型更可靠、更准确。这一趋势对于面临数据稀缺性或涉及敏感信息处理的行业尤为有益。

有研究人员在2018年曾发现，顶尖的面部识别软件在识别肤色较深的人时，错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个人类种族的子集。在这种情况下，合成数据可以在不需采集更多真实数据的情况下，轻松获取更多样化的训练数据。通过改变同一人的发型、头部姿势等特征，或者创造具有不同肤色、种族特征、骨骼结构等的面孔，让模型得到更广泛的训练，从而提高了可靠性。

在数据敏感的金融和生物医药领域，合成数据也展现了其隐私保护的巨大潜力。在金融行业，合成数据可以为金融机构提供一种有效的方法，用于在不提供敏感的历史交易信息的前提下，训练量化交易模型，从而提升获利能力。此外，合成数据还可以用于训练客服机器人，改善客户服务体验，为金融机构提供更智能、高效的客户支持。

合成数据的应用为药物研发工作也提供了巨大帮助。通过合成数据集，可以在不泄露患者隐私信息的条件下训练相关模型，加速新药研发过程，发现潜在

分享到

浏览记录
我的关注

涨幅
跌幅
振幅
换手率

loading...

涨幅
跌幅
振幅
换手率

loading...

本站郑重声明：所载数据、文章仅供参考，使用前请核实，风险自负。

本站由北京济安金信科技有限公司提供技术支持