上证报中国证券网讯2023数据资产管理大会近日在北京召开。中国信通院云计算与大数据研究所所长何宝宏在大会上表示,人工智能技术的发展对数据治理提出了新需求。
他说,大规模、多样化、高质量的训练数据集是大模型建设的核心竞争力,Meta最新发布的大模型的训练数据集达到了4828GB,是5年前GPT-1数据集规模的一千倍。吴恩达等科学家提出了以“数据为中心的人工智能”,希望通过系统性地改进和增强数据集,从而提高人工智能模型的准确性和可用性。
然而面向人工智能的数据治理体系刚刚开始发展,数据治理还面临诸多挑战,例如高质量数据集的获取、数据集质量的评价与提升、数据资源的知识产权保护、生成内容的管理等。这些都对数据治理的技术和方法论提出了更高的要求。
目前,中国信通院正在积极探索推进人工智能数据治理的发展。由中国信通院牵头,联合30多家企业,已启动编写《人工智能数据治理白皮书》,面向人工智能数据治理的核心问题,总结方法论和实践体系,帮助企业构建全面的数据治理能力。