上海证券报成为中国大模型语料数据联盟第三批新成员
时间:2023-10-18 19:12:29来自:中国证券网字号:T  T

上证报中国证券网讯10月16日,由中国大模型语料数据联盟(后简称:联盟)主办的联盟开放日第二场活动在上海人工智能实验室成功举行。活动现场,60余家大模型语料数据企业、人工智能企业及相关机构代表出席会议。此次活动上,上海证券报成为中国大模型语料数据联盟第三批新成员。

上海市经信委信息化推进处副处长山栋明致辞表示,大模型发展到现阶段,不仅需要关注参数优化、模型大小,更要关注生态和应用。以语料数据持续推动大模型发展,要做宽语料数据宽度、提升深度、发力浓度,增加数据多样性,完善语料库运营视角下的分类分级,实现高质量供给与高质量需求的适配。

上海人工智能实验室作为联盟发起单位,分享了联盟的当前发展与未来展望。生态中心负责人,合作交流与知识产权部部长王宇从联盟定位、开源语料数据发布情况及平台支撑、语料数据审核与质量评估规范、联盟生态运营与发展规划等相关情况。

随后,中国电信股份有限公司、中国信息通信研究院、上海证券报、上海市统计和大数据研究院、上海科学智能研究院、上海陶术生物科技有限公司、中新宽维传媒科技有限公司、上海元集之智能数字科技有限公司、上海智臻智能网络科技股份有限公司9家新成员单位加入“中国大模型语料数据联盟”,将共同为大模型技术深度发展与高水平应用提供更多元的数据要素保障。人民网上海频道全媒体部韩庆主任及联上海市数商协会秘书长为他们颁发了入盟纪念证书。

活动上,上海市智能教育研究院副院长、华东师范大学计算机科学与技术学院副院长贺樑发布了“华师·无涯”开源数据集,该数据集由华东师范大学出版社联合上海智能教育研究院共同发布,包含从学前教育、基础教育、高等教育到职业教育的全年龄、全学科内容,总容量近1TB。

华东师范大学计算机科学与技术学院青年研究员(紫江学者)周杰介绍到该数据集具备大规模、高质量、多样性及测评四大特点:在大规模方面,包括教材、教辅、学术著作等全系列教育资源,涵盖全方位全年龄段;在高质量方面,数据集保证数据的安全、无害、有助,从数据源、数据规范,数据处理、数据标准制定四个方面控制数据质量;在多样性方面,构建契合中国教育体系,覆盖多教育阶段、多学科的结构化和非结构化语料,包含预训练中文教育语料、指令学习中文教育语料和价值对齐中文教育语料三个部分;在评测方面,还提供全面高质量教育能力评测数据集,从教学知识、学生发展、内容知识三大模块,记忆、理解、运用、分析、评价、创造六个层级,全面评估大模型在智能教育领域的应用性能。

活动现场,中国信通院云大所还围绕《大模型数据资源地图和治理路径》系列报告编制工作与参编企业展开全面交流和探讨。

未来,联盟将持续发挥好“朋友圈”作用,凝聚各方资源,发挥各成员单位优势,群策群力,共同推动大模型语料数据高水平供给,为我国大模型发展做好数据支撑。

  • 浏览记录
  • 我的关注
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
  • 涨幅
  • 跌幅
  • 振幅
  • 换手率
loading...
本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持