数据已超越传统生产要素,成为驱动人工智能技术突破与产业变革的核心动力,而高质量数据是提升大模型准确性、适应性泛化能力的核心。高质量数据集不仅是人工智能模型性能跃升的基石,更重塑了从技术研发到商业落地的全产业链条。其中数据标注与清洗是高质量数据集建设的关键环节。
2025数据安全发展大会在温州召开,国家数据局党组书记、局长刘烈宏出席并致辞。会上,由中国电子信息产业发展研究院(赛迪研究院)发布的《2025高质量数据集研究报告》显示,随着人工智能、大模型技术迭代,高质量数据建设进入规模化、规范化发展新阶段。
据央视新闻报道,2024年,我国开发或应用人工智能的企业数量同比增长36%,高质量数据集数量同比增长27.4%,有力支撑人工智能训练和应用。利用大模型的数据技术企业和数据应用企业同比分别增长57.21%、37.14%。
赛迪研究院党委书记、副院长刘文强表示,作为人工智能模型训练与应用的基石,高质量数据集对于人工智能技术创新、产业升级和社会进步意义十分重大,是当前数字经济建设的时代课题。国家数据局统筹推进了全国七个数据标注基地建设,构建医疗、工业、教育等领域高质量数据集。
赛迪研究院副总工程师刘权在接受央视新闻采访时表示,2025年4月29日召开的第八届数字中国建设峰会上,国务院国资委发布了涵盖智慧能源、工业制造、绿色低碳、金融服务等10余个行业30项人工智能行业高质量数据集优秀建设成果。贵阳大数据交易所累计发布的939个多模态数据集覆盖了金融、工业、医疗、商贸等关键领域,为大模型厂商提供了丰富且优质的数据资源。后续将深化数据资源开发利用和开放共享,以高质量数据集建设赋能大模型训练、助力高价值场景落地,为人工智能高质量发展筑牢数据底座。
面向高质量数据集建设的各流程环节,刘文强建议从以下五个方面发力:
一是强化数据获取与共享,探索行业试点联合推进共建新模式。二是加强数据质量源头发力,推动数据标注产业高质量发展。三是完善质量与标准体系,推动建设重点行业数据集评价标准。四是优化数据集运营模式,推动数据资源价值生态循环落地。五是加强数据隐私与安全保障,推动数据集安全评估能力建设。
报告显示,当前我国正加速推动高质量数据集创新发展,但是仍然面临数据存量小产量低、数据集质量良莠不齐、缺乏主流高价值数据引领、数据利用效率低等问题。
刘文强表示,建议从以下三方面进行改进:
一是在数据汇聚与共享方面,数据存量小产量低,数据集汇聚共享效率有待加强。二是在数据供给与质量方面数据集质量良莠不齐,缺乏主流高价值数据引领。三是数据挖掘与利用方面存在算法偏见,加剧数据遗失,数据要素价值挖掘不足。
刘权表示,在确保数据集的质量方面,一是做好数据源头管控,确保数据来源的可靠性、完整性。二是做好标注质量控制,规范数据标注流程,提升标注质量。三是做好数据集质量评估,通过质量评估指导认定一批高质量数据集,使之更好地应用到人工智能系统。在确保数据安全方面,要夯实数据安全保障能力,加强数据隐私与安全保障,推动数据集安全评估能力建设,建立对数据集的持续监控评估机制,全方位保障数据安全。