孟庆国:培育数据标注新业态 推动建设高质量数据集
创始人
2025-08-27 04:42:50
0

人民网深圳8月26日电 (记者栗翘楚)随着人工智能技术快速发展,高质量数据集已成为推动生成式人工智能创新发展的核心稀缺要素。

清华大学中国电子数据治理工程研究院院长孟庆国在“2025人民数据大会”发表主旨演讲。人民网记者 翁奇羽摄

8月26日,清华大学中国电子数据治理工程研究院院长孟庆国在“2025人民数据大会”发表主旨演讲时表示,人工智能的每一次发展和进步都与数据有关,没有数据的支撑,人工智能将寸步难行。在大模型时代,有没有成规模、高质量、多模态的数据,成为行业发展的基础。

高质量数据集是什么?

孟庆国表示,高质量数据集需要具备以下要素:有一定规模、准确性高和拥有足够多样性,同时还包括数据的时效性,数据是否合规、合法,以及数据和训练模型之间的匹配程度。

数据标注作为将原始数据转化为可识别、可训练、可计算的关键环节,其质量直接决定了数据集的应用价值。培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。

孟庆国表示,近年来,我国数据标注产业链发展迅速,市场规模达800多亿,但依然存在高质量行业数据规模较小、数据治理的能力不足、复合型标注人才存在缺口、数据质量的评价体系不完善等现象。

如何开展数据标注?

国家战略布局和大模型技术突破的双重驱动下,数据标注产业正在经历从劳动密集型向知识密集型的深刻转型。孟庆国表示,从历史维度来看,过去的数据更多依赖人工,如今是以工具和平台作为标注手段,未来,依靠人工智能自身去进行数据标注将成为趋势。在做好布局和探索过程中要把握以下几方面路径:

要进行需求牵引,通过挖掘人工智能的场景,来释放标注的需求。要因地制宜,通过构建一些特色产业的场景,来发展具有特色性的数据标注产业。要夯实基础支撑,在数据质量、数据伦理、数据安全得到保障的前提下,构建数据可信的标注空间,助力数据价值释放。要打造产业聚集,通过产业聚集推动数据产业的发展。要带动就业,通过数据标注,发展具有专业领域知识的专门性标注人才。要营造良好产业生态,特别是在政策、制度、标准、公共服务平台建设等方面进一步营造好数据标注的发展环境。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...