在当今科技飞速发展的时代,人工智能正以前所未有的速度推动着全球产业变革,成为引领经济转型升级的关键力量。以“数据要素驱动高质量发展”为主题,中国互联网协会近日在北京举办第六届“数字发展论坛”,汇聚国内200余位顶尖专家学者、行业精英和企业代表,深入交流与探讨数字发展趋势、机遇挑战、案例经验等。
科技革命引发全要素生产率(TFP)快速提升的“蝴蝶效应”,蒸汽机、电力、IT互联网是历史上三次科技革命的“蝴蝶”,正如中国电信科技委主任邵广禄指出,人工智能将成为新的“蝴蝶”推动新一轮科技革命和产业变革,AI和数据驱动正催生市值数量级增长的企业。在人工智能发展过程中,面临高性能与异构算力、高质量数据集等挑战。在实践中,中国电信总结算力方面需要攻克很多技术难点,譬如万卡集群线性加速、网络与调度能力、稳定性与故障恢复能力、并行资源调度能力等。中国电信在AI产业早布局,快发展,全面布局AI大模型,持续攻克万卡算力、息壤算力调度平台、数据要素平台、星辰系列大模型以及行业大模型等核心技术,并积极开源星辰大模型和开放中文数据集 TeleChat-PTD。
在人工智能由“模型中心”转向“数据中心”过程中,数据集是大模型构建的基石,在大模型开发中越来越重要。面对数据集构建中“量不足、质不高、用不畅”的三大挑战,在实践中,总结发现高质量的数据集的生产是个系统工程,会涉及六个方面。一是数据底座,包含云、网、隐私计算等;二是数据采集,当前网页数据比较成熟,但中文数据质量不高,特别需要生态合作开放数据集,如政府、事业单位及垂直领域的数据。三是数据预处理和分级分类。四是数据标注,需要产业化发展来提供更大范围更高质量的数据集。五是预训练的配比。六是高质量数据集的筛选。这六大方面对大模型的性能与准确度和智能水平具有决定性影响。
同行同业的数据集合就是行业的数据集,其价值远高于一个企业的数据价值,数据价值倍增。业内人士指出,中国电信与温州医疗合作数据开放共享,大力提升医疗水平,如通过AI质控提高图像质量来避免患者重复检查;中国电信与中国联通通过5G共建共享合作实践,三年节省千亿数量级投资,每年节省百亿数量级运营成本。
人工智能作为推动产业变革的核心引擎,正深刻改变着我们的生产生活方式。专家提出,通过开源开放、共享资源、共享收益,来减少企业重复建设和成本投入,促进数据集的共建共享,促进人工智能大模型的共建共享,通过AI和数据驱动,加速高质量发展。在未来,随着技术的不断突破与创新应用的持续拓展,人工智能必将引领全球产业迈向更加智能化、高效化的新阶段,为人类社会创造更大的价值。
(记者 张颖洁)