方经纶
编者按:当前,新一轮科技革命和产业变革迅猛发展,人工智能等新技术方兴未艾。如何迎接数字时代的机遇与挑战,携手迈进更加美好的“数字未来”。11月19日至22日,在2024年世界互联网大会乌镇峰会期间,人民网《对话企业家》栏目邀请互联网企业相关负责人分享创新故事、解读前沿热点、洞察智慧未来。
趣丸科技副总裁、总编辑任少峰。 人民网记者 任峰涛摄
聚焦当下,人工智能技术在声音领域取得了哪些成果?展望未来,AIGC技术还有望在哪些场景落地应用?11月20日,“人民之夜@乌镇咖荟”在浙江乌镇成功举办,趣丸科技副总裁、总编辑任少峰在现场接受了人民网记者专访。
人民网:在声音领域,人工智能技术目前取得了哪些成果?
任少峰:首先是开源语音大模型。例如,趣丸科技与香港中文大学深圳校区合作研发的开源语音大模型“MaskGCT”,它训练于10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成,可用于声音克隆、语音生成,降低视频制作、内容播报等场景中的语音录制成本,使更多相关从业者从中受益。
其次是音乐生成大模型“天谱乐(TemPolor)”。用户通过提供关键词、音频、照片或视频等素材,即可在平台上生成包含人声、唱词、乐器,多种曲风的歌曲。目前,这项技术已应用于短视频和影视创作,如影视公司自制微短剧的配乐。未来,行业将继续降低这项技术门槛,让它实现更加“普惠化”发展。
人民网:今后人工智能技术还有哪些潜在的应用场景?
任少峰:我从已经有了一定基础的场景,到未来可能发挥作用的场景进行展望:
一是兼具可视化数字形象以及实时交互能力的智能客服系统。目前我们已经开发了一站式数字人生成平台,仅需一张照片便可以生成独特的数字人“分身”,根据给定知识库自主为用户解答问题。
二是为中小型商家提供数字人直播带货服务。仅需每月支付一定服务费,即可实现24 小时不间断直播。
三是促进文化出海。智能翻译系统可将海量微短剧翻译为其他国家语言,同时精准对应音色、口型与表情,从而降低人力成本,助力文化传播。
四是人物、物体和场景的三维重建。它的应用场景包括家居设计、游戏设计等领域,可以显著提高生产效率。此外,这项技术还有望与3D打印机相结合,将AIGC重建的模型转化为实物。
人民网:当前人工智能技术应用场景拓展存在哪些难点?
任少峰:结合我们的日常工作经验,当前人工智能技术应用场景拓展存在的“堵点”主要有三个方面,首先是人工智能团队任务繁重,既要进行基础技术研究又要承接产品需求;其次是人工智能技术应用端行业缺乏将人工智能与业务相结合的具体思路;三是缺乏能将技术与应用结合起来的“中游”咨询机构、中介机构,希望未来社会各界能在促进技术与应用融合方面做出更多尝试。