人机大战2.0:一个耳机,就能抢同传的饭碗?
创始人
2025-06-24 11:20:34
0

前两天,我去深圳围观了一场AI翻译和人类同传的对决。

坦白说,比赛开始之前,我心里一直在犯嘀咕。

众所周知,同声传译是翻译行业的天花板,而且这次参赛的人类译员队,有人从事大型跨国企业的翻译,有人为国家政要担任过同传,可谓高手中的高手。

而AI翻译队,是时空壶W4 Pro AI翻译耳机。

去年9月,国际消费电子展(IFA)期间,我介绍过时空壶W4 Pro,当时,这款耳机的定位还只是“个人语音翻译助理”。

到12月,W4 Pro先是和翻译专业的同学来了波人机大战1.0,今年3月份,又登上了《新闻联播》,足足报道了4分钟,排面拉满。

到6月,更是直接和高级译员PK上了。

这是啥速度,能在短短9个月的时间,从“个人助理”向“高级同传”发起挑战啊?

答案很明显,AI。

保守地说,AI一天,人类100年,现阶段的AI,当个智能翻译助手问题不大,但同声传译毕竟不是文字翻译,AI要完成“拾取声音—转为文本—云端翻译—语音输出”这么一整套流程,要求你必须听得懂、翻得快,还要译得准。

虽然我看好AI的能力,但和经验丰富的高级译员对战,初出茅庐的时空壶W4 Pro感觉不妙啊。

反过来,要是AI翻译赢了,是不是AI取代人类的清单上,又多了一个同声传译?

但看完比赛后,我发现事情还有第三种可能。

咱们先说比赛。

整个人机大战2.0共有两个环节,第一个环节是「基础翻译」。现场邀请英、日、法、西班牙语语种的外籍人士朗读相应的外文,AI翻译队和高级译员队以同传的方式输出,再由评委按照准确性、流畅程度、专业适配性和文化适配性进行综合打分。

万万没想到,一上来就是大活儿。

首先是口音问题,也不知道是上台紧张,还是并非母语,英语朗读者很多词吐字不清,让我一度怀疑自己的耳朵,法语咱也不懂,但主持人形容语速挺快,好像在唱Rap。

其次是内容过于专业,日语题中,出现了西安钟鼓楼、明神宗万历10年这种历史、地标性词汇,西语翻译则是大量的医疗专有词汇,非医学专业看完两眼一黑。

不过,这也算是同声传译的日常。

毕竟,不是所有人都会标准的播音腔,而且不同行业都有专业性极高的词汇,需要进行大量前期准备。

第一个环节,高级译员的速度更快,基本上第一句念完,翻译就能跟上,很多专业性词汇,像是前面提到的钟楼、鼓楼,还有一处专业地名「迎祥观」,译员也进行了准确翻译,但是当信息密度过高时,会遗漏一些关键信息。

而时空壶AI队在一开始,会有大概3-5秒的延迟,但一旦开始翻译,就能稳定输出,准确性、完整度也几乎无懈可击。除了个别专有名词无法准确表述,比方说「迎祥观」,大模型训练时「迎宾馆」出现的次数更多,权重更大,AI翻译就把「迎祥观」翻成了「迎宾馆」。

到了第二个环节的「关键词提取大比拼」,更是加上了嘈杂的环境音,专业度极强的量子计算、哲学、美学等概念,再加上三哥咖喱味的英语,直接给比赛上了个强度。

综合来说,时空壶AI队和高级译员队各有优势:

人类译员跟着讲者翻译,能更好地还原当时的语气和感情。就像商务谈判中的“No”,如果不是对方明确拒绝,就有谈的空间,也就意味着“Yes”。

但在兼顾听、记、译、说的情况下,人类译员会因为高强度多线程工作可能出现疏漏。

相比之下,AI就像一个么得感情的翻译器,可以通过理解上下文,生成准确的翻译,也不会像人一样受到环境的影响。

但也正因为要理解上下文,AI翻译会显得慢上半拍。

两轮比赛下来,时空壶AI队和高级译员队各有千秋,最终AI队以1170的成绩,赢得了这次人机大战比赛。

AI翻译比同传译员得分更高,是不是意味着AI就要取代同传了?

我问了现场AI领域、翻译行业的专家,学者,他们的回答惊人的一致:

AI不会取代人类。

AI翻译更高效、更准确,而且不知疲倦,而人类译员更有温度、更能传递情绪,更适合文化交流,双方侧重点不一样。

因此,AI翻译和人类不是你死我活的竞争,还有第三种可能:人机协同。

我们完全可以把AI作为工具,完成基础性的翻译工作,再由人类去完成更高级的文化沟通,情感交流。

实际上,现在很多业内人事,都会借助AI工具来提升工作效率。

现场参赛的那位日语同传译员跟我说,她平常经常会用到AI,很多工作先让AI翻译,自己再核对一遍,而且AI的词库更全,还能学到一些新单词。

正如在中英同传领域从业20多年的赵晨威所说,AI不会取代人类,但是AI会取代不会用AI的人类。

但话又说回来,同样是AI翻译,大厂的模型更大,实力更强,为什么偏偏是时空壶W4 Pro脱颖而出了?

抱着这样的疑问,我又去了一趟时空壶公司,发现问题的答案很简单——无他,唯坚持尔(也没啥,就是干)

2016年,市面上也有各种翻译设备,但要么翻译质量不高,只能简单直译,要么就是高延迟,反应慢。

恰好当年,AlphaGo和李世石的围棋大战,让全世界看到了人工智能的潜力。

于是,时空壶创始人田力决定,造一台AI翻译设备,不仅能用,更要好用。

一个好用的翻译设备,应该是“无形”的,它要够准确,够即时,够方便,才能让人们在跨语言交流的时候,尽可能忽略翻译产品,而专注于交流本身。

但等开始创业才发现,不是同行不想做,而是不好做啊。

之前市面上的翻译设备,主要采用的是点按操作,你按一下说一句,我再按一下说一句,非常不方便。

而时空壶坚持从更底层——也就是通信技术上下功夫,经过3年研发,攻下了“双向同传”技术。

双向同传的核心在于四通道同步处理:A母语输入、翻译输出以及B母语输入、再翻译输出同步进行,从而降低延迟。

还有一个关键,在于收音。

面对面交流,翻译设备不仅要隔离外部环境杂音,还要识别A说了什么,B说了什么,一不小心就搞错了说话主体。

时空壶采用三麦克风阵列+矢量降噪技术,通过软硬件的配合,定向定距识别佩戴者的声音,排除其他杂音干扰。

他们的工程师还带着W4 Pro去地铁、商场等人流密集的场所测试,验证矢量降噪技术的可行性,从输入端上保证了音源的准确性。

解决了听得清、翻(传输)得快的问题,还要保证译得准。

AI要理解上下文,才能准,但这又会慢。针对AI这个“bug”,时空壶又开发了一套Babel OS巴别系统,这个系统的核心在于AI语义分割,AI会判断你是否说完了,然后自动分割长句开始输出,不用等一句话说完再翻译,在翻译的准确和即时之间找到了平衡。

在AI翻译领域坚持近10年之后,时空壶做到了行业头部,W4 Pro的平均延迟更是压缩到了3-5秒,实现了L3级的AI翻译。

这个AI翻译的分级标准,有点类似自动驾驶行业的智驾等级。因为没有明确的行业等级,大家都说自己是AI翻译耳机,“开局一句话,其余全靠编”也行,翻译慢悠悠也算,导致行业生态很乱。

而有了分级标准,一方面可以避免同行浑水摸鱼,另一方面也是对未来AI翻译设备的想象。

在时空壶看来,目前W4 Pro还处于语音同声传译的L3级,L4级将支持多模态输入,能识别讲话的人语气、表情、动作,让翻译更贴合情境,到L5级就类似agent,不仅能帮你翻译,还会根据场合帮你修饰,甚至可能比你说话还好听。

从人机大战1.0到现在的2.0,AI在半年时间内,AI同传就可以和高级译员同台竞技且更胜一筹,按照这个节奏,未来人机大战3.0版本又会有什么样的精彩呈现?

而除了AI队和人类队,如果像评委们所说的,再出现一个人机协同队,三方争霸,这画面想想就刺激!

到那时,时空壶的AI翻译技术会达到什么程度?AI翻译设备会变成什么形态?人机协同又将会碰撞出什么样的火花?

现在很难想象,一切皆有可能。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
vivo钱包遭用户投诉贷款利率... 文:WEMONEY研究室 随着移动互联网时代到来,智能手机已经成为了生活的必需品。目前,很多手机如...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
虚拟资料变现还值得做吗?闲鱼卖... 大家好,今天给大家带来的是咸鱼虚拟资料类项目分享,这个项目其实出来很久了,有些人觉得虚拟资料没水准,...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
gta5加载慢怎么办 gta5... 许多玩家在GTA5游戏过程中都会遇到加载速度慢的问题,那么gta5加载慢怎么办?今天加游加速器就来告...
iPhone 16系列手机网速... 在智能手机的世界里,网速往往是衡量一部手机性能的重要指标之一。 尤其是随着5G时代的到来,用户对于高...