真碾压Sora了!谷歌Veo 3首次实现音画同步,视频模型直接「开口说话」
创始人
2025-05-21 20:01:29
0

机器之心报道

编辑:Sia

还记得 2023 年 AI 视频最出圈的片段吗?威尔·史密斯吃面,动作鬼畜,画面寂静——

当时的视频大模型,只会动,不会说话。

Sora 的发布让视频质量飞跃、物理规则建模进步巨大,也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、谷歌、阿里、字节等科技巨头,纷纷入局。

但无论画质如何进步,视频还是「哑巴」——

你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒菜时锅里的滋滋声?

对不起,还得自己导音频。

更麻烦的是,配完音还可能对不上节奏——口型和对白不同步,脚步踩不到点上,情绪氛围总差一口气。

直到今天,谷歌正式发布 Veo 3。AI 视频,终于能「开口说话」了——

Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。

翻译成中文——

只用一个提示词,你就能得到画面+对白+唇动对齐+拟音音效一气呵成的视频。

提示语:90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 「fofr」。一对夫妇说了些什么,观众大笑起来。

,时长

00:08

对白生成、唇动对齐和情绪音效(观众笑声),一气呵成

提示语:一位游戏主播(streamer)只用他的镐子(pickaxe)赢得了「 Victory Royale」。

,时长

00:08

生成出的内容是完整直播风格视频,还带着夸张的欢呼与音效,画面有声有色

尽管凌晨才发布,Veo 3 已在社交网络掀起热潮,多个视频动辄数十万次播放,令人惊叹不已。

雪地步伐清晰传来咯吱声,鸭子嘎嘎叫,烹饪滋滋作响,撒胡椒声......

得益于模型对物理世界的深刻理解,所有声音非后期拼接,而是与画面实时同步生成。

,时长

00:40

Veo 3 还能精准捕捉画面情绪,渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫,逼真到让人有点毛骨悚然。

,时长

00:08

提示词:a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"

至于对口型,Veo 3 也表现突出:无论是脱口秀现场讲笑话,还是说唱音乐视频中的节奏口型,都能精准同步,真实感爆棚。

,时长

00:08

提示词:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue)

,时长

00:08

提示词:a man in a music video raps to the camera about generating videos with Veo3

生成歌剧和音乐会视频,成为检验 Veo 3 音画同步水平的高频场景。

这个视频里,鼓手的每一次击打动作都与鼓点节奏完美同步,与歌手表演同步,展现了模型在复杂多声音动态场景下出色的音画合成能力。

,时长

00:15

支持多角色、多种风格的创作视频,虚拟人物演技不比《演员请就位》强多了?

,时长

01:16

长提示词理解与事件流生成方面,Veo 3 同样出色。

以前视频模型提示词一长就容易崩。

但 Veo 3 能理解长句子,完成一个完整、时间有序、逻辑清晰的小片段。

来看这个视频。

提示词:黎明时分,一位男士在美丽的夏日公园里奔跑,他上气不接下气,然后放慢速度,看着镜头,气喘吁吁地说:「用 API 运行 AI。使用 Replicate。」然后他继续跑。最后,「Replicate」的字样渐渐消失在视野中。

包含动作变化、对白插入、镜头切换、logo 渐隐……

多步骤连贯执行,事件流准确,效果不错:

,时长

00:08

音画同步生成,直接把视频模型拉到了新时代 。而其中关键能力,离不开 DeepMind 过去就悄悄铺下的一项底层技术:V2A( Video-to-Audio )

2023 年 6 月,DeepMind 就首次披露:

他们正开发一套 AI 系统,能从视频像素 + 文本提示中,自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……

它的原理是:将视频视觉信息编码为语义信号,与文本提示一同输入扩散模型,生成匹配的音频波形。

可以说,V2A 就是 Veo 3 的「耳朵」和「声带」。再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一—— Veo 3 的音画合成功能,已经遥遥领先。

一个小遗憾:视频仍只有 8 秒。

另外,目前 Veo 3 仅面向美国 Ultra 订阅用户开放,定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。

虽然门槛不低、时长有限,但 Veo 3 的初次亮相,已足够震撼。

过去生成式 AI 是「语言+图像」的时代,现在,正在进入「视听一体」的新阶段。

生成视频从会动 → 能说 → 有氛围,一步步突破不同模态的边界。

如果说 Sora 是让 AI 看懂物理世界,那 Veo 3,就是让 AI 能「听懂」,「会说」。

看来,音画一体,将是下一轮视频模型竞赛的标配。

相关内容

热门资讯

vivo钱包遭用户投诉贷款利率... 文:WEMONEY研究室 随着移动互联网时代到来,智能手机已经成为了生活的必需品。目前,很多手机如...
gta5加载慢怎么办 gta5... 许多玩家在GTA5游戏过程中都会遇到加载速度慢的问题,那么gta5加载慢怎么办?今天加游加速器就来告...
原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
iPhone 16系列手机网速... 在智能手机的世界里,网速往往是衡量一部手机性能的重要指标之一。 尤其是随着5G时代的到来,用户对于高...
舒福德智能床S300 Pro面... 8月13日,以“一键入眠 世界领先”为主题的舒福德智能床新品发布会在浙江嘉兴举行。中国睡谷的首次对外...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
小米怎么去除抖音水印保存?分享... 随着抖音的普及,越来越多的人喜欢在抖音上分享和观看短视频。当我们想要保存一些喜欢的视频时,往往会被视...
小米14T Pro海外定档9月... 【ITBEAR】9月23日消息,小米今日在X平台上宣布,旗下新款手机小米14T Pro定于9月26日...
邓宏魁、张涛、李亚栋、孙斌勇获... 出品 | 搜狐科技 作者 | 周锦童 8月16日上午10时,2024未来科学大奖新闻发布会在北京、香...