2024服贸会|生数科技,求解视频大模型生成主体不一致问题
创始人
2024-09-16 22:02:14
0

“当我们向AI输入一条指令,让它生成一段视频时,实际上,核心诉求是希望AI帮助我们完成一个完整的叙事。要实现这个目标,需要让核心元素上保持统一和可控”,在近日召开的2024年中国国际服务贸易交易会(以下简称“服贸会”)上,生数科技董事长兼CEO唐家渝给出解决方案:视频大模型Vidu的主体参照功能,即能实现对任意主体的一致性生成。为了做到这一点,业界曾尝试“先AI生图、再图生视频”等方法,但主体参照功能不光能减少工作量,还打破了分镜头画面对视频内容的限制。技术的突破让视频大模型商业化有了更大的想象空间。

大语言模型盛行时,生数科技就瞄准了多模态赛道,并在2024年1月上线了文生视频的能力。按照生数科技的计划,视频能力需要更长时长、更高一致性去发展,但Sora的亮相让这家创业公司的计划提前。

4月底发布Vidu,支持一键生成16秒高清视频,6月支持一键生成32秒视频,同时生成音效,并从单个生成的视频中重构出4D视频。7月底,Vidu正式面向全球上线,开放了图生视频、角色一致性功能以及最长8秒的视频生成能力。

此次,唐家渝在2024年服贸会上重点介绍的是Vidu的最新功能“主体参照”。所谓主体参照,就是允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频,其中“任意”是关键词,即不管是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性。

北京商报记者了解到,在该功能上线前,视频大模型对实现这一目标并不是毫无解决方案,“图生视频”和“角色一致性”等能力也可做到。

以先AI生图、再图生视频的方法为例,可以通过AI绘图工具如 Midjourney 生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。

但问题在于,AI 绘图的一致性并不完美,往往需要通过反复修改和局部重绘来解决。更重要的是,实际的视频制作过程中涉及众多场景和镜头,这种方法在处理多组分镜头的场景时,生图的工作量巨大,能占到全流程的一半以上,且最终的视频内容也会因为过分依赖分镜头画面而缺乏创造性和灵活性。

Vidu的“主体参照”功能通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。这一方法大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,创造出画面丰富、灵活多变的视频内容。

中央广播电视总台导演、AIGC艺术家石宇翔分享动画短片《夏日的礼物》创作流程时表示,与基础的图生视频功能相比,“主体参照”功能摆脱了静态图片的束缚,生成的画面更具感染力和自由度,让创作的连贯性大大提升。同时帮助他节约了七成左右的生图工作量。

北京商报记者魏蔚

相关内容

热门资讯

原创 原... 原来钥匙应该这样穿,别再傻傻的用指甲扣了,这样穿最简单! 每次串钥匙时,繁琐又伤指甲,在无指甲的情况...
香菇誉为“菇中皇后” 富含人体... 香菇是中国著名的食用菌,被人们誉为“菇中皇后”,在民间素有“山珍”之称,深受人们的喜爱,是不可多得的...
鱼跃医疗国家重点研发计划顺利验... 近日,由鱼跃医疗牵头,中科院微电子所、电子所、医工所、北京协和医院等十余家高校科研院所以及临床医院共...
涉“文件传输助手”,国安部紧急... 科技蓬勃发展的数字时代,网上办公以其时效性和便捷性成为当今社会一种流行的工作方式。诸多线上平台汇集了...
华为Mate XT刷屏,东莞走... 华为Mate XT刷屏,东莞走到台前。 在Mate XT发布之际,东莞发布“骄傲”地宣布:火爆全网的...
全新一代锂电池安全管理信号采集... 9月11日,在以“数能先锋 智创未来”为主题的深圳2024国际数字能源展重大成果发布会上,奕东电子科...
原创 华... 去年8月底华为在毫无预兆的情况下,突然上架了Mate60系列,重新回归的麒麟芯片,5G网络,还有全球...
总是梦见被追赶,有啥特殊含义吗... 转自:中国科协 人在睡觉的时候都会做梦,既会有突然中了千万大奖当场退休的美梦,也有令人汗流浃背、久久...
雷军亲自玩梗:大家觉得OK不O... 9月12日晚,雷军发布视频,透露已经给自己的车装上“Are you OK”的气门芯帽,亲自下场玩梗。...
中秋节遇强台风,太保服务与风赛... 今年第13号台风“贝碧嘉”正逐渐向我国东部沿海靠近,登陆时强度预计为台风级或强台风级,预计未来三天,...