2024服贸会|生数科技,求解视频大模型生成主体不一致问题
创始人
2024-09-16 22:02:14
0

“当我们向AI输入一条指令,让它生成一段视频时,实际上,核心诉求是希望AI帮助我们完成一个完整的叙事。要实现这个目标,需要让核心元素上保持统一和可控”,在近日召开的2024年中国国际服务贸易交易会(以下简称“服贸会”)上,生数科技董事长兼CEO唐家渝给出解决方案:视频大模型Vidu的主体参照功能,即能实现对任意主体的一致性生成。为了做到这一点,业界曾尝试“先AI生图、再图生视频”等方法,但主体参照功能不光能减少工作量,还打破了分镜头画面对视频内容的限制。技术的突破让视频大模型商业化有了更大的想象空间。

大语言模型盛行时,生数科技就瞄准了多模态赛道,并在2024年1月上线了文生视频的能力。按照生数科技的计划,视频能力需要更长时长、更高一致性去发展,但Sora的亮相让这家创业公司的计划提前。

4月底发布Vidu,支持一键生成16秒高清视频,6月支持一键生成32秒视频,同时生成音效,并从单个生成的视频中重构出4D视频。7月底,Vidu正式面向全球上线,开放了图生视频、角色一致性功能以及最长8秒的视频生成能力。

此次,唐家渝在2024年服贸会上重点介绍的是Vidu的最新功能“主体参照”。所谓主体参照,就是允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频,其中“任意”是关键词,即不管是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性。

北京商报记者了解到,在该功能上线前,视频大模型对实现这一目标并不是毫无解决方案,“图生视频”和“角色一致性”等能力也可做到。

以先AI生图、再图生视频的方法为例,可以通过AI绘图工具如 Midjourney 生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。

但问题在于,AI 绘图的一致性并不完美,往往需要通过反复修改和局部重绘来解决。更重要的是,实际的视频制作过程中涉及众多场景和镜头,这种方法在处理多组分镜头的场景时,生图的工作量巨大,能占到全流程的一半以上,且最终的视频内容也会因为过分依赖分镜头画面而缺乏创造性和灵活性。

Vidu的“主体参照”功能通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。这一方法大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,创造出画面丰富、灵活多变的视频内容。

中央广播电视总台导演、AIGC艺术家石宇翔分享动画短片《夏日的礼物》创作流程时表示,与基础的图生视频功能相比,“主体参照”功能摆脱了静态图片的束缚,生成的画面更具感染力和自由度,让创作的连贯性大大提升。同时帮助他节约了七成左右的生图工作量。

北京商报记者魏蔚

相关内容

热门资讯

vivo钱包遭用户投诉贷款利率... 文:WEMONEY研究室 随着移动互联网时代到来,智能手机已经成为了生活的必需品。目前,很多手机如...
gta5加载慢怎么办 gta5... 许多玩家在GTA5游戏过程中都会遇到加载速度慢的问题,那么gta5加载慢怎么办?今天加游加速器就来告...
原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
iPhone 16系列手机网速... 在智能手机的世界里,网速往往是衡量一部手机性能的重要指标之一。 尤其是随着5G时代的到来,用户对于高...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
舒福德智能床S300 Pro面... 8月13日,以“一键入眠 世界领先”为主题的舒福德智能床新品发布会在浙江嘉兴举行。中国睡谷的首次对外...
小米怎么去除抖音水印保存?分享... 随着抖音的普及,越来越多的人喜欢在抖音上分享和观看短视频。当我们想要保存一些喜欢的视频时,往往会被视...
小米14T Pro海外定档9月... 【ITBEAR】9月23日消息,小米今日在X平台上宣布,旗下新款手机小米14T Pro定于9月26日...
邓宏魁、张涛、李亚栋、孙斌勇获... 出品 | 搜狐科技 作者 | 周锦童 8月16日上午10时,2024未来科学大奖新闻发布会在北京、香...
如何规划小红书矩阵号内容并一键... 小红书矩阵号内容规划与抖音多账户同步攻略 在当前社交媒体时代,内容营销已成为品牌推广和个人IP打造的...