看视频就能学习知识!校企联合首创AI视频生成推理模型
创始人
2025-03-19 06:02:05
0

将围棋视频“喂”给AI,很快它就能达到围棋职业5段的水平。近日,北京交通大学与豆包大模型团队共同发布了视频生成实验模型“VideoWorld(视频世界)”,在世界范围内首次实现仅通过视频浏览就能让机器掌握推理、规划和决策的复杂能力,弥补了人工智能仅依靠语言模型认知世界的学习局限。目前,模型代码、数据已开源。

“当前在人工智能领域较火的ChatGPT、DeepSeek等大模型,通常依赖自然语言学习推理知识。VideoWorld提供了另外一种思路,能够通过视觉信息,学习并完成语言难以清晰表达的、相对复杂的任务,例如折纸、打领结等。”北京交通大学计算机科学与技术学院院长魏云超说。

基于潜在动力学模型,该模型能高效压缩视频帧间的变化信息,显著提升AI学习知识的效率和效果。魏云超解释,经过测试,VideoWorld在仅有300兆的少量数据参数情况下,不依赖任何强化学习搜索或奖励函数机制,通过浏览围棋高手对战的视频,就能理解围棋的规则和策略,从围棋“小白”升级到专业5段水平。在多种机器人场景中,它也成功地执行了各种控制任务。

“在视频生成方面,目前已有模型通过语言描述生成的视频,可能会出现不符合常理的现象,例如球往天上飞。”魏云超说,VideoWorld可以通过观看现实生活中的视频,了解物理规律,避免生成的产品里出现幻觉。此外,在自动驾驶领域,VideoWorld的技术可以被用于提升车辆对环境的理解和决策能力,帮助车辆实时处理大量视觉信息;该模型的相关技术也能通过学习大量医学影像数据,辅助医生进行诊断和治疗规划。

目前,该模型还处于概念验证阶段。魏云超说,团队正在继续提升数据、算力等方面的能力,使模型有更强大的感知、理解和推理能力,尽快应用到真实场景中。

来源:北京日报客户端

记者:何蕊

相关内容

热门资讯

2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...