大模型也能搞定螺丝钉?!MIT顶会论文让AI学会工业CAD软件操作
创始人
2025-11-25 14:01:21
0

麻省理工学院 (MIT) 团队在顶会 NeurIPS 2025 发布的 VideoCAD 研究,用 41,000 多个视频数据证明了当前顶尖大模型在处理专业工程软件时的无能为力,并给出了从视频中学习复杂三维交互的解决方案。

当前的人工智能擅长在二维屏幕上聊天、画图甚至写代码,当面对需要精密操作和三维空间逻辑的工业软件,它们瞬间变成了文盲。

计算机辅助设计 (CAD) 软件是现代工业的基石,从手机外壳到航空发动机的设计都离不开它。

这类软件的操作逻辑与我们习惯的网页点击或手机滑动截然不同,它要求用户在脑海中构建三维模型,并通过数百个菜单、快捷键和鼠标动作将其实现在二维屏幕上。

这种长视界 (Long-Horizon)、高精度的交互过程,是目前 AI 智能体难以逾越的鸿沟。

VideoCAD 填补这一空白。

研究团队没有选择让 AI 去阅读枯燥的软件手册,而是通过逆向工程,让机器观看并学习如何像人类工程师一样操作 Onshape 这样的专业 CAD 平台。

精密工程软件的交互壁垒

要理解 VideoCAD 的价值,得先看清它试图攻克的堡垒有多坚固。

普通的互联网应用,无论是点外卖还是刷视频,其 UI 交互通常是短链路的,用户的每一步操作往往直接对应一个明确的结果,且容错率极高。点错了一个按钮,退回去重选即可。

工业级 CAD 软件则完全不同。

SolidWorks、Autodesk Inventor 或 PTC Onshape 等平台,拥有成百上千个工具栏选项。

一个简单的在立方体上打孔的操作,涉及选择正确的平面、绘制草图、定义圆心坐标、设置直径约束、退出草图模式、选择拉伸切除工具、设置深度参数等一系列步骤。

这一连串动作具有极强的依赖性,第一步选错了平面,后面所有的精细操作都是无用功。

更棘手的是,这些操作发生在一个基于 WebGL 或 OpenGL 的画布上。

对于 AI 来说,网页上的按钮是可以通过文档对象模型 (DOM) 代码读取的文本标签,但 CAD 画布只是一堆像素。

要在这里进行操作,AI 必须像人眼一样,通过视觉判断哪里是模型的边缘,哪里是圆心,并输出精确的 (x, y) 像素坐标。

现有的 AI 训练数据集,大多集中在安卓手机操作或简单的网页浏览,根本没有触及这种需要深度三维空间理解和像素级精准操控的领域。

VideoCAD 选择了 Onshape 这个基于浏览器的云端 CAD 平台作为切入点,正是为了在标准化的环境中攻克这一难题。

为了教会 AI 使用 CAD,最直接的方法是找几千个工程师,录下他们工作的视频。这在成本和时间上都是不现实的。

MIT 的研究团队采用了一种极其巧妙的逆向生成策略,构建了一个自动化工厂来生产数据。

数据的源头是 DeepCAD,这是一个包含 178,000 个由人类设计师创建的参数化 CAD 模型的数据集。

这些模型本身不仅是最终的三维形状,还包含了完整的构建历史 (Construction Sequence)。

研究者关注的是其中最具挑战性的多重拉伸 (Multi-extrusion) 序列,这类模型涉及多次草图绘制和实体拉伸,结构复杂,更能体现工业设计的逻辑。

有了设计图纸,下一步是让机器表演出来。

研究团队开发了一套混合自动化框架。

对于菜单点击、对话框输入等标准 UI 操作,系统使用 Selenium 技术,直接操控浏览器的 DOM 元素;对于画布上的草图绘制,则使用 PyAutoGUI 进行像素级的鼠标模拟。

由于 Onshape 并没有提供公开的绘图 API,这种模拟必须精确到毫秒和像素。

为了让生成的数据不仅仅是冷冰冰的机器指令,研究者在自动化脚本中注入了人类灵魂。

真实的工程师在操作时会有犹豫,会有反复确认。

因此,数据生成过程中加入了随机延迟,在 0.2 到 0.5 秒之间浮动。

在选择草图平面时,脚本不会机械地永远点中心,而是随机采样表面上的点。

当遇到难以选中的微小特征时,自动化脚本甚至会执行缩放操作,模拟人类放大视图以进行精确输入的行为。

这套系统在 64 个云端虚拟机上日夜不停地运行,以 60 帧/秒的规格录制全分辨率视频。

经过一周的运转,生成了超过 118 天长度的视频素材。

随后,系统对这些视频进行了严苛的质量控制。

每一条生成的视频对应的最终 CAD 模型,都会被渲染成等轴测视图,并与原始 DeepCAD 模型的渲染图进行比对。

比对过程使用了 DINOv2 视觉大模型。

实验发现,常用的 CLIP 模型虽然擅长语义匹配(比如认出这是一把椅子),但在几何结构的精细对比上表现不佳。

而自监督训练的 DINOv2 能敏锐地捕捉到形状的细微差异。

只有当两者在 DINOv2 特征空间中的余弦相似度超过 0.7 时,这条数据才会被保留。

最终,VideoCAD 提炼出了 41,005 个高质量的样本,每个样本都包含了视频、精确对齐的动作序列以及最终的目标图像。

数据规模与复杂度的降维打击

VideoCAD 的发布,让现有的 UI 交互数据集显得有些小儿科。

数据规模和任务复杂度是衡量数据集价值的两个核心维度。

在 VideoCAD 之前,最大的相关数据集 WebLinx 平均每个任务只有 43 个动作,而 VideoCAD 的平均任务长度达到了 186 个动作,是其 4 倍以上。

这意味着 AI 需要在更长的时间跨度内保持记忆和逻辑的一致性。

更深层的差异在于任务的性质。

大多数现有数据集(如 Mind2Web)的任务是信息检索或表单填写,AI 只需要识别文本和按钮。

VideoCAD 是目前极少数要求 AI 进行三维推理的数据集。

AI 不能仅仅依靠 DOM 解析器来作弊,它必须真正看懂屏幕上的几何图形。

Onshape 界面平均包含 6,740 个 UI 元素,是普通网页的 6 倍。

这种高密度的信息环境,加上对像素级坐标操作的硬性要求,迫使模型必须具备极强的视觉感知和决策能力。

动作分布的统计图表揭示了 CAD 工作的真实面貌。

大量的操作集中在鼠标移动、点击和键盘输入上,这反映了设计师在绘图时的精细调整过程。

与那些只需要点击下一步的任务不同,CAD 建模是一个不断在二维平面和三维空间之间切换思维的过程。

这种复杂性使得 VideoCAD 成为了检验 AI 是否具备真正通用计算机操作能力的试金石。

有了数据,如何让 AI 学会这些操作?

直接套用通用的视频理解模型效果并不理想,因为它们往往忽略了 CAD 操作中极强的因果依赖性。

MIT 团队为此设计了 VideoCADFormer,这是一个基于 Transformer 架构的自回归模型,专门用于预测长视界的 CAD 动作。

VideoCADFormer 的设计哲学是将视觉感知与动作预测紧密解耦又深度融合。

在每一个时间步,模型会接收两路视觉信号:当前的 UI 界面截图和最终的目标 CAD 图像。

前者告诉模型我现在在哪里,后者告诉模型我要去哪里。

这两路信号通过 Vision Transformer (ViT) 编码后,提供了局部进度和全局目标的双重上下文。

在处理动作序列时,模型并没有简单地将历史动作视为一串文本,而是将其编码为包含命令类型和具体参数的结构化向量。例如,一个画圆的动作不仅包含命令本身,还包含圆心的 (x, y) 坐标和半径参数。

VideoCADFormer 采用了一种双掩码机制的 Transformer 解码器。

因果掩码保证了模型在训练时不会偷看未来的动作,而窗口掩码则强制模型将注意力集中在最近的操作历史上。

这种设计非常符合 UI 交互的特性:用户当前的点击往往紧密依赖于前几秒的操作,而不需要时刻回顾几分钟前的所有细节。

模型的输出端被设计为两个独立的头,分别负责预测命令类型和具体的参数值。

为了处理连续的屏幕坐标,模型将参数离散化为 1000 个类别进行分类预测。这种设计使得模型能够像填空一样,逐步输出复杂的操作指令。

实验结果证明了这种专用架构的有效性。

在与 Video Pre-training (VPT) 等行为克隆基线的对比中,VideoCADFormer 取得了压倒性的优势。

其命令预测准确率高达 98.08%,参数准确率达到 82.35%。

最令人印象深刻的是,在长度超过 200 步的长序列任务中,VideoCADFormer 依然保持了 85.46% 的完美预测率,而基线模型在这种长距离任务中往往会因为误差积累而彻底崩溃。

为了验证模型生成的 CAD 模型在几何上是否准确,研究者不仅仅比较像素,还将生成的模型在 Onshape 中实际运行出来,并计算其与目标模型的倒角距离 (Chamfer Distance)。

VideoCADFormer 生成的模型在空间结构上与人类设计的原版高度一致,证明它不仅仅是记住了操作步骤,而是真正理解了如何构建三维形状。

顶尖大模型的集体翻车现场

VideoCAD 不仅是训练新模型的教材,也是现有大模型的照妖镜。

研究团队构建了一个名为 VideoCADQA 的视觉问答基准,专门用来测试 GPT-4、Claude 3.7、Gemini 2.5 等顶尖多模态大模型在三维空间推理上的能力。测试结果令人大跌眼镜。

在拉伸深度比较这一任务中,模型需要观看视频,判断第二次拉伸操作是否比第一次更深。

这是一个典型的人类工程师一眼就能看出的问题。然而,GPT-4.1 的准确率仅为 18%。这暴露了大模型在理解相对深度和几何空间关系时的严重幻觉。

在拉伸计数任务中,模型需要回答最终物体是由多少次拉伸操作构成的。GPT-4.1 的准确率不到一半,仅为 47%。而在涉及到视频时序理解的帧排序任务中,以长文本和代码能力著称的 Claude 3.7 准确率更是低至 23%。

更进一步的测试是让这些大模型直接充当 UI 智能体,通过 BrowserGym 接口在 Onshape 中尝试完成建模任务。

结果是全军覆没。

所有的 LLM,无论其在文本生成上多么惊艳,都无法完成任何一个完整的 CAD 构建任务。

它们的主要在于无法将语义指令(画一个圆)转化为精确的屏幕坐标。

它们知道要点击草图按钮,但往往点到了旁边的空白处,或者试图用代码选择器去点击一个只能通过像素交互的画布元素。

这表明,目前的通用大模型在具身智能和数字交互方面,距离专业级应用还有巨大的鸿沟。

VideoCAD 揭示了当前 AI 发展的一个重要瓶颈:从纸上谈兵到实操落地的跨越。

现在的 AI 可以生成精美的图片,却画不出可供生产的工程图;可以写出漂亮的代码,却难以操作复杂的开发环境。

VideoCADFormer 展示了一种可能性,即通过观察人类的操作视频,AI 可以学习到复杂软件背后的操作逻辑和空间因果关系。

这种能力一旦成熟,未来的 AI 将不再仅仅是聊天机器人,而是能够真正协助工程师的副驾驶。

它可以观察你的设计意图,自动补全繁琐的建模步骤;或者在你设计出一半时,预测出你想要的最终形状并提供操作建议。

这项研究打通了计算机视觉、强化学习和人机交互的界限。

VideoCADFormer 模型还不够完美,存在对合成数据依赖等局限,但它指明了方向:AI 也是可以通过学习,掌握工业级工具使用的。

参考资料:

https://ghadinehme.github.io/videocad.github.io/

https://github.com/ghadinehme/VideoCAD

https://arxiv.org/abs/2505.24838

https://news.mit.edu/2025/new-ai-agent-learns-use-cad-create-3d-objects-sketches-1119

END

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...