在人工智能领域,特别是大型模型训练方面,挑战重重。随着模型规模和应用领域的扩展,数据需求呈爆炸式增长。大型语言模型(LLM)依赖海量文本数据,视觉语言模型(VLM)则需要结合文本与图像数据,而在机器人领域,视觉-语言-行动模型(VLA)更是迫切需要大量真实世界的机器人执行任务数据。
在迈向通用人工智能(AGI)的道路上,Agent被视为重要过渡。然而,训练Agent所需的带有行动标签的真实交互数据,成本高昂,远超从网页获取文本和图像数据的费用。因此,研究者们一直在探索替代方案,以期降低数据获取成本,同时保持大模型训练的成效。
加州大学伯克利分校的副教授Sergey Levine,同时也是Physical Intelligence的联合创始人,在强化学习领域享有盛誉。他撰写了一篇文章,深入分析了训练大模型时的数据组合问题。Levine指出,尽管人们渴望找到一种既能降低成本又能保持训练成果的完美方案,但现实往往不尽如人意,如同“叉勺”般难以在通用场景下发挥最佳效用。
在机器人智能体领域,尤其是VLA模型中,研究者们尝试了多种替代方案,以低成本数据替代昂贵的真实交互数据。这些方案包括仿真、基于人类视频的训练以及使用手持式夹爪设备等。尽管这些方法在特定场景下取得了成功,但从长远来看,它们可能削弱了大规模学习模型的泛化能力和潜力。
仿真作为一种经典策略,通过构建虚拟环境来训练机器人,减少了对真实世界数据的依赖。然而,最有效的仿真并非追求对现实的高度还原,而是故意引入环境变化以提高机器人的鲁棒性。这种方法虽然有效,但人为设定的环境限制了机器人可能遇到的情境。
基于人类视频训练机器人的方法,则需要在人体与机器人之间建立对应关系,跨越动力学和外观上的差异。这种映射方式预设了任务完成策略,限制了机器人的灵活性。
手持式夹爪设备方法通过物理手段建立人机之间的映射,让人类使用手持设备模仿机器人夹爪完成任务。虽然这种方法颇具吸引力,因为它要求参与者以类似机器人的方式执行任务,但它同样隐含了一套动作设定前提。
Levine强调,随着模型能力的提升,它们区分替代数据域与真实世界目标域的能力也在增强。这导致行为策略的交集区域不断缩小,任何试图隐藏信息以缓解领域差异的做法,最终都会削弱模型的能力。
他进一步指出,当我们用替代数据训练机器人基础模型时,模型在面对新任务时往往会试图预测“人类会如何解决这个问题”,而不是预测“机器人能如何高效完成这个任务”的策略。这背离了基础模型的核心优势——广泛通用性和强泛化能力。
除了替代数据外,人工智能研究中还存在其他“叉勺”现象,如结合手工设计与学习组件的混合系统、利用人为设定的约束来限制自主学习系统不良行为的方法等。这些方法都试图在享受大规模机器学习优势的同时,规避其高数据需求或繁琐目标设计的代价。然而,它们也都面临同样的根本性缺陷:需要人为地将“我们以为的思考方式”编码进系统中,这最终将成为系统性能的瓶颈。
因此,尽管“叉勺”方案在某些特定场景下具有吸引力,但它们往往限制了学习系统的扩展性和灵活性。在人工智能领域,真实世界数据仍然是不可或缺的宝贵资源。