今日,计算机领域的最高荣誉 ——ACM 图灵奖揭晓了 2024 年的获奖名单,人工智能领域的两位杰出学者 Andrew Barto 和 Richard Sutton 凭借他们在强化学习领域的奠基性贡献,获此殊荣。这一决定不仅是对他们个人学术成就的高度认可,更是对强化学习在现代人工智能发展中核心地位的肯定。
Andrew Barto,马萨诸塞大学阿默斯特分校信息与计算机科学荣休教授,以其在强化学习领域的开创性研究闻名遐迩。他于 1977 年作为博士后研究助理开启在马萨诸塞大学阿默斯特分校的职业生涯,此后担任过包括副教授、教授和系主任等多个重要职位。Barto 在密歇根大学获得数学学士学位(优等),并在该校取得计算机与通信科学的硕士和博士学位。他在学术生涯中获得了众多荣誉,如马萨诸塞大学神经科学终身成就奖、IJCAI 研究卓越奖、IEEE 神经网络学会先驱奖等,是电气和电子工程师协会(IEEE)会士和美国科学促进会(AAAS)会士。
Richard Sutton,阿尔伯塔大学计算机科学教授,同时也是 Keen Technologies 的研究科学家。他与 Andrew Barto 的合作始于 1978 年,当时 Barto 是 Sutton 的博士和博士后导师。Sutton 在斯坦福大学获得心理学学士学位,在马萨诸塞大学阿默斯特分校获得计算机与信息科学的硕士和博士学位。他同样荣誉等身,获得过 IJCAI 研究卓越奖、加拿大人工智能协会终身成就奖和马萨诸塞大学阿默斯特分校的杰出研究成就奖等,是伦敦皇家学会会士、人工智能促进协会会士和加拿大皇家学会会士。因其在强化学习领域的卓越贡献,Sutton 更被誉为 “强化学习之父”。
自 20 世纪 80 年代起,Andrew Barto 和 Richard Sutton 便开始构建强化学习的理论与实践框架。他们借鉴马尔可夫决策过程(MDP)的数学基础,创新性地提出强化学习框架,允许智能体在未知环境和奖励机制下进行学习,极大地拓宽了算法的应用范围。
两人合作开发了众多强化学习的基础算法,其中时间差分学习算法堪称他们最重要的贡献之一,为解决奖励预测问题取得了突破性进展。他们还引入了策略梯度方法,并将神经网络作为函数表示学习的有力工具。同时,提出结合学习与规划的智能体设计,凸显环境知识在规划中的关键价值。
1998 年,他们合著的《Reinforcement Learning: An Introduction》出版,这部著作迅速成为强化学习领域的经典教材,至今已被引用超过 79,000 次,为无数研究人员打开了强化学习的大门,激发了计算机科学领域大量重要的研究活动。
强化学习在当今人工智能的诸多突破中扮演着关键角色。以 DeepSeek R1 为例,其核心的强化学习算法 GRPO 赋予大模型强大的推理能力,且无需大量监督微调,成为 AI 性能提升的关键因素。而围棋领域的传奇 ——AlphaGo,同样借助强化学习通过自我博弈训练策略,成功超越人类棋手,震惊世界。
在自然语言处理领域,聊天机器人 ChatGPT 采用了基于人类反馈的强化学习(RLHF)技术,优化模型输出以符合人类期望,显著提升了交互体验。在机器人运动技能学习方面,强化学习助力机器手在模拟环境中学习操作物体和解决物理问题,并将学习成果迁移到现实世界。此外,强化学习还在网络拥堵控制、芯片设计、互联网广告、全球供应链优化等众多领域取得成功应用,展现出强大的适应性和潜力。
ACM 图灵奖常被视作 “计算机领域的诺贝尔奖”,奖金高达 100 万美元,由谷歌公司提供资金支持。该奖项以英国数学家艾伦・图灵命名,旨在表彰在计算机科学领域做出具有持久而重大技术贡献的个人。此次 Andrew Barto 和 Richard Sutton 荣获图灵奖,再次彰显了强化学习对人工智能发展的深远影响。正如 ACM 主席 Yannis Ioannidis 所说:“Barto 和 Sutton 的工作展示了多学科方法解决领域长期挑战的巨大潜力,强化学习受多学科启发而发展,为 AI 的重要进展奠定基础,同时也加深了我们对大脑工作机制的理解,其影响力将持续推动计算及其他学科的进步。” 谷歌高级副总裁 Jeff Dean 也指出:“Barto 和 Sutton 开创的强化学习回应了图灵的挑战,是过去几十年 AI 进步的关键,其开发的工具仍是 AI 繁荣的核心支柱,吸引着大量年轻研究人员,推动了巨额投资,RL 的影响将延续至未来。”
Andrew Barto 和 Richard Sutton 的获奖,无疑为全球人工智能研究人员注入了强大的动力,激励着更多人投身于人工智能基础研究,探索智能的本质与边界,也让我们对强化学习及人工智能的未来发展充满期待,有望见证更多改变世界的创新成果诞生。