CICC科普栏目|强化学习能否提高群体稳定合作的可能性?
创始人
2025-07-21 16:41:07
0

导语

群体合作行为是人类社会可持续发展的关键,但如何在大规模、复杂环境中实现智能体之间的稳定合作一直是科学界的重大挑战。在众多研究方法中,复杂系统科学(CSS)能够深入揭示群体现象、合作的演化过程,以及支撑这些过程的制度体系。然而这一领域的许多理论往往为了简化建模,忽视了个体层面的复杂性和环境背景,也一直缺乏一种严谨的方法来将它们纳入研究;与此同时多智能体强化学习(MARL)很好地体现了这些要素,近年来也越来越关注合作(人工)智能。但典型的MARL模拟往往计算代价高昂,结果也不容易解读。

近日,由德国波恩大学Wolfram Barfuss教授领衔的研究团队在《美国国家科学院院刊》(PNAS)发表了一项开创性研究,提出将复杂系统科学(CSS)与多智能体强化学习(MARL)相结合的新框架,为解决这一难题提供了全新思路。文章认为这两个领域在目标、方法和研究范围上可以互相补充。MARL为在动态环境中模拟认知过程提供了具体工具,CSS则为MARL提供了对复杂群体现象的深入定性理解。该研究通过建立“群体强化学习动力学”(CRLD)理论,揭示了智能体在动态环境中学习合作的内在机制,为设计更高效的协作算法和促进人类社会可持续发展提供了理论基础。这项研究不仅展示了跨学科融合的强大潜力,也为人工智能与复杂系统的交叉研究开辟了新方向。

关键词:合作、群体行为、复杂系统科学、多智能体强化学习

曾利 丨作者

周莉 丨审校

论文题目:Collective cooperative intelligence

一、群体合作:人类社会可持续发展的重大难题

合作,是指一个群体能够成功且自愿地为共同利益而行动,即便在短期或个体看来,追求自私的行为似乎更有吸引力。这类情形通常被称为社会困境:在社会困境中,每个参与者都有动机去追求自己的最大利益,但如果大家都选择合作,整体会过得更好。合作对于维护各种公共资源至关重要,既包括环境层面的,比如渔业、大气和生物多样性,也包括社会层面的,比如公共基础设施、教育和医疗等。

图1:社会困境理论示意图。名词解释:社会困境(又称之为社会两难情景),是个体利益和群体利益发生冲突的情境。当群体中每个成员的选择都倾向于对自己有利,而个人选择累积起来的后果最终会对群体成员(包括选择者本人)不利时,就出现了社会困境情境。在社会社会困境中,个体选择了自己的短期利益,但从长远看,包括本人在内的群体成员的利益最终会被损害 。

关于合作何时、如何产生的研究,涉及生物学、物理学、计算机科学、工程学和社会科学等多个领域。人们已经探索出多种推动合作的机制,既包括外部权威(例如法律和政策)设立的约束,也包括基于社会互惠的自发性安排。外部权威可以通过惩罚机制来解决社会困境,这对于塑造可持续的未来路径非常重要。为了确保人类和地球的健康未来,我们需要改变政策、技术,乃至人类的行为模式。人类的决策必须被视为一种复杂的、与本地和全球环境共同演化的过程。在很多情况下,不同的个体有着各自的需求、偏好和特性,这些多样性是影响未来可持续性的重要因素,同时也让合作问题更加复杂。我们仍不清楚,如何在多样化的主体和认知复杂性之间找到稳健的合作原则。与此同时环境本身的复杂性也是稳定合作的一大挑战。这些挑战包括:(1)环境与人类行为之间的反馈机制(既有渐进式也有突变式);(2)行为后果的延迟或严重性;(3)多种风险与不确定性的交织。目前尚不清楚,动态环境中的哪些因素有助于合作出现并持续。再加上环境的短期变化,进一步增加了难度。尽管已经有很多促进合作的机制被发现,人们对合作何时才能真正发生、在哪些条件下能保持稳定,还缺乏深入理解。这些问题对于探索可持续转型尤为关键。

为应对这些挑战,数学模型变得不可或缺。过程驱动的机制模型可以帮助理论建立,并通过计算机仿真来探索实验难以验证的假设。复杂系统科学(CSS)已经在解释看似简单的个体如何通过相互作用产生宏观结构和规律方面,积累了丰富的成果,比如群体智能、进化博弈论和种群动力学等。然而,在生物、社会和人工系统中,个体层面的行为和交互都非常复杂,这些微观层面的特性,往往无法用过于简化的模型来准确刻画。一个尚未解决的重要问题是:当拥有复杂认知的个体在特定环境中相互作用时,会产生怎样的集体行为。基于智能体的建模以及人工生命领域,提供了一种方法,能够将个体的决策规则和差异性纳入考量。然而,这种复杂性也意味着模型往往无法用数学公式直接分析,只能依赖模拟。许多基于智能体的模型还面临一个著名批评:"垃圾进、垃圾出"。也就是说,如果模型中用于指导智能体行为的规则不够合理或缺乏实证支持,结果就会缺乏可信度。

与此同时多智能体强化学习(MARL)可以被视为一种特殊的基于智能体的建模方式,在这里,智能体的行为不需要提前假设规则,而是通过学习自主形成。然而,MARL模拟往往非常随机,计算代价高昂,而且通常涉及大量自由参数,使得结果不易解释。

二、理论突破:CSS与MARL的优雅结合

(一)背景知识

在应对合作问题时,复杂系统科学(CSS)和多智能体强化学习(MARL)提供了两条各具特色的发展路径。两者在目标、方法和理论深度上既有差异,也存在互补性。理解它们各自的特点,是把两种方法有效融合的前提。

1. 复杂系统科学(CSS)

复杂系统科学关注的是:看似简单的个体,通过相互作用如何自发形成宏观层面的合作结构和规律。其研究对象是由多组分构成的动态非均衡系统(Levin, 2002),探索简单个体如何通过非线性相互作用(Bialek et al., 2012)和跨尺度耦合自发形成宏观合作结构与涌现性规律(Daniels et al., 2021)。CSS的重要目标,是先理解合作如何自然出现,再考虑如何进行干预和改善。在研究方法上,CSS倾向于从最简单但可信的机制出发,探索合作行为如何涌现,具体包括进化博弈论(Axelrod & Hamilton, 1981)、非线性动力学(Jhawar et al., 2020)、复杂网络(Newman, 2003)和信息论(Rosas et al., 2019)等,它成功解释了从社会合作(Nowak, 2006)到集体运动(Bialek et al., 2012)等涌现现象。CSS研究合作的视角强调过程的动态性,以及微观层面与宏观层面之间的耦合关系。这一方法往往将模型简化到低维度,使得研究更加直观、可解释,也更容易用数学方法推导。一个典型例子是著名的“以牙还牙”策略(tit-for-tat):仅仅通过简单的模仿和互惠机制,就可以在重复博弈中产生稳定的合作,比很多复杂策略都更有效。这类研究揭示了:合作行为可以从极其基础的规则出发,演变成高度稳定的社会现象。

不过,CSS传统模型通常假设个体比较简单,对复杂认知、环境变化以及策略多样性考虑有限。如何将人类或智能体更高阶的推理能力纳入模型,仍是该领域面临的重要挑战。

2. 多智能体强化学习(MARL)

MARL来自人工智能和机器学习领域,关注在复杂动态环境中,多个智能体如何通过学习逐步形成有效策略

在典型的MARL框架中每个智能体会观察环境状态,然后采取行动,再根据环境反馈(奖励)更新自己的策略。这个过程可以理解为智能体在“状态–动作–状态”的序列中不断试错,优化长期回报。MARL的一个核心特征,是不依赖事先定义好的合作规则,而是让智能体自己通过试验与学习发现合作方式。因此,MARL非常适合用于高度不确定和复杂的情境。近年来,随着深度学习的发展,MARL在游戏、机器人、分布式控制等领域取得了显著进展。

然而,MARL也存在局限:(1)训练过程通常高度随机,结果难以解释。(2)模型参数众多,依赖海量计算资源。(3)与CSS相比,MARL更关注如何直接提升合作效率,而不是先从理论上理解合作的涌现机制。

这也就意味着,MARL虽擅长解决“如何合作”的问题,但在解释“合作为什么出现”方面,理论深度尚显不足。

3. CSS VS MARL

CSS和MARL在合作研究上的对比可以用表1来进行概括:

表1:复杂系统科学与多智能体强化学习的对比

维度

复杂系统科学(CSS)

多智能体强化学习(MARL)

目标

先理解合作,再干预优化

先提升合作表现,再理解其中原理

研究范围

低维环境、可用的合作行为

高维环境、需学习的合作行为

评估标准

行为多样性、机制合理性、模型简洁性

总体社会效益、算法可扩展性、泛化能力

主要工具

分析方法、简化模型、数学推导

仿真方法、深度学习、算法设计

适用环境

小规模、低维的可解释性环境

大规模、高维的复杂环境

优势

理论清晰、可解释性强、计算负担低

灵活适应复杂情况、能直接优化行为表现

通过上表可以分析得出,CSS擅长提供理论基础,解释合作如何从简单机制中演化出来;而MARL擅长在复杂环境中学习和优化合作策略。两者结合,能够同时兼顾理论解释力与实际适应性,为理解和设计群体合作系统提供更加完备的工具。

(二)群体强化学习动力学:复杂合作的桥梁

复杂系统科学(CSS)与多智能体强化学习(MARL)的交叉融合为理解合作行为的涌现机制提供了新范式。通过将MARL视为复杂动力系统,我们可以建立两者间的共同框架。CSS的数学工具能够为MARL提供关于集体学习动力学的定性洞察,而MARL则可以帮助CSS在动态环境中形式化从认知过程到集体行为的映射关系。这种互补性催生了“群体强化学习动力学”(Collective Reinforcement Learning Dynamics, CRLD)这一新兴研究方向。

CRLD研究呈现出典型的跨学科特征,融合了经济学(关注均衡收敛)、统计力学(研究非收敛场景)、机器学习(开发可扩展算法)、控制理论(系统稳定性分析)以及数学生物学(生物适应性建模)等多领域视角。其中,数学生物学和社会学的研究特别表明,强化学习可以作为生物合理的人类行为模型,这为研究合作行为提供了新思路。然而现有研究多聚焦于收敛性分析,对合作机制的系统性探讨仍显不足。

在方法论上,CRLD研究采用两种理想化路径:首先将高维MARL问题简化为低维环境(如两个智能体的静态博弈),其次通过确定性学习方程(微分/差分方程)替代随机强化学习算法。这种简化源自随机近似理论或演化博弈论,其中复制动力学既能描述种群演化过程,也能刻画个体学习行为。值得注意的是,CRLD的独特价值在于:它既能描述多智能体宏观行为的低维动力学特征,也能表征单个/少量智能体的理想化学习过程。

图2:群体强化学习动力学过程示意图

CRLD在复杂系统科学(CSS)与多智能体强化学习(MARL)之间搭建了一座桥梁,其理论基础建立在MARL的数学框架(图2):在每一个时刻,每个智能体i∈ {1, …, N}都可以从其对应的动作集合Ai中选择一个动作(左侧红色部分)。这些智能体被嵌入到一个(物理、生态或社会)环境中,该环境具有一组可能的状态S。状态会根据环境的转移函数𝑇 (𝑠, 𝑎, 𝑠′)发生变化,智能体在从状态 s经过动作 a转移到状态 s'的过程中会接收到外部奖励对每个智能体 i,每次这样的转移都会得到一个数值奖励:Ri(s, a, s')。

与传统的强化学习算法不同,CRLD使用一组动力学方程来建模智能体的学习过程。和其他算法一样,CRLD也存在多种不同的变体。在这里,作者使用时间差分学习(Temporal-Difference Learning)的动力学方程加以示例:

图3:群体强化学习动力学方程说明

其中图中表示智能体 i 在 t+1时刻和状态为 s时 选择动作 a 的概率,其更新规则由上一步的概率与一个指数项相乘:这个指数项包含上一步的策略平均时间差分误差以及有效学习率。此外是归一化因子,确保所有动作概率之和为1,从而形成一个合法的概率分布。而智能体的联合策略是由上一次的策略与一个根据时间差分误差进行调整的因子相乘得到的,这个误差告诉智能体如何更新策略以便长期获得更多的奖励。

平均时间差分误差衡量的是当前策略下,智能体在状态 s选择动作 a时,期望奖励与现有估计的偏差,它会将所有因智能体策略随机性和环境状态转移带来的波动进行平均化。

图4:公共产品博弈示例。图4展示了一个用于研究生态临界点环境下集体行为的示例。在该环境中,两个智能体进行一个标准的公共物品博弈(public goods game),每个个体通过合作都能获得更好的结果,但每个智能体同时也有立即利用对方的动机。然而,在本模型中,智能体被嵌入到一个动态环境中,该环境包含两种状态,一种是繁荣状态,另一种是退化状态每当有一个智能体选择背叛(defecting),就会以qc/ 2的幅度增加环境崩溃(collapse)的概率。一旦环境崩溃至退化状态,每个智能体在每个时间点都会遭受一个负面影响 m,直到环境以恢复概率pr回到繁荣状态。(在本文中,作者使用的参数设置为m = –5,qc= 0.2,qr= 0.01。)

图5:CRLD框架揭示的多稳态现象(基于公共物品博弈仿真结果):(A)繁荣状态的相空间;(B)临界点附近的精细学习轨迹;(C)瞬态动力学中的时间尺度分离;(D)临界减速现象。 研究发现多稳态性是群体强化学习动力学研究中的重要特征之一,传统MARL研究通常关注学习过程的最终收敛结果,而CSS方法则着眼于分析智能体在环境中学习时产生的完整动力学行为。

图6. CRLD框架揭示的临界相变现象(基于公共物品博弈仿真结果)。(A)合作水平和最终奖励随折扣因子的变化;(B) 收敛所需步数显示在临界点附近出现了明显的“临界减速”现象。 临界相变现象是群体强化学习动力学研究的核心议题之一——当外部参数的微小变化引发系统行为的显著改变时,CSS理论将其称为临界相变(亦称体制转换、分岔、临界点或相变)。在MARL框架中,这类外部参数包括学习超参数(如智能体的学习率,决定新信息覆盖旧信息的程度)和环境定义参数(如图3中环境崩溃的严重程度m和发生概率qc)。这种机制与经典统计力学中的相变具有深刻类比:正如水在压力/温度参数变化下会呈现液态、固态、气态等不同稳定形态,当调节智能体的未来收益贴现因子(表征其对长远福祉的重视程度)时,系统也会发生行为模式的突变。图6A清晰展示了这种转变过程:当贴现因子低于0.7时,完全背叛策略具有全局稳定性;超过0.85时完全合作策略成为全局稳定解;而在0.7-0.85的临界区间内,系统呈现双稳态特征——如图4A所示,完全合作与完全背叛两种均衡共存。这种转变的突发性体现为图2A中四分位数的剧烈跳变,而平均值的平滑变化则揭示吸引域从完全背叛到完全合作的连续迁移过程。在临界区域附近,可以再次观察到典型的“临界减速”现象(图6B):当贴现因子约为0.75时,学习耗时约为低贴现因子区的两倍,比高贴现因子区更是高出近一个数量级。这一现象不仅强调了研究暂态学习动力学的重要性,更启发了潜在的应用方向——CSS领域发展的“早期预警指标”可被移植到集体学习过程中,用于检测并主动应对临近的相变点。值得注意的是,这种相变行为与社交-生态系统中突现的社会临界点具有高度相似性,使得CRLD成为研究人地系统交互中突发性转变的理想建模工具。通过精确调控学习率、环境压力等参数,研究者能够模拟各类社会困境中合作规范的涌现阈值,为预测现实世界的系统性风险提供理论框架。

图7:CRLD框架揭示的滞后效应(基于公共物品博弈仿真结果)。当系统经历临界相变后,若逆向调整外部参数(如图7中的收益贴现因子),系统状态并不沿原路径返回,即呈现典型的滞后效应。与图6独立模拟各参数点不同,图7通过缓慢连续调节贴现因子(0.7→0.9→0.7)揭示出显著的非对称行为:在贴现因子升至0.83时,系统从背叛态突变为合作态;而当因子回降至0.7时,合作态才崩溃回归背叛态。这种0.7-0.83的滞后区间表明,智能体策略不仅取决于当前参数值,更依赖于参数变化的历史轨迹——本质上构成了一种环境驱动的集体记忆。当外部参数变化的时间尺度接近系统内部学习动力学尺度时,可能引发更复杂的非线性现象(如自课程学习中的环境分布渐变)。这种滞后效应为大规模MARL系统设计提供了新思路:通过构建智能体间的认知功能分布式网络,可使合作技能在环境分布动态变化时保持鲁棒性。结合多稳态、临界相变等复杂涌现现象,CRLD为分析和设计MARL系统提供了普适性框架。尽管这些现象在高维MARL中的存在性已获验证,但其发生条件与工程化应用(如通过参数调控实现合作稳态的定向诱导)仍是待探索的前沿领域。

三、应用前景:认知科学与集体动力学的融合创新

CRLD框架的跨学科特性为解决集体合作问题开辟了多维应用路径。在认知层面,该研究突破了传统社会学习理论的局限,通过整合多智能体强化学习的认知建模优势与复杂系统科学的分析工具,为理解异质性认知如何影响合作涌现提供了新范式。研究表明,当智能体具备亲社会偏好(将他者收益纳入自身回报函数)、内在探索动机(如好奇心驱动)以及精确的世界模型时,合作更易形成;而部分可观测环境中的认知噪声反而可能促进合作,这种反直觉现象通过CRLD的随机动力学分析得到了合理解释。针对大规模集体场景,研究团队借鉴统计物理中的平均场方法,通过福克-普朗克方程描述智能体群体的理想化学习行为,有效降低了高维状态空间的计算复杂度,为分析城市交通调度、分布式能源网络等现实系统提供了理论工具。在动态环境建模方面,CRLD通过将复杂环境抽象为有限状态的随机博弈,既保持了分析的可操作性,又捕捉了环境反馈(如资源崩溃风险qc与恢复概率pr与群体行为的耦合机制。特别值得注意的是,研究证实当智能体对未来收益的折扣因子超过临界值(0.85)时,即使没有互惠机制,系统也会自发从“公地悲剧”转变为“合作喜剧”,这一发现为设计促进可持续发展的行为干预策略提供了量化依据。这些突破性进展彰显了认知建模、集体动力学与环境科学交叉融合的巨大潜力,为应对气候变化等全球性挑战提供了全新的理论框架和方法论支撑。

四、未来展望:群体合作智能的五大前沿方向

CRLD框架为集体合作研究开辟了广阔的研究前景,其中五个关键方向尤为值得关注。

首先是CRLD统一理论的构建,需要深入探索不同强化学习更新机制的内在原理及其相互关系,特别是要厘清哪些算法细节在集体层面真正影响合作涌现。这一理论突破将帮助我们建立从微观学习规则到宏观合作现象的完整认知链条。

其次是对复杂动态现象的系统研究,包括多稳态、突变转换、滞后效应等非线性行为在CRLD和大规模MARL中的产生条件与应用价值。这些现象的深入理解将为设计具有鲁棒性的合作系统提供理论基础,特别是在社会-生态系统韧性评估方面具有重要应用潜力。

第三个方向聚焦认知机制的整合,需要突破现有框架的局限,将表征学习、世界模型、心智理论等高级认知功能纳入CRLD体系。特别值得关注的是内在噪声在动态环境中促进合作的特殊作用,这可能为解释人类集体行为中的"非理性"合作现象提供新视角。

第四个关键方向是大规模群体中的合作机制。当前各种均值场方法尚未形成统一框架,亟需建立能够处理智能体异质性和网络结构的普适性理论。这一突破将直接助力于智慧城市、分布式能源网络等大规模人机混合系统的设计与优化。

最后是动态环境抽象方法的研究,需要建立不同尺度环境模型之间的对应关系,发展既能保持关键特征又可解析处理的环境降维技术。重点探索环境不确定性、奖励延迟、空间扩展性等因素如何影响合作学习,这些发现将为气候变化等全球性挑战的治理提供科学依据。这五大方向的突破将共同推动集体合作智能从理论到应用的跨越式发展。

参考文献

[5]S. A. Levin, “Collective cooperation: From ecological communities to global governance and back” in Unsolved Problems in Ecology, A. Dobson , D. Tilman, R. D. Holt, Eds. (Princeton University Press, 2020), pp.

311–317.

[6]W. Barfuss, J. M. Meylahn, Intrinsic fluctuations of reinforcement learning promote cooperation. Sci. Rep. 13, 1309 (2023).

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
虚拟资料变现还值得做吗?闲鱼卖... 大家好,今天给大家带来的是咸鱼虚拟资料类项目分享,这个项目其实出来很久了,有些人觉得虚拟资料没水准,...
vivo钱包遭用户投诉贷款利率... 文:WEMONEY研究室 随着移动互联网时代到来,智能手机已经成为了生活的必需品。目前,很多手机如...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...