无需训练即可定制分子生成:全新多模态引导框架TFG-Flow登上ICLR 2025
创始人
2025-03-17 14:22:14
0

编辑丨ScienceAI

在药物研发和材料科学领域,设计具有特定性质的分子是一项关键但耗时的任务。传统方法依赖大量实验试错,而生成式 AI 模型的出现为这一领域带来曙光。

然而,现有方法面临两大瓶颈:一是多数生成模型仅能处理连续型数据(如图像像素),难以应对分子设计中离散的原子类型与连续坐标共存的多模态数据;二是针对特定性质的定向生成通常需要额外训练模型,成本高昂。

近日,来自北京大学、卡耐基梅隆大学、斯坦福大学等机构的研究团队提出 TFG-Flow 框架,在无需额外训练的条件下,成功实现了多模态数据的定向分子生成。该方法在量子属性匹配、结构相似性优化、药物分子设计等任务中展现出显著优势,相关论文已被 ICLR 2025 接收。

突破多模态引导的核心挑战

分子可被视为由离散的原子类型(如碳、氧、氮)和连续的3D坐标构成的多模态数据。现有生成模型在引导这类数据时面临两大难题:

1.维度灾难:离散变量的组合空间随原子数量呈指数增长,传统方法计算代价高昂

2.几何不变性:由连续变量刻画的分子的 3D 结构需满足旋转、平移不变性,普通梯度引导会破坏这一特性

TFG-Flow 通过创新性的双路径设计攻克了这些难题(图 1):

  • 离散变量:采用蒙特卡洛重要性采样,将计算复杂度从指数级降至对数级
  • 连续变量:引入旋转等变图神经网络(EGNN),确保坐标变换不影响分子性质

图 1:TFG-Flow 通过离散采样与连续梯度引导的双路径实现多模态生成

实验表现:全方位超越基线模型

研究团队在 QM9、GEOM-Drug 等分子数据集上进行了系统验证:

量子属性精准匹配

以极化率(α)、偶极矩(μ)等 6 种量子属性为目标,TFG-Flow 的平均绝对误差(MAE)相比当前最优的无训练(training-free)引导方法降低 20.3%。如表 1 所示,其性能甚至逼近需要专门训练的条件生成模型。

表 1:TFG-Flow 在量子属性任务中显著优于传统方法

结构相似性优化

当以特定分子子结构为引导目标时,TFG-Flow 将生成分子与目标结构的Tanimoto 相似度提升了 76.8%(QM9 数据集)和 22.4%(GEOM-Drug 数据集),展现出精准的结构控制能力。

药物分子设计实战

在 CrossDocked2020 数据集上,TFG-Flow 生成的分子与蛋白质靶点的结合能(Vina Score)达到-7.65,优于主流方法 Pocket2Mol(-7.23)和 TargetDiff(-7.32),且分子合成可行性(SA Score)保持合理水平。

技术亮点:高效且通用

TFG-Flow 的核心优势体现在两大技术创新:

理论保障下的高效采样

针对离散变量,研究团队提出基于重要性采样的近似方法(图 2)。理论分析表明,提出的估计方法具有相合性等优良性质,且相比传统方法能够指数级降低计算量。实验观察发现这一方法仅需 16 次采样即可高精度估计转移概率。

图 2:采样次数 K=16 时已能达到稳定性能

即插即用的预训练模型兼容

不同于需要从头训练的传统方法,TFG-Flow 可直接调用预训练分子模型(如UniMol)作为目标预测器。实验表明,使用 UniMol 时 TFG-Flow 的 MAE 进一步降低,与专业训练模型 EEGSDE 的差距显著缩小。得益于当前各类基座模型(foundation model)性能的增强,研究团队认为 TFG-Flow 在未来将有更强的潜力。

开启分子设计新范式

这项工作的价值不仅在于技术突破,更在于其方法论创新:

  • 降低成本:无需针对每个新目标重新训练模型,计算资源消耗大大降低
  • 拓展应用:框架可迁移至蛋白质设计、材料发现等需处理多模态数据的科学领域
  • 促进协作:开源代码允许化学家直接引入领域知识定义目标函数

研究团队表示,未来将探索更大规模的基础模型与 TFG-Flow 的结合,进一步释放 AI 在科学发现中的潜力。正如审稿人评价:「这项工作为生成模型在科学计算中的应用树立了新标杆。」

附:本文作者

林昊苇是北京大学人工智能研究院二年级博士生,导师为梁一韬教授和马剑竹教授,研究方向为生成模型及其在 AI4Science科 学发现中的应用。担任 ICML、NeurIPS、ICLR、CVPR、ACL(ARR)等顶会审稿人,在 ICML、NeurIPS、ICML、Nature Communications、TPAMI 等顶会顶刊发表 14 篇论文。

黎善达是卡耐基梅隆大学机器学习系三年级的博士生,导师为 Yiming Yang 教授和 Ameet Talwalkar 教授。他通过理论与实证研究理解机器学习模型的规律与局限,为更有效地运用机器学习方法提供洞察。同时,他研究深度学习方法在数学推理、代码生成、微分方程求解、自然科学等领域的应用。

论文地址:https://arxiv.org/abs/2501.14216

代码开源:https://github.com/linhaowei1/TFG-Flow

相关内容

热门资讯

2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...