用AI进化和“海选”蛋白质, 上海交大发布蛋白质设计模型
创始人
2025-03-23 10:43:23
0

澎湃新闻(www.thepaper.cn)记者从上海交通大学获悉,一个含有近90亿条蛋白质序列的蛋白质序列数据集由该校科研团队建立,依托该团队同步训练的Venus(启明星)系列模型,业界对蛋白质的利用有望迈上一个新的台阶。

人们对蛋白质并不陌生,但一款功能过硬的蛋白质产品的诞生,通常需要丰富的专家经验配合大量的实验试错,长期以来,蛋白质设计改造的时间长、成本高、试错密集等问题,一直是业界难题。

针对这一课题,3月22日,上海交通大学洪亮教授团队发布最新成果。团队将AI与蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集,基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。团队介绍,该成果配合行业领先的自动化设备,已进行产业化落地,在助力阿尔兹海默诊断等方面也可发挥作用。

洪亮在上海交通大学蛋白质功能预测Venus系列模型发布暨产业合作峰会上发布成果。 本文图片均为 上海交大 供图

建立全球最大的蛋白质序列数据集

AI时代,庞大有效的数据能大力推动技术进步。蛋白质是由氨基酸序列构成的,氨基酸序列的长度从数百个到上千个不等。洪亮介绍,其团队建立的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Dataset)含有近90亿条蛋白质序列,包含数亿个功能标签,是全球数据规模最大、功能批注标签最多的数据集,也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。

该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列,覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,尤其是配备的数亿功能标签(蛋白质工作的温度、酸碱度、压强等)。

这些数据意味着什么?洪亮表示,首先该数据集构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力我们生物医药和合成生物学的快速发展;其次,AI大模型有望通过海量数据的学习和掌握自然界蛋白质的进化模式,为AI设计优异的蛋白质产品提供宝贵的学习资料。

洪亮团队正进行湿实验验证工作

“AI定向进化”和“AI挖酶”

成功“喂养”和训练AI后,便需要让AI“为我所用”了。

蛋白质是由20种氨基酸组成的一条高分子链,这个高分子链会扭曲并折叠成独特的三维结构,正是这种独特结构赋予了特定蛋白质的生物功能。然而,即使稍微改动蛋白质的氨基酸序列,蛋白质的整体结构看似没有发生明显变化,但功能大概率也会变差,甚至完全丧失。

换言之,要设计出一款成功的蛋白质产品,不能只关注它的三维结构,而是要能成功预测和设计它的功能。由此,洪亮教授团队“另辟蹊径”,不再执着于蛋白质的结构,而是直接瞄准“功能预测”这一终极目标,将复杂的蛋白质设计变成以需求为导向,配合少量实验输出结果的简单过程。

“我们训练了Venus(启明星)系列模型,与DeepMind团队的AlphaFold预测蛋白质结构不同,这个模型学习自然界蛋白质序列的组织规则以及它与功能之间的关系,其预测蛋白质突变功能的精度位居行业榜单之首。”洪亮表示,Venus系列模型具备两大核心功能:“AI定向进化”与“AI挖酶”。

所谓“AI定向进化”是指 Venus系列模型可以对一个不尽如人意的蛋白质产品的多种性能进行优化,让它成为一个“六边形战士”满足应用需求。而“AI挖酶”则是指 Venus 系列模型基于其海量的未知功能蛋白质数据集,可以“海选超能力战士”,去精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力,能够为相关领域带来创新和突破。

值得一提的是,经过Venus系列模型设计的多款蛋白质已经实现了落地产业化。

以国内生长激素龙头金赛药业的单域抗体耐碱性改造为例。提升蛋白质的耐碱性历来是一项极具挑战性的工作,洪亮团队借助该模型结合少量湿实验闭环迭代验证,不到 1 年将普通单域抗体耐碱性提升 4 倍,每年为金赛药业节约上千万元成本。该成果已实现多个批次 5000 升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。

另一项Venus系列模型的创新应用则是对某体外诊断头部公司碱性磷酸酶(ALP)的改造项目。ALP 因高稳定性和灵敏度被广泛用作标记酶,其活性越高,检测灵敏度越高,从而能够检测到极低的生物标志物,但提升ALP的活性一直是一个挑战。Venus 系列模型成功优化 ALP,使其分子活性大大提升,为超敏检测诊断,如心肌梗塞、阿尔兹海默症等,带来巨大价值。目前,改造后的 ALP 已进入 200L 规模放大生产阶段,标志着 Venus 系列模型成功实现产业转化。

相关内容

热门资讯

2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...