转自:中国医药报
□ 麦兆
2025年春节期间,DeepSeek的异军突起,让“AI”概念释放了新的活力。近年来,从影像诊断到手术机器人,从慢病管理到基因编辑,人工智能医疗设备的应用边界不断拓展。然而,当算法替代部分医生决策时,一个根本问题也浮出水面——在人工智能时代,如何确保这些“数字医生”的安全性和有效性?
2025年1月7日,美国食品药品管理局(FDA)发布了针对人工智能医疗器械开发商的综合指南草案《人工智能设备软件功能:生命周期管理及上市提交建议草案》(以下简称指南草案)。指南草案分享了解决人工智能医疗器械透明度和偏见问题的策略,同时系统性提出AI医疗设备“整体产品生命周期(TPLC)”管理框架,详细说明了FDA审查所需的必要文件和信息。指南草案对于AI医疗设备安全性的核心痛点,给出了解决路径和策略思路,揭示了AI医疗设备安全体系的构建逻辑,强调了TPLC方法论。
技术风险
AI医疗安全“三重门”
AI医疗设备的安全性风险,本质是源于其与传统医疗器械的根本差异——动态学习能力与数据依赖性。指南草案中提到,以下三大风险构成AI医疗设备安全性的“阿喀琉斯之踵”。
数据偏见
2023年,某AI胸片诊断系统在欧美市场准确率达95%,但在非洲部分地区误诊率却为40%。根源就在其训练数据中非裔患者样本占比不足5%。
为了避免数据偏见造成的安全性风险,在指南草案中,FDA要求制造商提交数据集构成报告,包括种族、性别、年龄等人口学分布,并验证其与目标人群的匹配度;合成数据的使用需要额外说明生成逻辑与局限性。
算法黑箱
据统计,截至2024年5月,FDA批准的近千款AI医疗设备中,仅12%提供了完整的决策路径可视化。指南草案明确硬性要求,设备提交必须包含“白盒测试”文档,阐明算法关键节点(如特征提取、分类阈值)的逻辑依据,并标注不确定度范围。
动态风险
由于自适应AI系统,例如实时优化放疗方案的肿瘤治疗设备,可能在临床使用中偏离初始设计目标。对于使用动态演变的自适应系统,指南草案强制要求厂商建立实时性能监控系统,每季度提交异常事件报告,并预设“熔断机制”,即当输出偏离预设阈值时自动锁定。
监管框架
“三轴驱动”方法论
指南草案的核心创新,在于将传统医疗器械的“静态监管”升级为覆盖研发、部署、迭代全周期的“动态监管”体系,其方法论可概括为“三轴驱动”。
提交规范
指南草案要求提交用户可配置元素清单,如放射科医生可调整AI肺结节检测的敏感度阈值,说明调整范围及对诊断准确率的影响。此外,还要求进行临床场景压力测试,模拟极端情况(如罕见病影像、设备信号干扰)下的算法鲁棒性。
数据生命周期管理
指南草案要求将数据视为需要持续维护的资源,而不是静态输入。数据的透明度至关重要,包括数据源(例如机构)的清晰文档、限制、质量控制、跨人群的可推广性以及合成数据的使用。在采集阶段,需要标注数据来源(如大型医院、社区诊所)、采集设备型号及参数设置。在迭代阶段,自适应AI每次更新训练集后,必须重新验证模型泛化能力。
风险管理
指南草案在风险管理方面进行了升级,对于技术风险(算法漂移、对抗样本攻击)、人机交互风险(临床医生过度依赖AI建议)等,从“事后追责”转向“前瞻布防”。
行业影响
合规成本与战略重构
人工智能的应用,给医疗器械开发制造商带来了挑战。指南草案正在重塑AI医疗行业的竞争格局,头部企业与初创公司也面临着截然不同的生存逻辑。
医疗巨头纷纷斥巨资,投入建设AI验证和数据中心。美敦力投资2亿美元建立了AI验证中心,专攻心脏介入AI的实时风险预测模型,将TPLC合规周期缩短30%。而飞利浦则收购了数据治理公司HealthSignals,补全从数据采集到模型监控的全链条能力。
在资本市场,融资的风向转向数据合规管理公司。据统计,2024年第三季度,AI医疗初创融资中,约53%流向具备TPLC管理团队的企业,较2023年同期上升22%。
基于指南草案的风向,合成数据工厂的市场开始崛起成型。如Syntegra、MDClone等公司,提供符合FDA标准的虚拟患者数据生成服务。据不完全统计,2024年这一市场规模达到17亿美元。
同时,新兴的伦理审计服务崭露头角,例如,德勤推出了AI医疗伦理认证服务,单次评估收费超50万美元。
未来挑战
“不可能三角”与突破路径
尽管指南草案构建了初步框架,AI医疗设备的安全性仍面临“不可能三角”难题——准确性、透明度与实时性难以兼得。未来突破或将依赖以下三大技术路线。
联邦学习
联邦学习是谷歌2016年提出的概念。在分布式场景下,训练数据分别保存在每个客户端。谷歌提出一种训练方法,跨多个客户端训练一个共享的全局模型,希望在保证数据隐私的同时,让众多客户端利用自己的数据协同参与训练一个中心模型。至今,谷歌Heal t h联邦学习平台已支持跨300家医院训练AI模型,数据不出本地,而模型精度提升15%。2024年8月,FDA发布的一项补充指南中提到,允许联邦学习模型免于提交原始数据,但需要提供参与机构清单与数据贡献权重。
因果AI
因果AI(Causal AI)是人工智能的一个重要分支,旨在从数据中学习和推断因果关系,主要包括两个方面:因果学习和因果推理。与传统的相关性分析不同,因果AI关注的是变量之间的因果关系,而不仅仅是它们的相关性。这种方法可以更好地解释复杂系统中的因果机制,作出更准确的预测和决策。
因果学习的目标是从数据中发现因果模型、因果关系和因果特征。这涉及如何识别和验证变量之间的因果关系,以及如何构建因果模型来描述这些关系。例如,哈佛大学与Br oad研究所开发的Causal Med系统,可解析AI诊断结论的生物学机制,该系统在2024年完成首例FDA认证。有报道指出,在乳腺癌分型中,因果AI可将误诊归因分析时间从72小时压缩至20分钟。
量子安全
量子安全也被称为量子加密或量子密码学,是利用量子力学原理来加强安全性和检测第三方是否窃听通信的实践。2024年6月,某量子计算机成功破解了RSA-2048加密,暴露出AI医疗设备的潜在漏洞。因此,FDA拟于2025年将后量子加密算法纳入强制标准,IBM、微软已推出兼容硬件。
医疗监管
全球“共治”进行时
FDA的TPLC框架,标志着AI医疗监管从“追赶技术”转向“定义规则”。然而,真正的安全性不止于合规——它需要算法工程师、临床医生、监管机构乃至患者以及各个国家和地区共同参与的“生态共治”。
近年来,在AI医疗领域,国家药监局医疗器械技术审评中心发布了多个相关文件,如《深度学习辅助决策医疗器械软件审评要点》《人工智能医疗器械注册审查指导原则》《人工智能辅助诊断技术管理规范(2021版)》等。
世界卫生组织也分别于2021年和2024年,发布了“世界卫生组织卫生健康领域人工智能伦理与治理指南”和“卫生领域人工智能的伦理与治理:多模态大模型指南”。
医疗器械开发商必须意识到,未来AI医疗设备的安全标准将不再是一纸文书,而是嵌入每一行代码、每一次训练迭代、每一份临床报告的“数字基因”。这场关乎生命的AI竞赛中,唯有将安全性和有效性视为“第一性原理”的企业,才能穿越周期,成为人工智能医疗时代的领航者。
(作者单位:北京颐通管理咨询有限公司)
延伸阅读
《人工智能设备软件功能:生命周期管理及上市提交建议草案》概述
在《人工智能设备软件功能:生命周期管理及上市提交建议草案》(以下简称指南草案)中,FDA强调透明度和可解释性是展示和确保安全性和有效性的重要因素。指南草案的核心内容侧重于以下四个方面。
生命周期管理
指南草案强调了AI设备的整体产品生命周期(TPLC)管理,将全面的质量体系和上市后要素应用于支持AI的软件,要求制造商在设备的整个生命周期内持续评估和管理风险,确保设备的性能和安全性。
上市提交要求
指南草案要求制造商在提交AI医疗设备上市申请时,必须提供详尽的文件和信息,以支持FDA对其安全性和有效性的全面评估。包括设备的设计、开发、数据管理以及模型描述等内容。
风险管理
指南草案倡导综合的风险管理策略,将《ANSI/AAMI/ISO 14971医疗器械—风险管理在医疗器械中的应用》和《AAMI CR34971 ISO 14971在人工智能和机器学习中的应用》指南确定为制定风险管理计划的相关资源。制造商需要识别潜在风险,并通过科学评估和有效措施降低风险,确保设备在实际应用中的安全性。
设计与开发
针对AI设备的独特属性,指南草案提出了具体的设计和开发建议,以确保设备能够满足FDA的评估要求,包括风险评估、数据管理、模型描述和开发等多个方面。 (麦兆)