中国人工智能与机器学习医疗软件(SaMD/AI-enabled Medical Devices)企业在进入北美及欧洲市场时,通常将大部分精力集中在产品性能测试、临床试验以及预设变更控制计划(PCCP)的撰写上。然而,许多企业在面临主管当局现场体系审核或申报资料技术审查时,往往因为缺少一个系统性的合规底座而遭到阻碍。这个合规底座就是良好机器学习规范(Good Machine Learning Practice,简称 GMLP)。
由美国食品药品监督管理局(FDA)、加拿大卫生部(Health Canada)与英国药品和健康产品管理局(MHRA)在2021年10月联合发布的 GMLP 十项基本原则,不是一个单纯的技术评估标准,而是一个针对数据驱动型医疗器械的质量管理体系(QMS)延伸框架。随着FDA的质量管理体系规范(QMSR,21 CFR 820)于2026年2月正式生效并与 ISO 13485:2016 接轨,GMLP 十原则正成为 FDA 在 AI 医疗器械申报审查与现场检查中重点参照的合规依据。
本文结合最新的行业数据与注册法规,深入探讨如何将 GMLP 的十项原则无缝嵌入 ISO 13485:2016 以及 FDA 21 CFR 820(即 QMSR 质量管理体系规范)的框架中,并解决算法开发中的数据隔离与偏差控制等实务难题。
拆解FDA GMLP十原则:从临床代表性设计到全生命周期算法控制
GMLP 十原则的核心在于将机器学习模型的生命周期管理从学术研究层面的“参数调优”提升到医疗器械级别的“设计控制”和“风险管理”。为便于建立整体认知,先列出 FDA、Health Canada 与 MHRA 于 2021年10月 联合发布的十条指导原则全貌:
- 多学科专业团队全程参与(Multidisciplinary expertise is leveraged throughout the total product lifecycle)。
- 良好的软件工程与安全实践(Good software engineering and security practices are implemented)。
- 临床研究数据集应代表目标患者人群(Clinical study participants and data sets are representative of the intended patient population)。
- 训练集与测试集相互独立(Training data sets are independent of test sets)。
- 参考数据集基于最佳可用方法构建(Selected reference datasets are based upon best available methods)。
- 模型设计适配可用数据并反映预期用途(Model design is tailored to the available data and reflects the intended use)。
- 关注人机协作团队的整体表现(Focus is placed on the performance of the human-AI team)。
- 在临床相关条件下测试以证明器械性能(Testing demonstrates device performance during clinically relevant conditions)。
- 向用户提供清晰、关键的信息(Users are provided clear, essential information)。
- 已部署模型应持续监测性能并管理重训风险(Deployed models are monitored for performance and re-training risks are managed)。
需要区分的是,2024年6月 三方机构又单独发布了《机器学习医疗器械透明度指导原则》(Transparency for ML-Enabled Medical Devices),它建立在原则 7 与原则 9 之上,是对 GMLP 的补充,而非十条原则之一。下面针对审查员最常追问、企业最容易失分的几条原则,结合 ISO 13485 与 21 CFR 820 设计控制条款逐一展开。
1. 多学科专业知识的全面融入
GMLP 的第一原则强调,产品全生命周期管理需要多学科的持续参与。这不仅包括算法工程师和软件架构师,还必须有临床医学专家、统计学家、法规事务专家以及质量体系内审员。在实际开发中,算法团队容易偏离临床的实际使用场景。临床医生的介入能确保算法在特征工程阶段选择的指标具有病理学上的解释性。
2. 软件工程与安全性设计的基石
第二原则要求在开发过程中实施良好的软件工程实践。这包括版本控制的细化、代码评审的记录、静态代码分析以及系统集成测试。对于 AI/ML 医疗器械,代码的版本不仅对应软件本身的源程序,还必须与所使用的特定算法模型参数、训练超参数以及所依赖的第三方软件库(如 PyTorch 2.4.0 版本、TensorFlow 2.16.0 版本)相绑定。任何底层计算库的更新都应当被视为设计变更,并根据软件生命周期标准 IEC 62304 进行验证。
3. 临床研究设计与数据集的代表性
第三原则指出,用于训练和测试模型的数据应当能够代表目标临床人群。这意味着开发团队不能仅依赖单一医院或单一族裔的影像和体征数据。数据集必须在年龄、性别、病理分期、合并症以及扫描设备品牌和参数(如 CT 扫描的层厚与剂量)上具备充分的代表性,从而确保算法在实际临床落地时的泛化能力。
4. 训练数据集与测试数据集的物理隔离
这是算法控制中最容易被审查员质疑的部分。第四原则(Training and Test Datasets are Independent of Each Other)强调,用于评估模型性能的测试集必须与训练集(包括用于调优的验证集)实现物理意义上的完全独立。不能仅在样本级别进行随机划分,而应当在患者级别、甚至机构(医院)级别进行划分。如果在训练和测试中使用了同一名患者的不同切片,会导致严重的信息泄露(Data Leakage),夸大算法的真实性能。
5. 人机协作与决策透明度(对应 GMLP 原则 7、9 与 2024 透明度补充指南)
原则 7(关注人机协作团队的整体表现)与原则 9(向用户提供清晰、关键的信息)共同构成了 GMLP 对透明度与人机协作的核心要求;在此之上,FDA、Health Canada 与 MHRA 又于 2024 年 6 月联合发布了机器学习医疗器械透明度(Transparency)补充指南,进一步细化披露内容。AI 算法不应当是一个完全黑箱的决策系统,它必须向临床医生提供充足的背景信息,解释算法的判定逻辑或置信区间。人机交互设计(符合 IEC 62366 标准)应当向操作者明确软件的使用边界、可能的假阴性率以及推荐的复核流程,防范临床医生的过度信赖偏差。
质量体系对接实操:如何将良好机器学习规范嵌入 ISO 13485 与 QMSR 框架
对于中国出海企业,重新建立一套独立的 AI 质量体系成本极高。最可行的方案是将 GMLP 的原则融入已有的 ISO 13485:2016 以及 FDA 21 CFR 820(即 QMSR 质量管理体系规范)中。下表展示了 GMLP 十原则与传统医疗器械质量管理体系条款的对应关系。
GMLP与质量体系条款对照表
| GMLP 原则项目 | ISO 13485:2016 对应条款 | FDA 21 CFR 820 (QMSR) 条款 | 实操要求与关键证据包 |
|---|---|---|---|
| 原则 1:多学科专业团队 | 6.2 人力资源 | 820.25 人员资质 | 建立算法质量工程师、临床评估员的资质认定标准与培训记录 |
| 原则 2:软件工程与安全性 | 7.3.1 - 7.3.10 设计与开发 | 820.30 设计控制 | 遵循 IEC 62304 开发流程,实施模型参数与代码库的版本控制 |
| 原则 3:临床研究与数据代表性 | 7.3.6 设计验证 / 7.3.7 设计确认 | 820.30(f) & 820.30(g) | 撰写数据采集计划书,明确临床中心的多样性与样本排除标准 |
| 临床风险与偏差管控(融合 ISO 14971,贯穿各原则) | 7.1 产品实现的策划 / 7.3.3 设计输入 | 820.30(c) / ISO 14971 | 将算法偏差(Bias)、假阳性/假阴性纳入设计输入与风险分析 |
| 原则 4:训练集与测试集独立性 | 7.3.6 设计验证 | 820.30(f) 设计验证 | 制定测试集隔离规程,确保测试集在患者层面的物理隔离 |
| 透明度与人机协作(2024 透明度补充指南 · 融合 IEC 62366) | 7.2.1 产品要求的确定 / 7.3.3 输入 | 820.30(c) 设计输入 | 执行符合 IEC 62366 的可用性测试,编制专门的 AI 使用说明书 |
在设计控制(Design Control)的框架下,数据不再仅仅是系统测试的媒介,而是应该被视为“采购材料”或“关键生产要素”进行控制。这意味着,数据采集计划书、数据标注指南以及第三方数据供应商的质量协议(Quality Agreement),都应当作为质量管理体系的受控文件归入设计开发文档(DHF)中。
数据独立性与偏差控制:训练集、测试集与验证集的物理隔离要求
为了规避数据泄露并提供高可信度的性能证据,企业在开发流程中必须实施严格的数据分区策略。这一过程通常可以划分为三个核心物理区域:
训练集(Training Set)的分区控制
训练集是算法学习特征的直接源泉。在质量体系中,必须记录训练集的数据清洗、噪声过滤与特征提取规则。为了避免模型对于特定采集设备的过度拟合,训练集内应包含至少3家不同医疗机构的样本,且不同设备品牌(如 GE、Siemens、Philips)的数据比例应控制在合理范围内。通常,训练集占总数据集的 70% 比例。
验证集(Validation Set)的调优监测
验证集用于模型超参数的调整与中间版本的评估。验证集必须与训练集实现逻辑隔离,任何在训练集中使用的样本都不得用于验证模型的泛化能力。在质量控制层面,应当详细记录每一次超参数调整的依据与模型性能的演变路径,作为设计更改记录(DCO)的一部分。验证集占总数据集的 15% 比例。
测试集(Test Set)的绝对锁定
测试集是证明算法临床安全有效性的黄金标准。在模型冻结(Model Freeze)之前,测试集必须处于完全“封存”状态,算法研发人员不得接触测试集的任何数据。测试集的数据必须在患者级别实现完全隔离,确保没有交叉风险。测试集占总数据集的 15% 比例。
算法开发数据集划分与质量控制要求
| 数据集类型 | 隔离级别 | 样本分配比例 | QMS验证控制点 |
|---|---|---|---|
| 训练集 | 逻辑隔离 | 70% | 记录数据清洗、噪声过滤与特征提取规则,包含至少3家不同医疗机构样本 |
| 验证集 | 逻辑隔离 | 15% | 用于模型超参数调整与中间版本评估,变更记录归入设计开发文档 |
| 测试集 | 物理隔离 | 15% | 绝对锁定,模型冻结前研发人员禁止访问,按临床流行病学特征设计分层性能 |
AI/ML医疗器械全生命周期安全:网络安全与风险管理
由于 AI 医疗软件的算法高度依赖于计算环境、网络传输与第三方数据接口,其安全边界较传统软件更加复杂。根据 ISO 14971 风险管理标准,企业必须针对 AI 软件特有的风险进行危害分析:
算法特有的危害与风险缓解措施
- 数据飘移(Data Drift): 随着时间推移,临床诊断设备或临床诊断标准的改变可能导致软件输入的实际数据特征偏离训练集,造成诊断准确率下降。企业应当在上市后监督(PMS)计划中设立模型性能监控指标,一旦实效数据偏离阈值,必须触发重新训练或限制使用的控制程序。例如,敏感度偏离 3% 以上即触发警报。
- 人机决策失调风险: 临床医生可能由于过度信赖算法而忽略明显的影像异常,或者相反,由于算法提示信息过多而产生预警疲劳。企业必须在软件界面中设计醒目的置信度提示,并在随附文档中明确指出软件仅作为辅助诊断工具,最终诊断决策权归属于持证医师。
AI医疗器械风险控制判定矩阵
| 风险来源 | 潜在失效影响 | 风险等级 | 减缓控制措施(符合ISO 14971) |
|---|---|---|---|
| 数据飘移 | 算法诊断准确率下降 30% 以上 | 高风险 | 建立上市后性能监控计划,设定偏离阈值触发重训 |
| 人机决策失调 | 医师过度信赖导致漏诊假阴性 | 中风险 | 在界面醒目显示置信度,限定产品为辅助诊断工具 |
| 网络攻击 | 患者体征数据泄露或恶意篡改 | 高风险 | 建立SBOM清单,实施持续漏洞监测与应急响应计划 |
网络安全生命周期与 SBOM 建设
在申请 FDA 510(k) 注册时,企业必须按照 FDA 最新网络安全指南(Cybersecurity for Medical Devices)的要求提供完整的软件物料清单(SBOM)。SBOM 中应当清晰地罗列出机器学习框架(如 PyTorch 2.4.0)、底层数学运算库(如 NumPy 1.26.0)、以及操作系统或虚拟化层(如 Docker 26.0)。对于这些第三方组件的漏洞,企业应当实施持续监测,并在发生重大安全漏洞时有能力快速发布热补丁。
良好机器学习规范与PCCP(预设变更控制计划)的协同作用
预设变更控制计划(PCCP)是 FDA 于 2024年12月 正式定稿(草案于 2023年 发布)的监管创新,旨在允许 AI 医疗器械在上市后根据预先批准的方案进行算法的自主训练和迭代更新,而无需每次都递交新的 510(k) 申请。(关于 PCCP 的申报结构、SIP/ACP 模块与审查要点,可参见我们对 FDA AI 医疗器械 PCCP 实操指南的专题拆解;本文聚焦其前置的 GMLP 质量底座。)然而,PCCP 的成功实施必须建立在坚实的 GMLP 基础之上。
当企业在 PCCP 中声明算法将通过上市后新增的临床中心数据进行自动优化时,FDA 审查员会重点评估企业的 QMS 是否有能力支撑这种自动迭代。例如,企业必须证明其数据采集与标注流程(对应 GMLP 的数据质量与完整性要求)在上市后仍然符合原有的质量规范;同时,必须证明用于上市后验证的自动化测试流(GMLP 原则 4)能够自动保持测试集的独立性。如果企业的质量体系未能将 GMLP 制度化,FDA 将大概率拒绝 PCCP 的申请,使企业失去算法迭代的快速通道。
常见合规误区与FDA审查要点
在我们的法规辅导实践中,中国 AI 医疗器械出海企业经常会陷入以下几个典型的合规误区:
误区一:混淆模型验证与软件系统验证
许多研发团队认为,只要给出了交叉验证(Cross-Validation)的 AUC 曲线,且达到了 95% 以上,就完成了验证。但在 FDA 的审查视角下,算法模型的设计验证(Verification)仅是第一步。企业必须在真实的系统运行环境下(例如,嵌入 PACS 系统或在目标移动终端上)进行完整的软件系统验证与确认(Verification & Validation)。
误区二:国内临床数据直接替代多中心代表性要求
部分企业试图用国内单一临床中心的数千例病患影像去申请 FDA 注册,认为样本量已经足够大。但因为缺乏族裔多样性和美国本地主流临床设备品牌的数据,这在很大程度上会被 FDA 判定为临床代表性不足,要求企业补充进行美国本土的临床验证或回溯性数据分析。
行业数据画像:1,041款 FDA 已获批(cleared)AI 医疗器械的产品类别与占比
为了进一步了解 FDA 对 AI 医疗器械的监管侧重点,我们对截止到 2026年6月 的美国 FDA 510(k) 公开注册数据库进行了深度分析。在筛选了包含“artificial intelligence”、“machine learning”、“deep learning”、“algorithm”等关键词的记录后,共检索到 1,041 款已通过 510(k) 上市前通知(Premarket Notification)获准上市的 AI/ML 医疗器械。需要说明的是,由于“software”、“algorithm”等关键词覆盖面较宽,该口径会高于 FDA 官方维护的《AI/ML-enabled Medical Device List》收录数量,本文将其作为反映监管侧重分布的趋势性参考,而非精确在册清单。以下是按 FDA 审批主专业(medical specialty)分组后排名靠前的产品代码分布:
FDA 已获批 AI 医疗器械主要产品类别分布
| 排名 | 产品代码 | 类别名称(基于 FDA 审批主专业分组) | 已获批数量 | 占比 |
|---|---|---|---|---|
| 1 | LLZ | 放射影像处理与辅助分析软件(放射科) | 182 | 17.48% |
| 2 | LNH | 磁共振(MRI)影像分析软件(放射科) | 54 | 5.19% |
| 3 | MHX | 心血管监护与心律失常分析软件(心血管科) | 35 | 3.36% |
| 4 | 其他 | 其他品类(含病理、超声、监护等) | 770 | 73.97% |
从数据来看,放射科软件(LLZ、LNH)合计占据了前两位,这意味着放射影像处理领域的 GMLP 审核经验最为成熟,相关共识标准与披露要求也最完善。心血管监护与心律分析软件(MHX)的临床风险相对更高,FDA 在审查时通常要求企业提供更详实的临床评估数据与偏倚控制证据。
行业最佳实践与中国AI医疗软件出海建议
针对拟出口北美和欧洲的中国 AI 医疗软件企业,我们建议在质量体系的建设中采取以下行动步骤:
- 确立多学科质量委员会: 改变研发部门单打独斗的局面,建立由质量管理代表(QMR)、医学主任和算法科学家组成的多学科评审小组,对算法的立项、数据收集和模型发布实施联合审批。
- 规范化数据生命周期记录: 参照 ISO 13485 设计开发控制的要求,为数据的“采集-传输-清洗-标注-分配”全流程建立可追溯的记录表格,每一条训练数据的来源都必须有清晰的电子日志(Log)。
- 实施第三方独立测试评估: 在软件发布前,委托未参与算法开发的第三方机构(如国内知名临床研究中心或海外独立实验室)使用独立数据集进行性能验证,以增强注册申报资料的说服力。例如,测试数据集的规模通常需要达到 5,000 例以上的样本量,总合规认证预算通常需要规划在 $50万 至 $100万 之间。
常见问题解答(FAQ)
如果我们的AI算法已经在国内NMPA批准,能否免除GMLP项下的多中心临床代表性数据集要求?
应当承认,NMPA的批准奠定了良好的技术基础,但通常无法直接免除FDA对临床代表性的审查。FDA会重点核查训练数据中是否包含足够比例的美国本土代表性人群样本,以及设备采集参数是否覆盖了美国主流的临床科室配置。企业通常需要补充回溯性多中心研究数据。
GMLP对人机交互(Human-in-the-loop)的解释如何影响软件可用性设计(IEC 62366)?
GMLP要求系统必须为医生提供关键判定依据以防范过度信赖。这要求在可用性工程(IEC 62366)实施过程中,企业必须将“AI给出错误提示时医生的纠错行为”作为一种关键使用危害(Use Error)进行模拟测试,确保软件的用户界面能够有效引导医生进行独立思考。
在QMS体系中,如何定义模型重训(Model Retraining)的变更阈值?
模型重训应当在质量管理体系的变更控制程序中予以明确。企业应设立量化的算法漂移监控阈值(如敏感度下降超 3%),一旦触发,重训过程必须遵循设计开发控制程序,并重新运行所有锁定的测试集进行回归测试,确认没有引入新的风险。
对于无监督学习(Unsupervised Learning)算法,FDA目前如何评估其GMLP合规性?
目前在临床获批的 AI 医疗器械中,几乎所有算法均为监督学习或结果可预测的黑箱模型。FDA对实时、无监督的在线学习算法持极其谨慎的态度。如果是无监督学习,企业必须提供更加严苛的实时防护栏(Guardrails)机制,确保算法的瞬时输出不会偏离已验证的临床安全边界。
用于训练模型的开源数据集(如ImageNet或MIMIC-IV),其合规性如何得到QMS的认可?
开源数据集在符合GMLP时,必须被视作“外购软件组件(SOUP)”或“外协服务”进行控制。企业需要对其数据源的法律合规性(如患者隐私脱敏授权、商业使用许可)进行评估,并对开源数据集中的标注质量进行回溯性抽样质控,记录在设计开发文档中。
GMLP的十条原则中,哪一条是中国企业最容易在FDA现场审计(Inspection)中不合格的?
在很大程度上,最容易不合格的是原则 4(训练集与测试集独立性)以及多学科团队的持续培训记录(原则 1)。审计员会查阅算法部门的本地服务器权限记录和数据划分脚本文档,一旦发现测试集存在历史访问记录,或者数据清洗脚本中存在混淆,就会判定发生了“数据泄露”而开具不合格项。
参考资源
- FDA GMLP 官方指南: FDA Good Machine Learning Practice Recommendations — 提供了联合指导原则的官方全文与实施背景说明。
- 英国 MHRA 联合指南: MHRA Joint Guiding Principles for GMLP — 详细阐述了英国监管机构对机器学习医疗器械在英国市场准入的期望。
- IMDRF 人工智能医疗器械指南: IMDRF AI-enabled Medical Devices Guidance — 国际医疗器械监管机构论坛关于人工智能算法监管名词与验证框架的共识文件。