AI医疗器械上市后真实世界性能监测：模型漂移、PCCP边界与投诉触发机制

AI医疗器械的"保质期"问题

传统医疗器械的性能在获批那一刻基本定格——金属支架不会自己变形，监护仪的算法也相对固定。但AI医疗器械不同。一个2024年获批的AI辅助影像诊断模型，部署到三甲医院和基层卫生院后面对的患者人群、影像设备参数、扫描协议都可能和训练数据不同。半年后，模型的灵敏度可能悄无声息地从95%滑到88%，而临床医生完全察觉不到。

这不是假设。FDA在2025年9月发布的公开征求意见（Docket No. FDA-2025-N-4203）中明确指出："AI系统性能可能因临床实践、患者人口学特征、数据输入、医疗基础设施等因素的变化而受到影响。这类变化——通常被称为数据漂移（data drift）、概念漂移（concept drift）或模型漂移（model drift）——可能导致性能退化、偏差或可靠性降低。"

截至2025年底，FDA已授权1,451台AI医疗器械，其中2025年单年批准295台。约62%为纯软件（SaMD），放射影像类占76%。这些产品中只有约10.2%在获批时提交了预设变更控制计划（PCCP）。换言之，近90%的AI医疗器械目前没有任何预先定义的模型更新路径。

在这篇文章里，我们把AI医疗器械上市后性能监测的实操问题拆开讲：模型漂移到底怎么检测、偏差在什么层面算出问题、投诉和CAPA怎么和模型监控挂钩、PCCP边界在哪里、以及什么情况下必须重新申报。

FDA对AI医疗器械上市后监管的三层架构

FDA当前对AI医疗器械的上市后监管并非单一框架，而是由三个正在演进的层级叠加而成。

第一层：QSR/QMSR基线要求。 所有医疗器械（包括AI设备）都必须遵守质量体系法规。2026年2月起，QSR将被QMSR取代，与ISO 13485:2016对齐。这意味着设计控制、风险管理、CAPA、投诉处理等要求同样适用于AI模型。但坦率讲，QMSR本身并没有针对AI的特殊条款——它是一般性的质量体系框架。

第二层：PCCP框架。 2024年12月FDA发布了PCCP最终指南（2025年8月更新），允许制造商在原始申报中预先定义AI模型的变更计划。如果FDA授权了PCCP，制造商可以按照计划实施模型更新而无需新的上市申报。PCCP包含三个必须组件：变更描述（Description of Modifications）、变更协议（Modification Protocol）和影响评估（Impact Assessment）。

第三层：真实世界性能监测要求（正在形成中）。 FDA在2025年1月发布了TPLC（全产品生命周期）AI设备指南草案，明确要求制造商描述上市后性能监测计划，包括追踪指标、数据来源和报告时间表。2025年9月的公开征求意见则进一步征求了对漂移检测方法的反馈。评论截止日为2025年12月1日。

监管层级	文件	状态	核心要求
质量体系基线	QMSR (21 CFR 820)	2026年2月生效	设计控制、风险管理、CAPA
预设变更控制	PCCP Final Guidance	2025年8月定稿	变更描述+协议+影响评估
生命周期管理	TPLC Draft Guidance	2025年1月草案	数据溯源、偏差分析、上市后监测
真实世界评估	Request for Comment	2025年9月征求意见	漂移检测方法、性能指标

这三层叠加的结果是：FDA不再把AI医疗器械获批视为终点，而是把它视为一个持续监控的起点。

模型漂移的四种类型与检测方法

模型漂移不是一个单一概念。根据FDA的分类和业界实践，至少有四种不同类型的漂移需要分别监控。

输入数据漂移（Data Drift）

输入数据的统计分布发生变化。举例来说，训练集中70岁以上患者占15%，但部署后发现实际人群中70岁以上占30%。影像设备升级后，CT影像的噪声模式可能发生改变。

检测方法：使用统计检验（如Kolmogorov-Smirnov检验、Population Stability Index）定期比较实时输入数据与训练数据的分布。PSI > 0.25通常被视为显著漂移。

概念漂移（Concept Drift）

输入特征与输出标签之间的关系发生了变化。例如，某种疾病的影像学表现因为治疗手段进步而发生了改变，使得旧模型的判断逻辑不再适用。

检测方法：跟踪模型预测与临床实际结果的一致性。对有标签可用的场景，计算AUC、灵敏度、特异度的时间趋势；对无标签场景，监测预测置信度的分布变化。

上游系统漂移

上游设备或数据管道的变化间接影响了AI模型的输入。比如DICOM header格式变更、影像采集协议调整、或数据压缩算法更换。

检测方法：记录并跟踪上游系统的所有变更，建立输入数据的元数据监控（如图像分辨率、像素深度、信噪比等关键参数的统计控制图）。

使用场景漂移

临床使用方式发生变化，超出了原始预期用途。比如一个原设计用于筛查的AI工具被临床医生当作诊断确认工具使用，或者用于原训练数据未覆盖的病种。

检测方法：定期收集用户反馈和使用日志，分析输入病例的病种分布、严重程度分布是否偏移。这需要临床团队的参与，不能只靠数据团队完成。

漂移类型	典型信号	推荐检测频率	检测工具
输入数据漂移	PSI > 0.25	月度	PSI、KS检验、卡方检验
概念漂移	AUC下降 > 2%	季度	滚动窗口AUC、校准曲线
上游系统漂移	元数据异常	实时/每次变更	统计控制图、变更日志
使用场景漂移	病种/严重度偏移	半年度	使用日志分析、用户调研

亚组性能监控：偏差不只在整体数据里

FDA在2025年1月的TPLC草案指南中特别强调了亚组性能分析的重要性。单纯报告整体AUC为0.95可能掩盖了某个亚组只有0.78的现实。

必须监控的亚组维度

FDA建议至少从以下维度拆分性能数据：

年龄组： pediatric vs. adult vs. geriatric
性别：男/女/其他
种族/族裔：FDA尤其关注这一点，因为训练数据的代表性偏差是已知问题
疾病严重程度：早期 vs. 中期 vs. 晚期
设备/站点：不同医院、不同影像设备品牌
地理位置：城市 vs. 乡村，不同国家/地区

实操建议

建立亚组性能仪表盘，设定每个亚组的最低性能阈值。当某个亚组的灵敏度或特异度跌破预设阈值时，自动触发告警和调查流程。阈值的设定需要结合临床影响——比如对于致死性疾病的筛查工具，灵敏度阈值的裕量要比特异度更严格。

FDA在2025年的公开征求意见中提到了一个值得关注的经验：糖尿病视网膜病变筛查AI的试点项目显示，当患者人群从训练集的城市三甲医院扩展到基层卫生院后，模型的假阴性率显著上升——因为基层影像质量参差不齐。这类发现只有通过真实世界持续监控才能捕获。

投诉与CAPA如何与模型监控挂钩

这是很多AI医疗器械团队的薄弱环节。传统医疗器械的投诉处理流程（接收、评估、调查、纠正措施）在AI产品上需要做关键调整。

投诉分类增加"模型性能相关"维度

在投诉接收阶段，除了传统的设备故障、使用错误等分类外，需要增加一个专门的分类维度来标记可能与AI模型性能相关的投诉。这包括但不限于：

临床医生报告"AI判断明显不准确"
假阳性/假阴性比例异常升高
特定类型病例判断失败
用户反馈AI对某类患者的表现系统性偏差

CAPA触发机制

不是所有性能波动都需要启动正式CAPA。建议建立三级触发机制：

观察级（Observation）：单个亚组性能指标出现一次性偏差，但未持续。记录并继续监控。

调查级（Investigation）：性能指标连续两个监测周期低于阈值，或收到3起以上与同一问题相关的投诉。启动正式调查，分析根因（数据问题？模型问题？使用场景变化？）。

CAPA级：调查确认存在系统性模型性能问题，影响患者安全或设备有效性。启动正式CAPA，评估是否需要模型更新、使用限制、或产品召回。

触发级别	触发条件	响应时限	输出物
观察	单次指标偏差	30天内记录	监控日志更新
调查	连续2周期低阈值 / 3起相关投诉	15天内启动	调查报告
CAPA	确认系统性问题	7天内启动	CAPA记录+纠正方案

这个三级机制的时限设定参考了21 CFR 803（医疗器械报告）和21 CFR 806（纠正和移除）的基本框架，但根据AI产品的特殊性做了调整。

PCCP的边界：哪些变更能自行处理，哪些必须重报

PCCP是FDA给出的"免重报"通道，但它有明确的边界。

PCCP覆盖范围内的变更

如果一个变更完全符合已授权PCCP中描述的变更类型、实施方法和验收标准，制造商可以在质量体系内自行实施。典型的PCCP内变更包括：

使用预先定义的训练数据更新流程进行模型再训练
在PCCP规定的性能阈值范围内调整算法参数
按照预定义的测试协议验证更新后的模型性能

超出PCCP范围的变更——必须重新申报

以下类型的变更几乎肯定超出PCCP范围，需要新的上市申报：

新的临床声称：比如原来获批用于"辅助检测"，现在想改为"辅助诊断"
新的适应症或患者人群：原来只用于成人，扩展到儿科
新的数据输入类型：原来只处理CT影像，增加MRI输入
性能超出PCCP定义的改进幅度：如果PCCP定义的模型更新预期灵敏度为90%-95%，但实际更新后达到98%，这可能超出PCCP授权范围
新的AI技术架构：从传统机器学习切换到深度学习，或从CNN换到Transformer

FDA在PCCP最终指南中提供了一个实际案例来说明边界：一个生理参数监测AI的PCCP授权了使用新数据重新训练模型以提高预警灵敏度。在再训练过程中，制造商发现更新后的模型可以比原始版本更早预测生理不稳定——这是一个新的临床能力，超出了PCCP的变更描述范围，需要新的上市申报。

决策流程

当发现需要模型变更时，建议按以下顺序判断：

变更是否在PCCP的"变更描述"范围内？
如果是，是否能按照PCCP的"变更协议"实施？
实施后，是否能通过PCCP的验收标准？
任何一个环节的答案为"否"，就需要评估是否需要新的510(k)、De Novo或PMA补充申请。

上市后监测计划的核心组件

一个完整的AI医疗器械上市后性能监测计划应包含以下核心组件。

1. 性能指标定义

明确需要持续追踪的指标清单。至少包括：

灵敏度（Sensitivity）/真阳性率
特异度（Specificity）/真阴性率
阳性预测值（PPV）和阴性预测值（NPV）
AUC-ROC
校准度（Calibration）
亚组层面的上述指标

2. 数据来源

真实世界数据的来源选择直接影响监测质量。常见来源包括：

医院EHR/EMR系统：提供临床结果标签
设备使用日志：记录模型输入输出
影像归档系统（PACS）：存储原始影像数据
临床登记数据库（Registry）：结构化的长期跟踪数据
投诉和不良事件数据：被动监测信号

FDA在2025年12月发布的RWE最终指南扩展了去标识化/聚合数据在器械监管决策中的使用，这意味着制造商可以建立不需要患者级别标识符的RWE数据管道来支持上市后监控。

3. 统计方法

漂移检测需要明确的统计方法学和触发阈值：

控制图法：对关键性能指标建立统计控制限（UCL/LCL）
CUSUM/EWMA：适用于检测小幅但持续的漂移
A/B测试：模型更新前后的性能对比
分层分析：按亚组分别计算性能指标

4. 报告和审查频率

根据产品风险等级确定监测频率：

产品类型	建议监测频率	报告对象
PMA/AI高风险设备	月度数据收集、季度报告	管理层审查 + FDA年报
De Novo AI设备	月度数据收集、半年度报告	管理层审查
510(k) AI设备	季度数据收集、年度报告	管理层审查
所有带PCCP的设备	每次PCCP变更后额外评估	质量体系记录

欧盟视角：EU AI Act对上市后监测的额外要求

欧盟AI Act对高风险AI系统（包括多数SaMD）设置了额外的上市后监测义务。

上市后监测计划（Post-Market Monitoring Plan）

EU AI Act第72条要求高风险AI系统的提供者建立并执行上市后监测计划。这个计划需要：

系统性地收集和分析AI系统在实际使用中产生的性能数据
评估AI系统是否在相关时间周期内持续符合要求
必要时采取纠正措施

严重事件报告（Serious Incident Reporting）

第73条要求提供者在意识到或应当意识到严重事件后，立即向市场监督当局报告。对于AI医疗器械，这意味着需要同时满足MDR第87条的严重事件报告和AI Act的AI特定报告要求。

MD诉苦处理（Complaint Handling）

提供者需要建立处理第三方关于AI系统风险的诉苦的流程。这在MDR第88条之外增加了AI特定的维度。

对中国AI医疗器械出海企业而言，EU AI Act的高风险义务从2027年8月起强制执行，需要提前规划合规资源。

中国NMPA对AI医疗器械上市后监管的态度

NMPA目前对AI医疗器械（尤其是独立软件）的上市后监管框架还在建设中。几个关键信号：

NMPA AI医疗器械审评要点要求提交算法鲁棒性和泛化能力的验证资料，但未明确要求持续监测
2025年发布的医疗器械注册变更指导原则对软件变更的分类框架可以参考
NMPA的医疗器械不良事件监测体系要求报告与产品相关的死亡和严重伤害事件

从实际操作层面，建议中国AI医疗器械企业在出口欧美市场时，按照FDA和EU的最高标准建立上市后监测体系。国内暂无强制要求不代表将来不会有——而且完善的监测数据本身也是产品竞争力的一部分。

实操SOP：从零搭建AI设备上市后性能监测体系

针对团队规模在10-50人的AI医疗器械企业，以下是一个可落地的SOP框架。

阶段一：基础设施搭建（1-2个月）

建立数据采集管道。在设备部署时即加入遥测模块，记录每次模型推理的输入特征统计量（不存储原始患者数据以保护隐私）、输出结果和置信度、以及可关联的临床结果标签。同时建立元数据字典，记录每个部署站点的设备型号、患者人群特征、临床使用模式。

阶段二：基线建立（3-6个月）

收集至少3个月的部署后数据，建立各性能指标的基线值和控制限。如果产品已获批时有临床研究数据，可以与真实世界数据进行对比——两者的差异本身就是有价值的信息。

阶段三：持续监控（长期）

按预定的监测频率执行数据收集和分析。每期生成监测报告，对比当前性能与基线。设置自动告警：任何指标超出控制限或连续两期低于阈值时触发邮件/消息通知。

阶段四：异常响应

按照前面描述的三级触发机制（观察→调查→CAPA）执行。关键是把模型性能异常纳入现有的CAPA体系，而不是作为单独的"技术问题"处理。

常见问题

AI医疗器械的模型性能监控和传统软件的版本管理有什么区别？

传统软件的版本管理关注功能正确性——代码逻辑不变，输出就不变。AI模型的"版本"则包含了数据和参数两个变量。即使代码完全相同，部署环境的变化（不同患者人群、不同影像设备）也可能导致输出不同。所以AI性能监控需要持续收集真实世界的输入输出数据，而不是只在发版时做一次回归测试。

如果我们没有PCCP，模型更新怎么办？

没有PCCP意味着任何可能影响设备安全性或有效性的模型变更都需要新的上市申报（新的510(k)、De Novo或PMA补充）。FDA在PCCP最终指南中明确鼓励制造商在原始申报中就包含PCCP。如果你的产品已经获批但没有PCCP，可以考虑通过补充申报来增加PCCP。

模型漂移检测需要多少数据才算有统计意义？

这取决于你追踪的指标和漂移幅度。作为粗略指引：对于灵敏度/特异度这类二分类指标，如果使用95%置信区间，每个监测周期至少需要100-200个有标签的样本才能检测到3-5个百分点的漂移。对于罕见事件或亚组分析，可能需要更长的监测周期来积累足够的样本量。

投诉数据不足以支撑统计监控怎么办？

这是常见问题，尤其是对于新上市或用户量小的产品。建议采用"定量+定性"双轨策略：定量方面使用所有可获得的性能数据做趋势分析；定性方面主动与关键用户（KOL站点）建立定期反馈机制。即使投诉数量不足以做统计分析，系统性的用户访谈也能提供早期预警信号。

EU AI Act的上市后监测和MDR的上市后监督有什么关系？

EU AI Act第72条的上市后监测计划可以与MDR的PMS计划整合。对于AI医疗器械，建议在现有MDR PMS计划的基础上增加AI特定的监控要素（如模型性能指标、漂移检测机制、训练数据代表性评估）。不需要维护两套完全独立的体系，但需要确保两套要求都被覆盖。

什么时候应该考虑主动召回AI医疗器械？

当上市后监测发现以下情况时应认真评估是否需要召回：模型在关键亚组的性能持续低于安全阈值，且无法通过PCCP范围内的更新修复；发现了在原始审批时未识别到的系统性安全风险；真实世界数据显示模型的临床净效果为负。召回决策应基于MDR第89条/FDA 21 CFR 806的框架，同时考虑模型性能数据提供的证据。

对中国AI医疗器械出海企业的建议

FDA正在从"一次审批"模式转向"全生命周期"监管模式。这对中国AI医疗器械企业意味着：

注册阶段就要考虑上市后。 在准备FDA申报资料时，即使不提交PCCP，也建议在质量体系文件中包含上市后性能监测计划的基本框架。FDA审评员会关注你对产品生命周期的理解。

数据架构先行。 在产品开发阶段就要建立数据采集和监控的技术基础。等到产品获批后再加监测功能，技术债务和合规成本都会大幅增加。

建立跨职能团队。 AI性能监测不是纯技术问题——它需要数据科学家定义指标和检测方法、临床专家判断性能变化的意义、质量团队管理CAPA流程、注册团队评估变更是否需要申报。缺少任何一个环节都可能导致漏检或误判。

不要低估亚组分析的重要性。 中国AI医疗器械企业在海外的部署规模通常较小，但小规模部署恰恰更需要关注亚组问题——因为训练数据几乎都是中国的，部署到欧美后的人群代表性偏差可能更严重。

参考FDA在2025年9月公开征求意见中的表述：FDA希望了解"当前在大规模真实世界临床环境中部署的方法"、"由真实世界证据支持的方法"以及"在临床环境中应用的方法"。这三个关键词指向的是一个明确信号——FDA在为未来的强制要求收集基础信息。

现在就搭建好监测体系的企业，在未来监管收紧时将处于有利位置。