legacy器械转MDR认证,PMCF怎么安排,大概是企业问得最多也最头疼的问题。对于Class IIa甚至部分IIb的低风险legacy器械来说,产品已经在市场上卖了十几年、几十年,安全记录摆在那里,再去做一个全新的大规模前瞻性临床调查,怎么看都不合理。
这时候,PMCF问卷/调查研究(survey/questionnaire study)就成了一个务实的选项。成本低、执行快、对临床中心的要求低,能在合理时间内产出能用的临床数据。但问题在于:公告机构(Notified Body, NB)对PMCF问卷的审核标准近几年明显收紧了。随手发个问卷、收回几十份、写个报告交上去,大概率被打回来。
这篇文章只讲一个问题:低风险legacy器械的PMCF问卷研究,到底怎么设计才能让公告机构接受。
一、为什么问卷研究对低风险legacy器械尤其重要
1.1 legacy器械的临床证据困境
legacy器械是指那些在MDD(93/42/EEC)或AIMDD(90/385/EEC)下获得CE证书、正在利用MDR Article 120(3)过渡条款延期销售的器械。根据MDCG 2021-25 Rev.1(2024年10月修订版),legacy器械必须遵守MDR关于PMS、PMCF和临床评价的所有要求。
问题在于,很多legacy器械最初的MDD认证是基于等同器械数据(equivalence data),而不是自己产品的临床数据。到了MDR时代,等同性论证的门槛大幅提高(MDR Article 61(5)要求与等同器械制造商有合同授权),过去那些"借"来的数据不能继续用了。结果就是,企业需要为已经上市多年的产品补上临床数据的缺口。
1.2 为什么问卷比临床调查更适合低风险legacy器械
先看一个PMCF方法分级表,数据强度从高到低排列:
| PMCF方法 | 数据强度 | 成本量级 | 适用场景 | 典型执行周期 |
|---|---|---|---|---|
| 前瞻性临床调查(Clinical Investigation) | 高 | 30-100万+欧元 | 高风险器械、新发现的安全性信号 | 2-5年 |
| 注册登记研究(Registry) | 中高 | 15-50万欧元 | 植入器械、长期随访需求 | 3-7年 |
| 真实世界证据(RWE)分析 | 中 | 5-20万欧元 | 有现有数据库可利用 | 1-2年 |
| 问卷/调查研究(Survey) | 中低 | 3-10万欧元 | 低风险legacy器械、安全记录充分 | 6-18个月 |
| 文献综述更新(Literature Review) | 低 | 1-3万欧元 | 辅助证据来源 | 2-6个月 |
对于Class IIa的legacy器械——比如普通外科器械、低风险敷料、常规检查手套——产品已经安全使用了很长时间,不良反应记录很少。这种情况下,要求企业做前瞻性临床调查是不成比例的。MedTech Europe在2025年10月的立场文件也明确指出了这一点:NB不应该默认要求所有器械都做PMCF临床调查,而应该基于风险采取相称的PMCF活动。
问卷研究处于数据强度分级的中低位置,但对低风险legacy器械来说,它往往是性价比最优的选择。关键是要把问卷设计得足够严谨,让NB认可其科学性。
二、PMCF问卷研究的法规依据与NB期望
2.1 核心法规条款
MDR对PMCF的要求散布在几个关键位置:
- Annex XIV Part B:规定了PMCF计划的必须内容和方法,是PMCF的直接法律依据
- Article 61:临床评价通则,明确了PMCF数据是临床证据的组成部分
- Article 84:PMS计划必须包含PMCF安排
- Article 86:PSUR中必须反映PMCF的主要发现
MDCG 2020-7提供了PMCF计划模板,MDCG 2020-8提供了PMCF评估报告模板。这两个文件虽然不具法律约束力,但NB几乎全部参照执行。
2.2 NB对PMCF问卷的可追溯性期望
NB审查PMCF计划时,最看重的不是问卷本身有多复杂,而是整个证据链条的逻辑完整性。他们期望看到的是一条清晰的可追溯矩阵:
临床评价报告(CER)中的证据缺口/剩余风险
→ 风险管理文件中的具体风险条目
→ PMCF计划中针对这些风险的具体活动
→ 问卷设计中的具体endpoint和问题
→ PMCF报告中的数据分析和结论
→ CER更新的闭环
任何一个环节脱节——比如问卷里的问题和CER中的证据缺口对不上——都会被NB质疑。这不是理论上的要求,而是我们在实际项目中反复遇到的审核意见。
三、问卷endpoint设计:从证据缺口到可量化的研究终点
3.1 endpoint必须对应CER中的具体缺口
这是问卷设计的第一步,也是企业最容易出错的一步。endpoint不是凭空想出来的,而是从CER的风险-收益分析和证据缺口分析中"长"出来的。
举个例子。一家企业生产外科缝合线(Class IIa legacy器械),CER中的证据缺口分析可能指向以下几个问题:
| CER证据缺口 | 对应的PMCF endpoint | 问卷中的体现 |
|---|---|---|
| 长期使用中缝线断裂率的真实世界数据不足 | 缝合后30天内缝线断裂发生率 | "术后随访期内是否观察到缝线断裂?"(是/否,记录时间) |
| 特定组织类型中的性能数据有限 | 不同组织类型中的缝合可靠性评分 | "请评估以下组织类型中的缝合可靠性:皮肤/筋膜/内脏浆膜层"(Likert 1-5分) |
| 感染风险数据主要来自文献,缺少自产品数据 | 缝合相关感染发生率 | "术后是否出现缝合部位感染?"(是/否,感染分级) |
| 使用者对产品操作性的反馈不足 | 器械操作便利性评分 | "手感、打结安全性、组织穿越顺畅度"(Likert 1-5分) |
每个endpoint都应该是可量化、可统计分析的。NB不接受"整体满意度不错"这种模糊结论。
3.2 区分临床endpoint和满意度指标
这里有一个特别常见的坑:客户满意度问卷不等于PMCF问卷。
NB的审核员对此非常敏感。如果你的PMCF问卷里全是"您对本产品是否满意"、"您是否愿意推荐本产品"之类的问题,大概率会被认定为"客户满意度调查"而非"PMCF临床数据收集",然后整份报告被退回。
两类指标的核心区别在于:
| 维度 | 客户满意度调查 | PMCF问卷 |
|---|---|---|
| 目的 | 商业评估、市场反馈 | 确认临床安全性和性能 |
| 指标性质 | 主观偏好 | 客观或半客观的临床测量 |
| 分析方法 | 描述性统计为主 | 预设endpoint、预设统计分析计划 |
| 接受标准 | 无硬性标准 | 预设定量接受标准 |
| NB认可度 | 不认可为PMCF证据 | 可作为PMCF证据(设计合理时) |
3.3 设定预设的接受标准(Acceptance Criteria)
每个主要endpoint都需要一个预设的接受标准。这并不是说你要把标准设得多高,而是要让NB看到你有明确的评判依据。
比如缝合线的例子:
- 缝线断裂率:预设接受标准 <2%(基于文献中同类产品的断裂率范围1%-3%)
- 缝合部位感染率:预设接受标准 <5%(基于CDC手术部位感染指南中的参考值)
- 操作便利性评分:预设平均评分 >3.5/5.0(基于同品类上市后数据的经验值)
接受标准的设定需要有文献依据或历史数据支撑,不能拍脑袋。
四、样本量计算:不能靠"凑够数就行"
4.1 样本量的统计学基础
NB对PMCF问卷最常见的驳回理由之一就是样本量缺乏统计学依据。很多企业提交的PMCF计划里写着"计划收集100份问卷",问为什么是100份,回答是"之前别人也是这么做的"。这种回答在NB看来等于没有回答。
样本量计算需要以下输入参数:
- 主要endpoint的预期表现值(expected performance):基于文献或历史数据
- 接受标准/零假设值(null hypothesis value):你认为"不可接受"的阈值
- 统计检验的显著性水平(alpha):通常取0.05(双侧)或0.025(单侧)
- 统计功效(power):通常取80%(beta = 0.20)
举个例子。假设你的缝合线PMCF问卷主要endpoint是"术后30天内缝线断裂发生率",文献中的同类产品断裂率约为1.5%,你设定的接受标准是断裂率 <3%。
使用单侧精确二项检验(exact binomial test),alpha=0.025,power=80%,预期断裂率1.5%,零假设断裂率3%,计算得到的样本量约为586个观察样本。如果你预期的问卷回收率是60%,那么需要发放约976份问卷。
这个计算过程必须在PMCF计划中完整呈现,包括使用的统计软件或公式、输入参数的来源依据。Purdie Pascoe在2025年发表的文章中也强调了这个要点:预期表现值与接受标准之间的差距越大,所需的样本量反而越小。
4.2 不同endpoint的样本量策略
实际操作中,PMCF问卷往往包含多个endpoint。这时候怎么处理?
| 场景 | 建议策略 |
|---|---|
| 单一主要endpoint + 多个次要endpoint | 以主要endpoint的样本量为准,次要endpoint的样本量作为参考 |
| 多个主要endpoint | 取各endpoint计算结果中的最大值,或使用Bonferroni校正调整alpha |
| 安全性endpoint + 性能endpoint | 分别计算,取较大者 |
| 分层分析需求(如按术式分组) | 每个分层都要满足最低样本量 |
4.3 实际执行中的回收率考量
问卷研究有个特殊问题:发放数量不等于回收数量,回收数量不等于有效数量。在设计阶段就要把回收率和有效率纳入计划:
- 医疗机构HCP问卷的典型回收率:30%-70%,取决于机构和产品类型
- 患者问卷的典型回收率:20%-50%
- 有效率(排除不完整或不符合纳入标准的):通常85%-95%
发放量 = 目标样本量 /(回收率 x 有效率)。这个计算必须写在PMCF计划里。
五、偏倚控制:问卷研究最容易被质疑的环节
5.1 常见偏倚类型及控制措施
问卷研究的固有局限在于数据收集的非干预性,偏倚来源比临床调查更多。NB在审核时会重点关注以下几类偏倚:
| 偏倚类型 | 在PMCF问卷中的表现 | 控制措施 |
|---|---|---|
| 选择偏倚 | 只向"友好"医院发问卷,或只选择已知使用效果好的中心 | 预先定义参与中心的纳入标准,多中心取样,避免仅便利抽样 |
| 信息偏倚 | 问题措辞引导性太强,如"您是否认为本产品安全有效?" | 使用中性措辞,避免双重问题,问题顺序随机化 |
| 回忆偏倚 | 要求HCP回忆数月前的使用细节 | 缩短回忆时间窗口,或采用实时记录代替回顾性填写 |
| 报告偏倚 | 不良事件报告不完整,只填正常使用的结果 | 确保问卷包含不良事件部分,明确"所有使用经历"均需报告 |
| 无应答偏倚 | 不满意的用户更可能不回复,导致结果偏向正面 | 记录无应答者的基本信息(至少中心级别),分析应答者与无应答者的差异 |
5.2 问卷设计与验证
一份NB能接受的PMCF问卷,不能是临下班前花半小时写的。问卷本身需要经过设计、评审和预测试三个阶段:
设计阶段:由具备临床背景的人员起草问题,每道题都要对应一个具体的endpoint或安全性参数。避免开放式问题占主导——虽然开放式问题能收集到意外的信息,但不利于统计分析。建议以封闭式问题(是/否、Likert量表、数值范围)为主,辅以少量开放式问题。
评审阶段:请至少2-3名未参与起草的临床专家审阅,评估内容效度(content validity)——问题是否真正在测量你想测量的临床参数。
预测试阶段(pilot test):在小范围(5-10名目标受访者)进行预调查,检验问题的可理解性、填写时间、是否存在歧义。预测试的结果和修订记录要保留,NB可能要求查看。
六、比较器的选择与基准数据的建立
6.1 问卷研究要不要设比较器
很多企业问:PMCF问卷研究是不是只收集自己产品的数据就够了?
严格来说,MDR没有明确要求PMCF研究必须设置对照组或比较器。但NB在审核时会期望你把产品的表现放在一个可参考的框架里来评判——这就是比较器或基准数据的作用。
对于低风险legacy器械的问卷PMCF,比较器可以有以下几种选择:
| 比较器类型 | 说明 | 适用场景 |
|---|---|---|
| 文献基准(Literature Benchmark) | 从系统文献综述中提取同类产品的安全性和性能数据作为参考 | 最常用,适合大多数低风险legacy器械 |
| 企业历史数据(Historical Data) | 企业自身产品过去的PMCF数据、投诉数据、PMS数据 | 有足够历史数据积累的legacy器械 |
| 替代疗法/标准治疗(Standard of Care) | 当前临床实践中用于相同适应证的标准治疗方案 | 产品定位为替代或改进现有方案的器械 |
| 注册登记数据(Registry Data) | 来自行业或学术注册登记的公开数据 | 有可用的相关注册登记时 |
最实际的做法是结合CER中的SOTA(State of the Art)分析,把文献中报告的同类产品安全性和性能指标提取出来,作为你问卷数据的比较基准。你在CER阶段做文献检索时,就已经收集了这些数据,不需要重复工作。
6.2 如何在问卷报告中呈现比较结果
比较结果不需要做严格的统计检验(你的问卷毕竟不是RCT),但需要有定量的对比呈现。比如:
本产品在PMCF问卷中报告的缝线断裂率为1.2%(95% CI: 0.5%-2.3%),低于预设接受标准3.0%,与文献报告的同类产品断裂率范围(1.0%-2.8%)一致。
这种表述方式清晰、有数据支撑、便于NB审核。避免写"我们的产品和文献中的差不多"这种模糊说法。
七、随访时机与数据收集策略
7.1 随访时间点的设定依据
PMCF问卷研究的随访时间点不能随意定。它取决于几个因素:
- 产品的预期使用寿命:临时性器械(如缝线、导管)的随访窗口较短,通常为数周至数月;长期植入物则需要数年的随访
- CER中识别的风险特征:如果CER指出某种迟发性风险,随访时间必须覆盖该风险可能出现的时间窗口
- 临床实践中的标准随访模式:随访时间点应与该类产品的标准临床随访节点一致,便于HCP填写
对于低风险legacy器械,常见的随访设计:
| 器械类型 | 建议随访时间点 | 理由 |
|---|---|---|
| 外科缝合线/敷料 | 使用后7-30天 | 覆盖急性并发症窗口 |
| 检查手套/防护类 | 即时(使用后当场或当天) | 一次性使用,无长期风险 |
| 低风险电子诊断设备 | 使用后即时 + 3个月 | 评估操作性能和初步可靠性 |
| 牙科耗材 | 使用后7天 + 3个月 | 覆盖短期反应和中期性能 |
7.2 数据收集方式的选择
PMCF问卷的数据收集方式直接影响数据质量和NB的认可度:
| 收集方式 | 优点 | 缺点 | NB认可度 |
|---|---|---|---|
| 电子问卷(eCRF/在线平台) | 数据结构化、可审计追踪、减少录入错误 | 需要IT基础设施 | 高 |
| 纸质问卷 + 双人录入 | HCP接受度高、不需额外设备 | 数据录入工作量大、易出错 | 中 |
| 电话/面对面访谈 | 可追问细节、数据更丰富 | 标准化程度低、访谈者偏倚 | 中(需标准化访谈提纲) |
建议使用电子数据采集系统(eCRF),一方面数据质量有保障,另一方面NB审核时可以提供完整的审计追踪(audit trail),证明数据的真实性和完整性。
八、公告机构最容易驳回PMCF问卷的五种情况
根据我们对接多家NB的实操经验,以下五种情况是PMCF问卷被驳回的高发区域。
8.1 驳回原因一:问卷与CER证据缺口没有关联
NB的典型审核意见:"The PMCF plan does not address the residual risks identified in the clinical evaluation."(PMCF计划未解决临床评价中识别的剩余风险。)
这个问题的根源在于,企业在设计问卷时没有回到CER去看"到底缺什么数据"。常见表现:
- CER中说"长期安全性数据不足",但问卷只问了使用时的即时感受
- CER中提到了某个特定的剩余风险,但问卷里连相关问题都没有
- 问卷收集了一堆数据,但没有一个能直接回答CER中提出的临床问题
对策:设计问卷前,先做一张"证据缺口-问卷问题"映射表(gap-question mapping),确保CER中每一条证据缺口都有对应的问卷问题来收集数据。把这张表放在PMCF计划的附件里,NB一看就明白问卷的逻辑。
8.2 驳回原因二:样本量没有统计学依据
NB的典型审核意见:"No statistical justification for the sample size has been provided."(未提供样本量的统计学依据。)
"我们打算收100份"或者"上一次也是收这么多"不算统计学依据。NB要看的是:你用什么统计方法、输入了什么参数、得出了什么结果。
对策:在PMCF计划中单列一个"样本量计算"章节,包含统计假设、参数设定、计算公式/软件、计算过程和结论。使用的统计方法要和endpoint类型匹配(二分类endpoint用精确二项检验,连续endpoint用t检验或非参数方法等)。
8.3 驳回原因三:缺少预设的接受标准
NB的典型审核意见:"Acceptance criteria for the endpoints are not defined."(未定义endpoint的接受标准。)
如果问卷只有endpoint定义而没有预设的"什么结果算通过、什么结果算不通过",NB无法判断你的PMCF数据是否足以确认产品的安全性和性能。
对策:为每个主要endpoint设定量化的接受标准,并标注标准的来源(文献值、法规限值、历史数据等)。接受标准要在数据收集开始前确定——事后根据数据结果来"调"标准是违背科学原则的。
8.4 驵回原因四:偏倚控制措施缺失
NB的典型审核意见:"Potential sources of bias have not been identified or addressed."(未识别或处理潜在的偏倚来源。)
问卷研究的固有局限性NB心里清楚,他们不会因为问卷存在偏倚就直接否定。但如果你的PMCF计划中对偏倚问题完全不予讨论,NB会认为你不够专业。
对策:在PMCF计划中增加一个"偏倚评估"章节,按偏倚类型逐一分析你的问卷设计可能存在哪些偏倚,以及你采取了哪些控制措施。即使某些偏倚无法完全消除,坦诚地讨论也比假装不存在要好得多。
8.5 驳回原因五:数据分析计划不明确
NB的典型审核意见:"The statistical analysis plan is not defined."(未定义统计分析计划。)
问卷收回来之后怎么分析?用什么统计方法?缺失数据怎么处理?亚组分析怎么做?这些都要在PMCF计划阶段就明确写好,而不是数据收完后再决定。
对策:在PMCF计划中包含一个完整的统计分析计划(Statistical Analysis Plan, SAP),至少覆盖:
- 分析人群定义(全分析集、符合方案集)
- 主要endpoint的分析方法
- 次要endpoint的分析方法
- 缺失数据处理策略
- 亚组分析计划(如有)
- 安全性数据的汇总方法
FAQ:PMCF问卷研究的常见问题
Q1:我们的legacy器械是Class I(非灭菌、非测量、非重复使用),需要做PMCF吗?
Class I器械在MDR下属于最低风险等级,PMCF并非强制要求。但你需要CER中论证为什么不需要PMCF——不能只是"因为是Class I所以不需要",而要基于你的证据缺口分析说明现有临床数据已经充分。如果CER中确实没有剩余风险或未解决的问题,一份简短的"no PMCF justification"就够了。
Q2:问卷的受访者应该是HCP还是患者?
取决于你的产品和研究目标。对于大多数legacy医疗器械,HCP(医师、护士、技师)是更合适的受访者——他们有临床判断能力,能评估产品的临床性能和安全性。患者问卷更适合评估生活质量、症状改善等以患者为中心的endpoint。如果产品由患者自行使用(如家用血压计),则患者问卷更合理。
Q3:PMCF问卷的数据能用来支撑新的临床声明(claim)吗?
不能。PMCF的目的是确认现有临床评价中的安全性和性能声明,不是产生新的临床声明。如果你想扩展适应证或增加新的性能声明,需要单独的临床调查数据来支撑。PMCF问卷中发现的有意思的信号可以作为未来研究的方向,但不能直接写入IFU作为新claim。
Q4:文献综述可以替代PMCF问卷吗?
文献综述是PMCF活动的一种,但它通常不能单独作为唯一的PMCF活动——特别是对于legacy器械。原因是文献中的数据大多来自其他产品,不能完全代表你自己产品的真实世界表现。NB通常期望看到"文献综述 + 其他PMCF活动"的组合。问卷研究就是一种很好的"其他PMCF活动",与文献综述形成互补。
Q5:PMCF问卷需要伦理审批吗?
取决于问卷的设计和所在国家的法规。如果问卷是回顾性的、匿名的、不涉及额外的医疗干预,大多数EU成员国不需要伦理委员会审批。但部分国家(如德国、法国)的要求更严格,可能需要伦理委员会的意见或豁免信。建议在PMCF计划中明确说明伦理审批的状态,并保留相关文件备查。
Q6:问卷数据收集完成后,多长时间内需要完成PMCF评估报告?
MDR没有规定具体的时间限制。但根据MDCG 2020-8的PMCF评估报告模板,报告应在数据收集完成后"及时"完成。从实际操作角度,建议在最后一次数据录入后3-6个月内完成PMCF评估报告,并将结论更新到CER中。如果间隔太长,NB可能质疑数据的新鲜度。
Q7:我们的产品在多个EU成员国销售,问卷是否需要覆盖所有市场?
不要求覆盖所有市场,但需要在PMCF计划中解释选择特定国家/中心的原因。如果产品只在1-2个国家使用量较大,集中在这几个国家收集数据是合理的。关键是要确保样本具有代表性,不要只在企业"关系最好"的那家医院收集数据。
参考资源
- MDR 2017/745 全文 — 欧盟医疗器械法规原文,Article 61、Annex XIV Part B为PMCF核心条款
- MDCG 2020-7 PMCF计划模板 — PMCF计划撰写的官方参考模板
- MDCG 2020-8 PMCF评估报告模板 — PMCF评估报告的官方参考模板
- MDCG 2021-25 Rev.1 legacy器械要求 — legacy器械需遵守的MDR要求清单(2024年10月修订)
- MedTech Europe 2025年11月PMCF立场文件 — 行业协会关于PMCF应基于风险采取相称措施的建议
- MDCG 2020-6 临床证据充分性指南 — PMCF数据在临床证据体系中的定位
- Purdie Pascoe: High quality PMCF surveys under the EU MDR — Journal of Medical Device Regulation 2025年发表的PMCF问卷设计方法论文章