← 返回首页

低风险legacy器械的PMCF问卷研究怎么设计才不会被公告机构驳回

EU MDR下低风险legacy器械PMCF问卷研究的设计要点:endpoint选择、样本量计算、偏倚控制、比较器设定、随访时机,以及公告机构最容易驳回的五种问卷缺陷。

陈然
陈然最后更新:

legacy器械转MDR认证,PMCF怎么安排,大概是企业问得最多也最头疼的问题。对于Class IIa甚至部分IIb的低风险legacy器械来说,产品已经在市场上卖了十几年、几十年,安全记录摆在那里,再去做一个全新的大规模前瞻性临床调查,怎么看都不合理。

这时候,PMCF问卷/调查研究(survey/questionnaire study)就成了一个务实的选项。成本低、执行快、对临床中心的要求低,能在合理时间内产出能用的临床数据。但问题在于:公告机构(Notified Body, NB)对PMCF问卷的审核标准近几年明显收紧了。随手发个问卷、收回几十份、写个报告交上去,大概率被打回来。

这篇文章只讲一个问题:低风险legacy器械的PMCF问卷研究,到底怎么设计才能让公告机构接受。

一、为什么问卷研究对低风险legacy器械尤其重要

1.1 legacy器械的临床证据困境

legacy器械是指那些在MDD(93/42/EEC)或AIMDD(90/385/EEC)下获得CE证书、正在利用MDR Article 120(3)过渡条款延期销售的器械。根据MDCG 2021-25 Rev.1(2024年10月修订版),legacy器械必须遵守MDR关于PMS、PMCF和临床评价的所有要求。

问题在于,很多legacy器械最初的MDD认证是基于等同器械数据(equivalence data),而不是自己产品的临床数据。到了MDR时代,等同性论证的门槛大幅提高(MDR Article 61(5)要求与等同器械制造商有合同授权),过去那些"借"来的数据不能继续用了。结果就是,企业需要为已经上市多年的产品补上临床数据的缺口。

1.2 为什么问卷比临床调查更适合低风险legacy器械

先看一个PMCF方法分级表,数据强度从高到低排列:

PMCF方法数据强度成本量级适用场景典型执行周期
前瞻性临床调查(Clinical Investigation)30-100万+欧元高风险器械、新发现的安全性信号2-5年
注册登记研究(Registry)中高15-50万欧元植入器械、长期随访需求3-7年
真实世界证据(RWE)分析5-20万欧元有现有数据库可利用1-2年
问卷/调查研究(Survey)中低3-10万欧元低风险legacy器械、安全记录充分6-18个月
文献综述更新(Literature Review)1-3万欧元辅助证据来源2-6个月

对于Class IIa的legacy器械——比如普通外科器械、低风险敷料、常规检查手套——产品已经安全使用了很长时间,不良反应记录很少。这种情况下,要求企业做前瞻性临床调查是不成比例的。MedTech Europe在2025年10月的立场文件也明确指出了这一点:NB不应该默认要求所有器械都做PMCF临床调查,而应该基于风险采取相称的PMCF活动。

问卷研究处于数据强度分级的中低位置,但对低风险legacy器械来说,它往往是性价比最优的选择。关键是要把问卷设计得足够严谨,让NB认可其科学性。

二、PMCF问卷研究的法规依据与NB期望

2.1 核心法规条款

MDR对PMCF的要求散布在几个关键位置:

  • Annex XIV Part B:规定了PMCF计划的必须内容和方法,是PMCF的直接法律依据
  • Article 61:临床评价通则,明确了PMCF数据是临床证据的组成部分
  • Article 84:PMS计划必须包含PMCF安排
  • Article 86:PSUR中必须反映PMCF的主要发现

MDCG 2020-7提供了PMCF计划模板,MDCG 2020-8提供了PMCF评估报告模板。这两个文件虽然不具法律约束力,但NB几乎全部参照执行。

2.2 NB对PMCF问卷的可追溯性期望

NB审查PMCF计划时,最看重的不是问卷本身有多复杂,而是整个证据链条的逻辑完整性。他们期望看到的是一条清晰的可追溯矩阵:

临床评价报告(CER)中的证据缺口/剩余风险
    → 风险管理文件中的具体风险条目
        → PMCF计划中针对这些风险的具体活动
            → 问卷设计中的具体endpoint和问题
                → PMCF报告中的数据分析和结论
                    → CER更新的闭环

任何一个环节脱节——比如问卷里的问题和CER中的证据缺口对不上——都会被NB质疑。这不是理论上的要求,而是我们在实际项目中反复遇到的审核意见。

三、问卷endpoint设计:从证据缺口到可量化的研究终点

3.1 endpoint必须对应CER中的具体缺口

这是问卷设计的第一步,也是企业最容易出错的一步。endpoint不是凭空想出来的,而是从CER的风险-收益分析和证据缺口分析中"长"出来的。

举个例子。一家企业生产外科缝合线(Class IIa legacy器械),CER中的证据缺口分析可能指向以下几个问题:

CER证据缺口对应的PMCF endpoint问卷中的体现
长期使用中缝线断裂率的真实世界数据不足缝合后30天内缝线断裂发生率"术后随访期内是否观察到缝线断裂?"(是/否,记录时间)
特定组织类型中的性能数据有限不同组织类型中的缝合可靠性评分"请评估以下组织类型中的缝合可靠性:皮肤/筋膜/内脏浆膜层"(Likert 1-5分)
感染风险数据主要来自文献,缺少自产品数据缝合相关感染发生率"术后是否出现缝合部位感染?"(是/否,感染分级)
使用者对产品操作性的反馈不足器械操作便利性评分"手感、打结安全性、组织穿越顺畅度"(Likert 1-5分)

每个endpoint都应该是可量化、可统计分析的。NB不接受"整体满意度不错"这种模糊结论。

3.2 区分临床endpoint和满意度指标

这里有一个特别常见的坑:客户满意度问卷不等于PMCF问卷

NB的审核员对此非常敏感。如果你的PMCF问卷里全是"您对本产品是否满意"、"您是否愿意推荐本产品"之类的问题,大概率会被认定为"客户满意度调查"而非"PMCF临床数据收集",然后整份报告被退回。

两类指标的核心区别在于:

维度客户满意度调查PMCF问卷
目的商业评估、市场反馈确认临床安全性和性能
指标性质主观偏好客观或半客观的临床测量
分析方法描述性统计为主预设endpoint、预设统计分析计划
接受标准无硬性标准预设定量接受标准
NB认可度不认可为PMCF证据可作为PMCF证据(设计合理时)

3.3 设定预设的接受标准(Acceptance Criteria)

每个主要endpoint都需要一个预设的接受标准。这并不是说你要把标准设得多高,而是要让NB看到你有明确的评判依据。

比如缝合线的例子:

  • 缝线断裂率:预设接受标准 <2%(基于文献中同类产品的断裂率范围1%-3%)
  • 缝合部位感染率:预设接受标准 <5%(基于CDC手术部位感染指南中的参考值)
  • 操作便利性评分:预设平均评分 >3.5/5.0(基于同品类上市后数据的经验值)

接受标准的设定需要有文献依据或历史数据支撑,不能拍脑袋。

四、样本量计算:不能靠"凑够数就行"

4.1 样本量的统计学基础

NB对PMCF问卷最常见的驳回理由之一就是样本量缺乏统计学依据。很多企业提交的PMCF计划里写着"计划收集100份问卷",问为什么是100份,回答是"之前别人也是这么做的"。这种回答在NB看来等于没有回答。

样本量计算需要以下输入参数:

  • 主要endpoint的预期表现值(expected performance):基于文献或历史数据
  • 接受标准/零假设值(null hypothesis value):你认为"不可接受"的阈值
  • 统计检验的显著性水平(alpha):通常取0.05(双侧)或0.025(单侧)
  • 统计功效(power):通常取80%(beta = 0.20)

举个例子。假设你的缝合线PMCF问卷主要endpoint是"术后30天内缝线断裂发生率",文献中的同类产品断裂率约为1.5%,你设定的接受标准是断裂率 <3%。

使用单侧精确二项检验(exact binomial test),alpha=0.025,power=80%,预期断裂率1.5%,零假设断裂率3%,计算得到的样本量约为586个观察样本。如果你预期的问卷回收率是60%,那么需要发放约976份问卷。

这个计算过程必须在PMCF计划中完整呈现,包括使用的统计软件或公式、输入参数的来源依据。Purdie Pascoe在2025年发表的文章中也强调了这个要点:预期表现值与接受标准之间的差距越大,所需的样本量反而越小。

4.2 不同endpoint的样本量策略

实际操作中,PMCF问卷往往包含多个endpoint。这时候怎么处理?

场景建议策略
单一主要endpoint + 多个次要endpoint以主要endpoint的样本量为准,次要endpoint的样本量作为参考
多个主要endpoint取各endpoint计算结果中的最大值,或使用Bonferroni校正调整alpha
安全性endpoint + 性能endpoint分别计算,取较大者
分层分析需求(如按术式分组)每个分层都要满足最低样本量

4.3 实际执行中的回收率考量

问卷研究有个特殊问题:发放数量不等于回收数量,回收数量不等于有效数量。在设计阶段就要把回收率和有效率纳入计划:

  • 医疗机构HCP问卷的典型回收率:30%-70%,取决于机构和产品类型
  • 患者问卷的典型回收率:20%-50%
  • 有效率(排除不完整或不符合纳入标准的):通常85%-95%

发放量 = 目标样本量 /(回收率 x 有效率)。这个计算必须写在PMCF计划里。

五、偏倚控制:问卷研究最容易被质疑的环节

5.1 常见偏倚类型及控制措施

问卷研究的固有局限在于数据收集的非干预性,偏倚来源比临床调查更多。NB在审核时会重点关注以下几类偏倚:

偏倚类型在PMCF问卷中的表现控制措施
选择偏倚只向"友好"医院发问卷,或只选择已知使用效果好的中心预先定义参与中心的纳入标准,多中心取样,避免仅便利抽样
信息偏倚问题措辞引导性太强,如"您是否认为本产品安全有效?"使用中性措辞,避免双重问题,问题顺序随机化
回忆偏倚要求HCP回忆数月前的使用细节缩短回忆时间窗口,或采用实时记录代替回顾性填写
报告偏倚不良事件报告不完整,只填正常使用的结果确保问卷包含不良事件部分,明确"所有使用经历"均需报告
无应答偏倚不满意的用户更可能不回复,导致结果偏向正面记录无应答者的基本信息(至少中心级别),分析应答者与无应答者的差异

5.2 问卷设计与验证

一份NB能接受的PMCF问卷,不能是临下班前花半小时写的。问卷本身需要经过设计、评审和预测试三个阶段:

设计阶段:由具备临床背景的人员起草问题,每道题都要对应一个具体的endpoint或安全性参数。避免开放式问题占主导——虽然开放式问题能收集到意外的信息,但不利于统计分析。建议以封闭式问题(是/否、Likert量表、数值范围)为主,辅以少量开放式问题。

评审阶段:请至少2-3名未参与起草的临床专家审阅,评估内容效度(content validity)——问题是否真正在测量你想测量的临床参数。

预测试阶段(pilot test):在小范围(5-10名目标受访者)进行预调查,检验问题的可理解性、填写时间、是否存在歧义。预测试的结果和修订记录要保留,NB可能要求查看。

六、比较器的选择与基准数据的建立

6.1 问卷研究要不要设比较器

很多企业问:PMCF问卷研究是不是只收集自己产品的数据就够了?

严格来说,MDR没有明确要求PMCF研究必须设置对照组或比较器。但NB在审核时会期望你把产品的表现放在一个可参考的框架里来评判——这就是比较器或基准数据的作用。

对于低风险legacy器械的问卷PMCF,比较器可以有以下几种选择:

比较器类型说明适用场景
文献基准(Literature Benchmark)从系统文献综述中提取同类产品的安全性和性能数据作为参考最常用,适合大多数低风险legacy器械
企业历史数据(Historical Data)企业自身产品过去的PMCF数据、投诉数据、PMS数据有足够历史数据积累的legacy器械
替代疗法/标准治疗(Standard of Care)当前临床实践中用于相同适应证的标准治疗方案产品定位为替代或改进现有方案的器械
注册登记数据(Registry Data)来自行业或学术注册登记的公开数据有可用的相关注册登记时

最实际的做法是结合CER中的SOTA(State of the Art)分析,把文献中报告的同类产品安全性和性能指标提取出来,作为你问卷数据的比较基准。你在CER阶段做文献检索时,就已经收集了这些数据,不需要重复工作。

6.2 如何在问卷报告中呈现比较结果

比较结果不需要做严格的统计检验(你的问卷毕竟不是RCT),但需要有定量的对比呈现。比如:

本产品在PMCF问卷中报告的缝线断裂率为1.2%(95% CI: 0.5%-2.3%),低于预设接受标准3.0%,与文献报告的同类产品断裂率范围(1.0%-2.8%)一致。

这种表述方式清晰、有数据支撑、便于NB审核。避免写"我们的产品和文献中的差不多"这种模糊说法。

七、随访时机与数据收集策略

7.1 随访时间点的设定依据

PMCF问卷研究的随访时间点不能随意定。它取决于几个因素:

  • 产品的预期使用寿命:临时性器械(如缝线、导管)的随访窗口较短,通常为数周至数月;长期植入物则需要数年的随访
  • CER中识别的风险特征:如果CER指出某种迟发性风险,随访时间必须覆盖该风险可能出现的时间窗口
  • 临床实践中的标准随访模式:随访时间点应与该类产品的标准临床随访节点一致,便于HCP填写

对于低风险legacy器械,常见的随访设计:

器械类型建议随访时间点理由
外科缝合线/敷料使用后7-30天覆盖急性并发症窗口
检查手套/防护类即时(使用后当场或当天)一次性使用,无长期风险
低风险电子诊断设备使用后即时 + 3个月评估操作性能和初步可靠性
牙科耗材使用后7天 + 3个月覆盖短期反应和中期性能

7.2 数据收集方式的选择

PMCF问卷的数据收集方式直接影响数据质量和NB的认可度:

收集方式优点缺点NB认可度
电子问卷(eCRF/在线平台)数据结构化、可审计追踪、减少录入错误需要IT基础设施
纸质问卷 + 双人录入HCP接受度高、不需额外设备数据录入工作量大、易出错
电话/面对面访谈可追问细节、数据更丰富标准化程度低、访谈者偏倚中(需标准化访谈提纲)

建议使用电子数据采集系统(eCRF),一方面数据质量有保障,另一方面NB审核时可以提供完整的审计追踪(audit trail),证明数据的真实性和完整性。

八、公告机构最容易驳回PMCF问卷的五种情况

根据我们对接多家NB的实操经验,以下五种情况是PMCF问卷被驳回的高发区域。

8.1 驳回原因一:问卷与CER证据缺口没有关联

NB的典型审核意见:"The PMCF plan does not address the residual risks identified in the clinical evaluation."(PMCF计划未解决临床评价中识别的剩余风险。)

这个问题的根源在于,企业在设计问卷时没有回到CER去看"到底缺什么数据"。常见表现:

  • CER中说"长期安全性数据不足",但问卷只问了使用时的即时感受
  • CER中提到了某个特定的剩余风险,但问卷里连相关问题都没有
  • 问卷收集了一堆数据,但没有一个能直接回答CER中提出的临床问题

对策:设计问卷前,先做一张"证据缺口-问卷问题"映射表(gap-question mapping),确保CER中每一条证据缺口都有对应的问卷问题来收集数据。把这张表放在PMCF计划的附件里,NB一看就明白问卷的逻辑。

8.2 驳回原因二:样本量没有统计学依据

NB的典型审核意见:"No statistical justification for the sample size has been provided."(未提供样本量的统计学依据。)

"我们打算收100份"或者"上一次也是收这么多"不算统计学依据。NB要看的是:你用什么统计方法、输入了什么参数、得出了什么结果。

对策:在PMCF计划中单列一个"样本量计算"章节,包含统计假设、参数设定、计算公式/软件、计算过程和结论。使用的统计方法要和endpoint类型匹配(二分类endpoint用精确二项检验,连续endpoint用t检验或非参数方法等)。

8.3 驳回原因三:缺少预设的接受标准

NB的典型审核意见:"Acceptance criteria for the endpoints are not defined."(未定义endpoint的接受标准。)

如果问卷只有endpoint定义而没有预设的"什么结果算通过、什么结果算不通过",NB无法判断你的PMCF数据是否足以确认产品的安全性和性能。

对策:为每个主要endpoint设定量化的接受标准,并标注标准的来源(文献值、法规限值、历史数据等)。接受标准要在数据收集开始前确定——事后根据数据结果来"调"标准是违背科学原则的。

8.4 驵回原因四:偏倚控制措施缺失

NB的典型审核意见:"Potential sources of bias have not been identified or addressed."(未识别或处理潜在的偏倚来源。)

问卷研究的固有局限性NB心里清楚,他们不会因为问卷存在偏倚就直接否定。但如果你的PMCF计划中对偏倚问题完全不予讨论,NB会认为你不够专业。

对策:在PMCF计划中增加一个"偏倚评估"章节,按偏倚类型逐一分析你的问卷设计可能存在哪些偏倚,以及你采取了哪些控制措施。即使某些偏倚无法完全消除,坦诚地讨论也比假装不存在要好得多。

8.5 驳回原因五:数据分析计划不明确

NB的典型审核意见:"The statistical analysis plan is not defined."(未定义统计分析计划。)

问卷收回来之后怎么分析?用什么统计方法?缺失数据怎么处理?亚组分析怎么做?这些都要在PMCF计划阶段就明确写好,而不是数据收完后再决定。

对策:在PMCF计划中包含一个完整的统计分析计划(Statistical Analysis Plan, SAP),至少覆盖:

  • 分析人群定义(全分析集、符合方案集)
  • 主要endpoint的分析方法
  • 次要endpoint的分析方法
  • 缺失数据处理策略
  • 亚组分析计划(如有)
  • 安全性数据的汇总方法

FAQ:PMCF问卷研究的常见问题

Q1:我们的legacy器械是Class I(非灭菌、非测量、非重复使用),需要做PMCF吗?

Class I器械在MDR下属于最低风险等级,PMCF并非强制要求。但你需要CER中论证为什么不需要PMCF——不能只是"因为是Class I所以不需要",而要基于你的证据缺口分析说明现有临床数据已经充分。如果CER中确实没有剩余风险或未解决的问题,一份简短的"no PMCF justification"就够了。

Q2:问卷的受访者应该是HCP还是患者?

取决于你的产品和研究目标。对于大多数legacy医疗器械,HCP(医师、护士、技师)是更合适的受访者——他们有临床判断能力,能评估产品的临床性能和安全性。患者问卷更适合评估生活质量、症状改善等以患者为中心的endpoint。如果产品由患者自行使用(如家用血压计),则患者问卷更合理。

Q3:PMCF问卷的数据能用来支撑新的临床声明(claim)吗?

不能。PMCF的目的是确认现有临床评价中的安全性和性能声明,不是产生新的临床声明。如果你想扩展适应证或增加新的性能声明,需要单独的临床调查数据来支撑。PMCF问卷中发现的有意思的信号可以作为未来研究的方向,但不能直接写入IFU作为新claim。

Q4:文献综述可以替代PMCF问卷吗?

文献综述是PMCF活动的一种,但它通常不能单独作为唯一的PMCF活动——特别是对于legacy器械。原因是文献中的数据大多来自其他产品,不能完全代表你自己产品的真实世界表现。NB通常期望看到"文献综述 + 其他PMCF活动"的组合。问卷研究就是一种很好的"其他PMCF活动",与文献综述形成互补。

Q5:PMCF问卷需要伦理审批吗?

取决于问卷的设计和所在国家的法规。如果问卷是回顾性的、匿名的、不涉及额外的医疗干预,大多数EU成员国不需要伦理委员会审批。但部分国家(如德国、法国)的要求更严格,可能需要伦理委员会的意见或豁免信。建议在PMCF计划中明确说明伦理审批的状态,并保留相关文件备查。

Q6:问卷数据收集完成后,多长时间内需要完成PMCF评估报告?

MDR没有规定具体的时间限制。但根据MDCG 2020-8的PMCF评估报告模板,报告应在数据收集完成后"及时"完成。从实际操作角度,建议在最后一次数据录入后3-6个月内完成PMCF评估报告,并将结论更新到CER中。如果间隔太长,NB可能质疑数据的新鲜度。

Q7:我们的产品在多个EU成员国销售,问卷是否需要覆盖所有市场?

不要求覆盖所有市场,但需要在PMCF计划中解释选择特定国家/中心的原因。如果产品只在1-2个国家使用量较大,集中在这几个国家收集数据是合理的。关键是要确保样本具有代表性,不要只在企业"关系最好"的那家医院收集数据。

参考资源

AI 助手

你好!我看到你正在阅读「低风险legacy器械的PMCF问卷研究怎么设计才不会被公告机构驳回」。有任何关于这篇文章的问题,都可以问我!

由 Gemini 驱动 · 回答仅供参考