← 返回首页

低风险legacy器械的PMCF问卷研究怎么设计才不会被公告机构驳回

EU MDR legacy器械PMCF问卷研究实务:MDCG 2020-7/2020-6框架、Level 4 vs Level 8证据、样本量与SAP预定、偏倚控制、回应率防御、CER endpoint映射、不可接受的"客户满意度"模式与公告机构驳回缺陷的逐条修复表。

陈然
陈然最后更新:

本文只解决什么 / 不解决什么

这篇文章只解决一件事:你有一款MDD时代获批的低风险legacy器械(Class IIa或IIb非植入物),需要在MDR过渡期间用PMCF问卷研究而不是临床调查(clinical investigation)来补足临床数据,怎么设计这份问卷研究才能让公告机构(NB)接受、被MDCG 2020-6判为Level 4证据而不是Level 8。

不解决:高风险植入物的registry-linked PMCF研究、新器械的pivotal clinical investigation设计、IVDR下的IVD性能评价。如果还没了解PMCF全貌,先看医疗器械PMCF上市后临床跟踪指南MDR临床评价报告CER指南

为什么是"问卷研究"而不是"满意度调查"

很多中国出口商在MDR重新认证时,习惯性把"PMCF survey"等同于发一份customer satisfaction survey给经销商。这是2024-2026年NB审核中最常见的major non-conformance之一——你的PMCF计划被NB打回的原因,几乎都是"survey不能作为specific PMCF method使用"或者"survey的证据等级是Level 8而非声明的Level 4"。

要理解这个区别,必须先看MDCG 2020-6附录III的证据等级表(用于legacy器械的临床证据充分性判定)。

Rank证据类型关键说明
1高质量临床调查(覆盖所有变体、适应症、患者群)最强证据
2高质量临床调查但有部分覆盖缺口缺口需用其他证据补足并上PMCF
3来自高质量数据收集系统(如registries)的结果需评估registry数据质量与代表性
4有方法学局限但数据可量化的研究——MDCG 2020-6明确指出"高质量PMCF问卷研究可归入此类"Class III legacy和植入式legacy至少要达到此级
5等同器械数据(可靠且可量化)等同性必须满足MDR标准
6State of the art评估,含相似器械数据在MDR下不算clinical data
7投诉与vigilance数据;curated data是clinical data但不是高质量来源
8主动PMS数据,例如来自survey的数据是clinical data但不是高质量来源;偏倚和数据质量限制
9主题器械的individual case reports推广性差、报告偏倚大
10与器械安全性能相关的非临床common specifications合规非临床证据
11Simulated use / 动物 / 尸体测试非临床;可作可用性辅助
12Pre-clinical / bench testing;标准合规非临床证据

来源:MDCG 2020-6 Appendix III "Suggested hierarchy of clinical evidence"。

文档明确指出:"Class III legacy devices and implantable legacy devices which are not well-established technologies should have sufficient clinical data as a minimum at level 4"——非well-established technology的Class III和植入式legacy器械至少要达到第4级。

这就是为什么Level 4 PMCF问卷研究在中国出口商的策略中如此关键:它是用相对低成本的方法满足"最低证据等级"的唯一现实路径——前提是设计达到MDCG 2020-6对Rank 4的要求("data can still be quantified and acceptability justified")。设计不当的survey会被判到Rank 8(proactive PMS data from surveys),属于"不是高质量来源"——CER的临床证据论证会整体崩塌。

Rank 4高质量survey和Rank 8低质量survey的区别

注意:MDCG 2020-6里Rank 4和Rank 8都允许survey形式,但Rank 4是"data can still be quantified and acceptability justified"的高质量研究,Rank 8则是"limitations associated with sources of bias and quality of data collection"的一般PMS data。两者的差距完全在设计严谨度。

维度Rank 4 高质量PMCF问卷Rank 8 一般PMS survey
填写者临床医生(基于患者病历)患者、终端用户、分销商
数据单位每次器械使用/手术1份问卷每位用户1份问卷
终点与CER的safety/performance声明对应满意度、易用性
SAP数据收集前预定通常事后做描述性分析
偏倚控制入选标准、抽样、随访时点预定通常无控制
量表已发表心理测量学验证的量表自定义或市场调研问卷
MCID数据收集前预定不要求
样本量基于统计power预定自由选择

中国厂商的PMCF survey常被NB判为Rank 8而非Rank 4,几乎都是因为:填写者写成"distributor representative"、终点写成"用户满意度"、问卷里包括"您是否会推荐本产品"等市场调研类问题。

启动PMCF问卷研究前的6个先决条件

在开始设计问卷前,必须先确认下列前置条件全部满足。任何一项缺失都会让后续工作白做。

前置文档要求来源
CER已识别clinical evidence gapCER中specific gap表,与GSPR对应MDR Annex XIV Part A
Risk management更新与gap关联的risk file更新版本ISO 14971:2019
PMS Plan写入PMCFPMS Plan里引用PMCF Plan编号MDR Annex III §1.1(b)
PMCF Plan初稿按MDCG 2020-7模板的8个章节MDCG 2020-7
GDPR评估DPIA/DPO意见书;适用法律基础GDPR Art. 35 + 6
EU伦理意见视各成员国规定,部分国家survey需伦理审查参考各国本地法

GDPR是中国厂商最容易忽视的环节。即使是问卷研究、不收集患者姓名,只要收集了患者性别、年龄段、临床事件信息并能与器械批号关联,都可能触发GDPR的pseudonymous data处理规则。建议在DPIA里写明数据流路径(中国厂商自己不接触患者级数据,由欧洲CRO代为采集和去标识化)。

PMCF问卷研究的endpoint:怎么从CER claim反推

设计survey最关键的一步:endpoint不是凭空写的,是从CER的clinical claim和risk管理的residual risk反推出来的。

反推的逻辑链

  1. CER写了什么clinical benefit/performance声明?
  2. 这个声明在pivotal data里的支持是什么样的(哪个变量、用什么单位、随访多长时间)?
  3. 上市后真实世界数据需要"再确认"还是"补充"这个声明?
  4. 用什么endpoint在survey里反映这个声明?
  5. acceptance criteria是什么(达到多少算"再确认成功")?

举例:某Class IIa敷料类产品,CER声称"可在7天内显著促进伤口愈合"。pivotal data来自一个120例的随机对照研究,主要终点是"21天伤口完全闭合率"。

PMCF survey设计:

元素写法
Primary endpoint21天伤口完全闭合率(与pivotal data一致)
Secondary endpoints7天、14天的伤口面积缩小百分比;并发症发生率
Acceptance criteria21天完全闭合率≥75%(与pivotal data 95% CI下界一致)
量表Bates-Jensen Wound Assessment Tool(已发表心理测量学验证)
测量时点基线、第7天、第14天、第21天
样本量单比例置信区间法,p₀=0.75,半宽度0.05,α=0.05 → n≈288
失访补偿假设失访率15%,最终招募n=339
入选18-80岁,特定伤口类型,签GDPR同意
排除严重免疫缺陷、其他干扰治疗

这种endpoint到acceptance criteria的可追溯性是NB审核的核心看点。如果survey的endpoint与CER完全无关,整个PMCF计划会被打回。

endpoint常见错误对比表

错误endpoint问题修正
"用户满意度评分"不与CER声明对应;属Level 8把"满意度"换成具体的临床表现指标
"未发生严重不良事件"太宽,几乎所有器械都达到改为specific事件率,对比基线
"医生推荐意愿"不可量化、有偏倚删除,或仅作探索性次要
"易用性5星评分"缺乏验证量表用SUS(System Usability Scale)等已验证量表
"症状改善"没说改善多少算改善用VAS或具体临床量表+MCID

样本量与SAP预定:不能省的一步

NB对Level 4 survey的核心要求之一是Pre-specified Statistical Analysis Plan(SAP)。SAP必须在数据收集前完成,且包括样本量计算、统计方法、亚组分析、缺失值处理。

三种常见的样本量计算逻辑

场景适用方法输入参数
单组比例(如成功率)Wilson或Clopper-Pearson置信区间预期p₀、半宽度、α
与历史对照比较单比例假设检验p₀、p₁、α、power
多变量回归events per variable(EPV)自变量数、需要的最小事件数
非劣性非劣性边界δp₀、p₁、δ、α、power

中国厂商最常见的样本量错误:随手写一个n=100的"经验数字",没引用计算公式或软件输出。这种SAP NB会直接打回,要求补充计算依据。

推荐的SAP结构

SAP至少包含下列章节:

  1. 研究目的与假设(与CER endpoint对应)
  2. 主要终点定义与acceptance criteria
  3. 次要终点
  4. 样本量计算(公式、参数、软件)
  5. 入选/排除标准
  6. 抽样方法(如何从所有使用者中抽出受访人群)
  7. 数据收集时点和方式
  8. 偏倚控制措施
  9. 缺失数据处理(multiple imputation、LOCF、敏感性分析)
  10. 主要分析(点估计、置信区间)
  11. 亚组分析(年龄、性别、器械型号变体)
  12. 中期分析停止规则(如有)
  13. 报告格式(表格、图表清单)

SAP由有统计资质的人员签字(PhD biostatistician或具备医疗器械研究经验的高级统计师)。中国厂商往往让QA人员代签——这种SAP NB通常不接受。

偏倚控制:把survey从Level 8拉到Level 4

NB判定证据等级的关键是偏倚控制。下表对比了survey常见偏倚和控制方法。

偏倚类型表现控制方法
选择偏倚只让"合作"的医生填写抽样框预定,随机抽样或全队列入组
回忆偏倚让医生回忆6个月前的病例前瞻性收集,使用病历数据而非记忆
应答偏倚满意的患者更愿回应强化随访(电话+邮件+邮寄)、计算应答率、敏感性分析
测量偏倚不同医生对"愈合"判定不一使用已验证量表,提供操作手册和培训
退出偏倚病情恶化的患者中途退出区分死亡、退出、失访;缺失数据敏感性分析
厂商偏倚厂商代表参与数据采集由独立CRO采集,厂商仅接收去标识化数据
发表偏倚只报告positive结果提前注册PMCF研究(如WHO ICTRP或EUDAMED MDR专用注册)

应答率(response rate)的defense是NB审核员最常追问的点之一。低于60%的应答率几乎一定被NB质疑代表性,建议在SAP里预设:如果应答率<70%,启动sensitivity analysis,对比应答者和非应答者在已知协变量上的分布。

不能用survey代替临床调查的5种情形

并非所有的clinical evidence gap都能用survey填补。下表列出了survey不充分的典型情形。

情形为什么survey不充分替代方案
器械有新的预期用途涉及不在原适应症内的用法,需要前瞻性数据Pilot临床调查或PMCF study
长期植入物的长期表现长期跟踪需要registry或追踪型研究Implant registry / cohort study
罕见但严重的不良事件检出样本量需求大,survey不可行Registry或post-market surveillance database
新增的适用人群对新人群没有pivotal data临床调查
与新型对照器械的非劣性survey不能控制对照组Comparative clinical investigation

中国制造商的常见错误:用survey回答需要registry或临床调查的问题。NB会基于MDCG 2020-7的Section 6("justification of method appropriateness")打回。在PMCF Plan里明确"为什么survey对这个endpoint是合适的"是必答题。

NB驳回的典型缺陷与逐条回应

以下是2025-2026年BSI、TÜV SÜD、DEKRA、MEDCERT等NB对legacy器械PMCF survey最常见的缺陷意见,以及推荐的回应思路。

NB典型缺陷含义回应方式
"Survey is presented as Level 4 but design lacks SAP"没有预定的SAP补SAP,注明完成日期早于数据收集;如已开始收集,做敏感性分析
"Endpoints not linked to CER claims"endpoint没追溯到CER在PMCF Plan里增加追溯表,逐条对应CER claim
"Sample size not justified"样本量没计算依据补样本量计算章节,引用统计软件输出
"Response rate not addressed"没有应答率防御加阈值(<70%触发sensitivity)和补充策略
"User satisfaction is not a clinical endpoint"主要终点不是临床指标删除满意度作为主要,改为具体临床表现
"Subgroup analyses not pre-specified"亚组分析事后做在SAP里预定关键亚组(年龄、性别、器械型号)
"Missing data strategy unclear"缺失数据处理未说明加多重插补/LOCF和敏感性分析
"Bias controls insufficient"偏倚控制太弱改为前瞻性、随机抽样、独立CRO采集
"Validated instruments not used"用了自定义量表替换为已发表心理测量学验证的量表
"GDPR compliance not addressed"缺DPIA或法律基础补DPIA和成员国伦理审查证明

回应缺陷不是逐条辩驳,而是按NB的语言修订PMCF Plan。每条缺陷至少要在Plan里加一段或一个表格的修订内容,并在回复信里指明对应的章节号和页码。

文件夹里放什么:PMCF survey证据包结构

NB审核或主管当局抽查时,他们会看到的不是单一文档,而是一整个证据包。这个文件夹结构是低风险legacy器械PMCF survey的最低配置:

/PMCF_Survey_Evidence_Pack/
├── 01_PMCF_Plan_v2.0.pdf              (MDCG 2020-7模板)
├── 02_SAP_v1.0.pdf                    (pre-specified statistical analysis plan)
├── 03_Sample_Size_Calculation.pdf     (含统计软件输出截图)
├── 04_CER_Endpoint_Traceability.xlsx  (CER claim → PMCF endpoint)
├── 05_Validated_Instruments_Refs/      (量表的发表来源、心理测量学论文)
├── 06_Survey_Questionnaire_Master_EN.pdf
├── 07_Translations/                    (各成员国语言版本+反向翻译验证)
├── 08_GDPR_DPIA.pdf                    (数据保护影响评估)
├── 09_Ethical_Approvals/               (各成员国伦理审查证明)
├── 10_Site_Selection_Justification.pdf
├── 11_Investigator_Brochure.pdf
├── 12_Training_Records/                (研究员/CRO的培训记录)
├── 13_PMCF_Evaluation_Report_v1.0.pdf  (MDCG 2020-8模板)
├── 14_CAPA_Linkage.xlsx               (PMCF结果如何驱动CAPA/CER更新)
├── 15_Audit_Trail/                     (所有版本变更记录)
└── 16_Risk_Management_Update.pdf       (ISO 14971与PMCF联动)

每个子文件都要有版本号、签字日期、审批人。NB审核员会随机抽几个交叉核对版本一致性。

中国厂商的5个隐性失败模式

失败模式1:把欧盟分销商当作PMCF的主要数据源

分销商不是临床医生。让他们填survey意味着证据等级直接掉到Level 9(专家用户反馈)。

补救:与欧洲CRO签合同,由CRO联系临床医生(最好是HCP listed in IFU intended use)填写。CRO负责协议、培训、采集、去标识化。

失败模式2:Survey一次性发完不做随访

很多survey一次发出后就不再随访。应答率天然低,且无法分清"未应答"和"病情恶化退出"。

补救:设三轮随访SOP(首次邮件→2周后再邮件→1个月后电话/邮寄)。记录每一轮的应答情况,作为响应率的支持证据。

失败模式3:endpoint里塞了"销售相关"的问题

问卷里出现"您是否会向同事推荐"、"购买后悔程度"等市场调研问题,NB一眼判定为Level 8。

补救:所有商业相关问题剥离到独立的市场调研问卷(不算PMCF)。PMCF survey只问临床表现、安全性、IFU符合性、off-label使用。

失败模式4:用了一份"通用模板"survey给所有产品线

某中国厂商有10款Class IIa器械,全部用同一份PMCF survey模板,只改了产品名。NB发现endpoint与各产品的CER不对应,全部打回。

补救:每个UDI-DI组(device family)都需要独立的PMCF Plan和SAP。如果几个产品的临床用法和claim相近,可以共享部分章节但endpoint必须各自对应。

失败模式5:SAP的"数据收集后才写"

PMCF data已经收集了几个月,制造商才意识到需要SAP,找统计师补一份。NB审核时核对版本日期,发现SAP在数据采集开始之后才完成——直接判Level 8。

补救:SAP必须在数据采集前完成并版本控制(v1.0签字日期+pre-specification declaration)。如已经开始采集才发现这个问题,需要在Evaluation Report里写一段方法学限制("protocol amendment after data collection began"),并附敏感性分析。

一份PMCF Survey的时间线参考

下面是从启动到NB审定通过的实际时间分布。把这个嵌入项目计划里,能避免最后被时间挤压成"满意度调查"。

阶段月数关键交付
Gap分析与PMCF Plan v0.11gap表、CER追溯
SAP起草1含样本量计算
GDPR DPIA与伦理审查1-3DPO意见、伦理批文
Survey问卷与量表选择1主版+翻译反向校验
启动site与培训1投资者手册、培训记录
数据采集6-12滚动招募
数据清洗与分析1-2按SAP执行
Evaluation Report v1.01MDCG 2020-8模板
NB审核与缺陷回复2-4修订版+回复表
CAPA闭环1-3与CER/PMS同步

总周期通常16-30个月。如果你的MDR过渡截止日是2027年12月或2028年12月,现在(2026年5月)已经是不能再拖的最后窗口。

总结:从模板填空到证据生产

把PMCF survey看作一份MDCG 2020-7模板填空,是中国厂商最常见的失败起点。它必须被当成一份小型的临床研究——预定的SAP、可追溯的endpoint、独立采集、偏倚控制、应答率防御、缺失数据处理。把这些元素一个不少地写进Plan,NB才会接受为Level 4证据。

具体优先级建议:先做CER的gap分析、确认survey是合适方法;再请有资质的统计师写SAP;再选已发表心理测量学验证的量表;再签独立CRO合同;最后才进入数据采集。这个顺序不能颠倒。

参考资源

免责声明:本文涉及临床研究方法学、统计设计、GDPR合规和NB审核策略的具体应用。每个PMCF Plan必须由有医疗器械临床研究和统计学资质的人员审定,并结合各成员国伦理与本地法律的最新要求。

AI 助手

你好!我看到你正在阅读「低风险legacy器械的PMCF问卷研究怎么设计才不会被公告机构驳回」。有任何关于这篇文章的问题,都可以问我!

由 Gemini 驱动 · 回答仅供参考