本文只解决什么 / 不解决什么
这篇文章只解决一件事:你有一款MDD时代获批的低风险legacy器械(Class IIa或IIb非植入物),需要在MDR过渡期间用PMCF问卷研究而不是临床调查(clinical investigation)来补足临床数据,怎么设计这份问卷研究才能让公告机构(NB)接受、被MDCG 2020-6判为Level 4证据而不是Level 8。
不解决:高风险植入物的registry-linked PMCF研究、新器械的pivotal clinical investigation设计、IVDR下的IVD性能评价。如果还没了解PMCF全貌,先看医疗器械PMCF上市后临床跟踪指南和MDR临床评价报告CER指南。
为什么是"问卷研究"而不是"满意度调查"
很多中国出口商在MDR重新认证时,习惯性把"PMCF survey"等同于发一份customer satisfaction survey给经销商。这是2024-2026年NB审核中最常见的major non-conformance之一——你的PMCF计划被NB打回的原因,几乎都是"survey不能作为specific PMCF method使用"或者"survey的证据等级是Level 8而非声明的Level 4"。
要理解这个区别,必须先看MDCG 2020-6附录III的证据等级表(用于legacy器械的临床证据充分性判定)。
| Rank | 证据类型 | 关键说明 |
|---|---|---|
| 1 | 高质量临床调查(覆盖所有变体、适应症、患者群) | 最强证据 |
| 2 | 高质量临床调查但有部分覆盖缺口 | 缺口需用其他证据补足并上PMCF |
| 3 | 来自高质量数据收集系统(如registries)的结果 | 需评估registry数据质量与代表性 |
| 4 | 有方法学局限但数据可量化的研究——MDCG 2020-6明确指出"高质量PMCF问卷研究可归入此类" | Class III legacy和植入式legacy至少要达到此级 |
| 5 | 等同器械数据(可靠且可量化) | 等同性必须满足MDR标准 |
| 6 | State of the art评估,含相似器械数据 | 在MDR下不算clinical data |
| 7 | 投诉与vigilance数据;curated data | 是clinical data但不是高质量来源 |
| 8 | 主动PMS数据,例如来自survey的数据 | 是clinical data但不是高质量来源;偏倚和数据质量限制 |
| 9 | 主题器械的individual case reports | 推广性差、报告偏倚大 |
| 10 | 与器械安全性能相关的非临床common specifications合规 | 非临床证据 |
| 11 | Simulated use / 动物 / 尸体测试 | 非临床;可作可用性辅助 |
| 12 | Pre-clinical / bench testing;标准合规 | 非临床证据 |
来源:MDCG 2020-6 Appendix III "Suggested hierarchy of clinical evidence"。
文档明确指出:"Class III legacy devices and implantable legacy devices which are not well-established technologies should have sufficient clinical data as a minimum at level 4"——非well-established technology的Class III和植入式legacy器械至少要达到第4级。
这就是为什么Level 4 PMCF问卷研究在中国出口商的策略中如此关键:它是用相对低成本的方法满足"最低证据等级"的唯一现实路径——前提是设计达到MDCG 2020-6对Rank 4的要求("data can still be quantified and acceptability justified")。设计不当的survey会被判到Rank 8(proactive PMS data from surveys),属于"不是高质量来源"——CER的临床证据论证会整体崩塌。
Rank 4高质量survey和Rank 8低质量survey的区别
注意:MDCG 2020-6里Rank 4和Rank 8都允许survey形式,但Rank 4是"data can still be quantified and acceptability justified"的高质量研究,Rank 8则是"limitations associated with sources of bias and quality of data collection"的一般PMS data。两者的差距完全在设计严谨度。
| 维度 | Rank 4 高质量PMCF问卷 | Rank 8 一般PMS survey |
|---|---|---|
| 填写者 | 临床医生(基于患者病历) | 患者、终端用户、分销商 |
| 数据单位 | 每次器械使用/手术1份问卷 | 每位用户1份问卷 |
| 终点 | 与CER的safety/performance声明对应 | 满意度、易用性 |
| SAP | 数据收集前预定 | 通常事后做描述性分析 |
| 偏倚控制 | 入选标准、抽样、随访时点预定 | 通常无控制 |
| 量表 | 已发表心理测量学验证的量表 | 自定义或市场调研问卷 |
| MCID | 数据收集前预定 | 不要求 |
| 样本量 | 基于统计power预定 | 自由选择 |
中国厂商的PMCF survey常被NB判为Rank 8而非Rank 4,几乎都是因为:填写者写成"distributor representative"、终点写成"用户满意度"、问卷里包括"您是否会推荐本产品"等市场调研类问题。
启动PMCF问卷研究前的6个先决条件
在开始设计问卷前,必须先确认下列前置条件全部满足。任何一项缺失都会让后续工作白做。
| 前置 | 文档要求 | 来源 |
|---|---|---|
| CER已识别clinical evidence gap | CER中specific gap表,与GSPR对应 | MDR Annex XIV Part A |
| Risk management更新 | 与gap关联的risk file更新版本 | ISO 14971:2019 |
| PMS Plan写入PMCF | PMS Plan里引用PMCF Plan编号 | MDR Annex III §1.1(b) |
| PMCF Plan初稿 | 按MDCG 2020-7模板的8个章节 | MDCG 2020-7 |
| GDPR评估 | DPIA/DPO意见书;适用法律基础 | GDPR Art. 35 + 6 |
| EU伦理意见 | 视各成员国规定,部分国家survey需伦理审查 | 参考各国本地法 |
GDPR是中国厂商最容易忽视的环节。即使是问卷研究、不收集患者姓名,只要收集了患者性别、年龄段、临床事件信息并能与器械批号关联,都可能触发GDPR的pseudonymous data处理规则。建议在DPIA里写明数据流路径(中国厂商自己不接触患者级数据,由欧洲CRO代为采集和去标识化)。
PMCF问卷研究的endpoint:怎么从CER claim反推
设计survey最关键的一步:endpoint不是凭空写的,是从CER的clinical claim和risk管理的residual risk反推出来的。
反推的逻辑链
- CER写了什么clinical benefit/performance声明?
- 这个声明在pivotal data里的支持是什么样的(哪个变量、用什么单位、随访多长时间)?
- 上市后真实世界数据需要"再确认"还是"补充"这个声明?
- 用什么endpoint在survey里反映这个声明?
- acceptance criteria是什么(达到多少算"再确认成功")?
举例:某Class IIa敷料类产品,CER声称"可在7天内显著促进伤口愈合"。pivotal data来自一个120例的随机对照研究,主要终点是"21天伤口完全闭合率"。
PMCF survey设计:
| 元素 | 写法 |
|---|---|
| Primary endpoint | 21天伤口完全闭合率(与pivotal data一致) |
| Secondary endpoints | 7天、14天的伤口面积缩小百分比;并发症发生率 |
| Acceptance criteria | 21天完全闭合率≥75%(与pivotal data 95% CI下界一致) |
| 量表 | Bates-Jensen Wound Assessment Tool(已发表心理测量学验证) |
| 测量时点 | 基线、第7天、第14天、第21天 |
| 样本量 | 单比例置信区间法,p₀=0.75,半宽度0.05,α=0.05 → n≈288 |
| 失访补偿 | 假设失访率15%,最终招募n=339 |
| 入选 | 18-80岁,特定伤口类型,签GDPR同意 |
| 排除 | 严重免疫缺陷、其他干扰治疗 |
这种endpoint到acceptance criteria的可追溯性是NB审核的核心看点。如果survey的endpoint与CER完全无关,整个PMCF计划会被打回。
endpoint常见错误对比表
| 错误endpoint | 问题 | 修正 |
|---|---|---|
| "用户满意度评分" | 不与CER声明对应;属Level 8 | 把"满意度"换成具体的临床表现指标 |
| "未发生严重不良事件" | 太宽,几乎所有器械都达到 | 改为specific事件率,对比基线 |
| "医生推荐意愿" | 不可量化、有偏倚 | 删除,或仅作探索性次要 |
| "易用性5星评分" | 缺乏验证量表 | 用SUS(System Usability Scale)等已验证量表 |
| "症状改善" | 没说改善多少算改善 | 用VAS或具体临床量表+MCID |
样本量与SAP预定:不能省的一步
NB对Level 4 survey的核心要求之一是Pre-specified Statistical Analysis Plan(SAP)。SAP必须在数据收集前完成,且包括样本量计算、统计方法、亚组分析、缺失值处理。
三种常见的样本量计算逻辑
| 场景 | 适用方法 | 输入参数 |
|---|---|---|
| 单组比例(如成功率) | Wilson或Clopper-Pearson置信区间 | 预期p₀、半宽度、α |
| 与历史对照比较 | 单比例假设检验 | p₀、p₁、α、power |
| 多变量回归 | events per variable(EPV) | 自变量数、需要的最小事件数 |
| 非劣性 | 非劣性边界δ | p₀、p₁、δ、α、power |
中国厂商最常见的样本量错误:随手写一个n=100的"经验数字",没引用计算公式或软件输出。这种SAP NB会直接打回,要求补充计算依据。
推荐的SAP结构
SAP至少包含下列章节:
- 研究目的与假设(与CER endpoint对应)
- 主要终点定义与acceptance criteria
- 次要终点
- 样本量计算(公式、参数、软件)
- 入选/排除标准
- 抽样方法(如何从所有使用者中抽出受访人群)
- 数据收集时点和方式
- 偏倚控制措施
- 缺失数据处理(multiple imputation、LOCF、敏感性分析)
- 主要分析(点估计、置信区间)
- 亚组分析(年龄、性别、器械型号变体)
- 中期分析停止规则(如有)
- 报告格式(表格、图表清单)
SAP由有统计资质的人员签字(PhD biostatistician或具备医疗器械研究经验的高级统计师)。中国厂商往往让QA人员代签——这种SAP NB通常不接受。
偏倚控制:把survey从Level 8拉到Level 4
NB判定证据等级的关键是偏倚控制。下表对比了survey常见偏倚和控制方法。
| 偏倚类型 | 表现 | 控制方法 |
|---|---|---|
| 选择偏倚 | 只让"合作"的医生填写 | 抽样框预定,随机抽样或全队列入组 |
| 回忆偏倚 | 让医生回忆6个月前的病例 | 前瞻性收集,使用病历数据而非记忆 |
| 应答偏倚 | 满意的患者更愿回应 | 强化随访(电话+邮件+邮寄)、计算应答率、敏感性分析 |
| 测量偏倚 | 不同医生对"愈合"判定不一 | 使用已验证量表,提供操作手册和培训 |
| 退出偏倚 | 病情恶化的患者中途退出 | 区分死亡、退出、失访;缺失数据敏感性分析 |
| 厂商偏倚 | 厂商代表参与数据采集 | 由独立CRO采集,厂商仅接收去标识化数据 |
| 发表偏倚 | 只报告positive结果 | 提前注册PMCF研究(如WHO ICTRP或EUDAMED MDR专用注册) |
应答率(response rate)的defense是NB审核员最常追问的点之一。低于60%的应答率几乎一定被NB质疑代表性,建议在SAP里预设:如果应答率<70%,启动sensitivity analysis,对比应答者和非应答者在已知协变量上的分布。
不能用survey代替临床调查的5种情形
并非所有的clinical evidence gap都能用survey填补。下表列出了survey不充分的典型情形。
| 情形 | 为什么survey不充分 | 替代方案 |
|---|---|---|
| 器械有新的预期用途 | 涉及不在原适应症内的用法,需要前瞻性数据 | Pilot临床调查或PMCF study |
| 长期植入物的长期表现 | 长期跟踪需要registry或追踪型研究 | Implant registry / cohort study |
| 罕见但严重的不良事件检出 | 样本量需求大,survey不可行 | Registry或post-market surveillance database |
| 新增的适用人群 | 对新人群没有pivotal data | 临床调查 |
| 与新型对照器械的非劣性 | survey不能控制对照组 | Comparative clinical investigation |
中国制造商的常见错误:用survey回答需要registry或临床调查的问题。NB会基于MDCG 2020-7的Section 6("justification of method appropriateness")打回。在PMCF Plan里明确"为什么survey对这个endpoint是合适的"是必答题。
NB驳回的典型缺陷与逐条回应
以下是2025-2026年BSI、TÜV SÜD、DEKRA、MEDCERT等NB对legacy器械PMCF survey最常见的缺陷意见,以及推荐的回应思路。
| NB典型缺陷 | 含义 | 回应方式 |
|---|---|---|
| "Survey is presented as Level 4 but design lacks SAP" | 没有预定的SAP | 补SAP,注明完成日期早于数据收集;如已开始收集,做敏感性分析 |
| "Endpoints not linked to CER claims" | endpoint没追溯到CER | 在PMCF Plan里增加追溯表,逐条对应CER claim |
| "Sample size not justified" | 样本量没计算依据 | 补样本量计算章节,引用统计软件输出 |
| "Response rate not addressed" | 没有应答率防御 | 加阈值(<70%触发sensitivity)和补充策略 |
| "User satisfaction is not a clinical endpoint" | 主要终点不是临床指标 | 删除满意度作为主要,改为具体临床表现 |
| "Subgroup analyses not pre-specified" | 亚组分析事后做 | 在SAP里预定关键亚组(年龄、性别、器械型号) |
| "Missing data strategy unclear" | 缺失数据处理未说明 | 加多重插补/LOCF和敏感性分析 |
| "Bias controls insufficient" | 偏倚控制太弱 | 改为前瞻性、随机抽样、独立CRO采集 |
| "Validated instruments not used" | 用了自定义量表 | 替换为已发表心理测量学验证的量表 |
| "GDPR compliance not addressed" | 缺DPIA或法律基础 | 补DPIA和成员国伦理审查证明 |
回应缺陷不是逐条辩驳,而是按NB的语言修订PMCF Plan。每条缺陷至少要在Plan里加一段或一个表格的修订内容,并在回复信里指明对应的章节号和页码。
文件夹里放什么:PMCF survey证据包结构
NB审核或主管当局抽查时,他们会看到的不是单一文档,而是一整个证据包。这个文件夹结构是低风险legacy器械PMCF survey的最低配置:
/PMCF_Survey_Evidence_Pack/
├── 01_PMCF_Plan_v2.0.pdf (MDCG 2020-7模板)
├── 02_SAP_v1.0.pdf (pre-specified statistical analysis plan)
├── 03_Sample_Size_Calculation.pdf (含统计软件输出截图)
├── 04_CER_Endpoint_Traceability.xlsx (CER claim → PMCF endpoint)
├── 05_Validated_Instruments_Refs/ (量表的发表来源、心理测量学论文)
├── 06_Survey_Questionnaire_Master_EN.pdf
├── 07_Translations/ (各成员国语言版本+反向翻译验证)
├── 08_GDPR_DPIA.pdf (数据保护影响评估)
├── 09_Ethical_Approvals/ (各成员国伦理审查证明)
├── 10_Site_Selection_Justification.pdf
├── 11_Investigator_Brochure.pdf
├── 12_Training_Records/ (研究员/CRO的培训记录)
├── 13_PMCF_Evaluation_Report_v1.0.pdf (MDCG 2020-8模板)
├── 14_CAPA_Linkage.xlsx (PMCF结果如何驱动CAPA/CER更新)
├── 15_Audit_Trail/ (所有版本变更记录)
└── 16_Risk_Management_Update.pdf (ISO 14971与PMCF联动)
每个子文件都要有版本号、签字日期、审批人。NB审核员会随机抽几个交叉核对版本一致性。
中国厂商的5个隐性失败模式
失败模式1:把欧盟分销商当作PMCF的主要数据源
分销商不是临床医生。让他们填survey意味着证据等级直接掉到Level 9(专家用户反馈)。
补救:与欧洲CRO签合同,由CRO联系临床医生(最好是HCP listed in IFU intended use)填写。CRO负责协议、培训、采集、去标识化。
失败模式2:Survey一次性发完不做随访
很多survey一次发出后就不再随访。应答率天然低,且无法分清"未应答"和"病情恶化退出"。
补救:设三轮随访SOP(首次邮件→2周后再邮件→1个月后电话/邮寄)。记录每一轮的应答情况,作为响应率的支持证据。
失败模式3:endpoint里塞了"销售相关"的问题
问卷里出现"您是否会向同事推荐"、"购买后悔程度"等市场调研问题,NB一眼判定为Level 8。
补救:所有商业相关问题剥离到独立的市场调研问卷(不算PMCF)。PMCF survey只问临床表现、安全性、IFU符合性、off-label使用。
失败模式4:用了一份"通用模板"survey给所有产品线
某中国厂商有10款Class IIa器械,全部用同一份PMCF survey模板,只改了产品名。NB发现endpoint与各产品的CER不对应,全部打回。
补救:每个UDI-DI组(device family)都需要独立的PMCF Plan和SAP。如果几个产品的临床用法和claim相近,可以共享部分章节但endpoint必须各自对应。
失败模式5:SAP的"数据收集后才写"
PMCF data已经收集了几个月,制造商才意识到需要SAP,找统计师补一份。NB审核时核对版本日期,发现SAP在数据采集开始之后才完成——直接判Level 8。
补救:SAP必须在数据采集前完成并版本控制(v1.0签字日期+pre-specification declaration)。如已经开始采集才发现这个问题,需要在Evaluation Report里写一段方法学限制("protocol amendment after data collection began"),并附敏感性分析。
一份PMCF Survey的时间线参考
下面是从启动到NB审定通过的实际时间分布。把这个嵌入项目计划里,能避免最后被时间挤压成"满意度调查"。
| 阶段 | 月数 | 关键交付 |
|---|---|---|
| Gap分析与PMCF Plan v0.1 | 1 | gap表、CER追溯 |
| SAP起草 | 1 | 含样本量计算 |
| GDPR DPIA与伦理审查 | 1-3 | DPO意见、伦理批文 |
| Survey问卷与量表选择 | 1 | 主版+翻译反向校验 |
| 启动site与培训 | 1 | 投资者手册、培训记录 |
| 数据采集 | 6-12 | 滚动招募 |
| 数据清洗与分析 | 1-2 | 按SAP执行 |
| Evaluation Report v1.0 | 1 | MDCG 2020-8模板 |
| NB审核与缺陷回复 | 2-4 | 修订版+回复表 |
| CAPA闭环 | 1-3 | 与CER/PMS同步 |
总周期通常16-30个月。如果你的MDR过渡截止日是2027年12月或2028年12月,现在(2026年5月)已经是不能再拖的最后窗口。
总结:从模板填空到证据生产
把PMCF survey看作一份MDCG 2020-7模板填空,是中国厂商最常见的失败起点。它必须被当成一份小型的临床研究——预定的SAP、可追溯的endpoint、独立采集、偏倚控制、应答率防御、缺失数据处理。把这些元素一个不少地写进Plan,NB才会接受为Level 4证据。
具体优先级建议:先做CER的gap分析、确认survey是合适方法;再请有资质的统计师写SAP;再选已发表心理测量学验证的量表;再签独立CRO合同;最后才进入数据采集。这个顺序不能颠倒。
参考资源
- MDCG 2020-7 PMCF Plan Template(European Commission)
- MDCG 2020-8 PMCF Evaluation Report Template
- MDCG 2020-6 Sufficient clinical evidence for legacy devices
- EU MDR 2017/745 Annex XIV Part B
- ISO 14155:2020 Clinical investigation of medical devices for human subjects
- GDPR Article 35 DPIA要求
- 站内相关:PMCF总论、CER指南、Article 88趋势报告、SSCP NB缺陷回复
免责声明:本文涉及临床研究方法学、统计设计、GDPR合规和NB审核策略的具体应用。每个PMCF Plan必须由有医疗器械临床研究和统计学资质的人员审定,并结合各成员国伦理与本地法律的最新要求。