低风险legacy器械的PMCF问卷研究怎么设计才不会被公告机构驳回

本文只解决什么 / 不解决什么

这篇文章只解决一件事：你有一款MDD时代获批的低风险legacy器械（Class IIa或IIb非植入物），需要在MDR过渡期间用PMCF问卷研究而不是临床调查（clinical investigation）来补足临床数据，怎么设计这份问卷研究才能让公告机构（NB）接受、被MDCG 2020-6判为Level 4证据而不是Level 8。

不解决：高风险植入物的registry-linked PMCF研究、新器械的pivotal clinical investigation设计、IVDR下的IVD性能评价。如果还没了解PMCF全貌，先看医疗器械PMCF上市后临床跟踪指南和MDR临床评价报告CER指南。

为什么是"问卷研究"而不是"满意度调查"

很多中国出口商在MDR重新认证时，习惯性把"PMCF survey"等同于发一份customer satisfaction survey给经销商。这是2024-2026年NB审核中最常见的major non-conformance之一——你的PMCF计划被NB打回的原因，几乎都是"survey不能作为specific PMCF method使用"或者"survey的证据等级是Level 8而非声明的Level 4"。

要理解这个区别，必须先看MDCG 2020-6附录III的证据等级表（用于legacy器械的临床证据充分性判定）。

Rank	证据类型	关键说明
1	高质量临床调查（覆盖所有变体、适应症、患者群）	最强证据
2	高质量临床调查但有部分覆盖缺口	缺口需用其他证据补足并上PMCF
3	来自高质量数据收集系统（如registries）的结果	需评估registry数据质量与代表性
4	有方法学局限但数据可量化的研究——MDCG 2020-6明确指出"高质量PMCF问卷研究可归入此类"	Class III legacy和植入式legacy至少要达到此级
5	等同器械数据（可靠且可量化）	等同性必须满足MDR标准
6	State of the art评估，含相似器械数据	在MDR下不算clinical data
7	投诉与vigilance数据；curated data	是clinical data但不是高质量来源
8	主动PMS数据，例如来自survey的数据	是clinical data但不是高质量来源；偏倚和数据质量限制
9	主题器械的individual case reports	推广性差、报告偏倚大
10	与器械安全性能相关的非临床common specifications合规	非临床证据
11	Simulated use / 动物 / 尸体测试	非临床；可作可用性辅助
12	Pre-clinical / bench testing；标准合规	非临床证据

来源：MDCG 2020-6 Appendix III "Suggested hierarchy of clinical evidence"。

文档明确指出："Class III legacy devices and implantable legacy devices which are not well-established technologies should have sufficient clinical data as a minimum at level 4"——非well-established technology的Class III和植入式legacy器械至少要达到第4级。

这就是为什么Level 4 PMCF问卷研究在中国出口商的策略中如此关键：它是用相对低成本的方法满足"最低证据等级"的唯一现实路径——前提是设计达到MDCG 2020-6对Rank 4的要求（"data can still be quantified and acceptability justified"）。设计不当的survey会被判到Rank 8（proactive PMS data from surveys），属于"不是高质量来源"——CER的临床证据论证会整体崩塌。

Rank 4高质量survey和Rank 8低质量survey的区别

注意：MDCG 2020-6里Rank 4和Rank 8都允许survey形式，但Rank 4是"data can still be quantified and acceptability justified"的高质量研究，Rank 8则是"limitations associated with sources of bias and quality of data collection"的一般PMS data。两者的差距完全在设计严谨度。

维度	Rank 4 高质量PMCF问卷	Rank 8 一般PMS survey
填写者	临床医生（基于患者病历）	患者、终端用户、分销商
数据单位	每次器械使用/手术1份问卷	每位用户1份问卷
终点	与CER的safety/performance声明对应	满意度、易用性
SAP	数据收集前预定	通常事后做描述性分析
偏倚控制	入选标准、抽样、随访时点预定	通常无控制
量表	已发表心理测量学验证的量表	自定义或市场调研问卷
MCID	数据收集前预定	不要求
样本量	基于统计power预定	自由选择

中国厂商的PMCF survey常被NB判为Rank 8而非Rank 4，几乎都是因为：填写者写成"distributor representative"、终点写成"用户满意度"、问卷里包括"您是否会推荐本产品"等市场调研类问题。

启动PMCF问卷研究前的6个先决条件

在开始设计问卷前，必须先确认下列前置条件全部满足。任何一项缺失都会让后续工作白做。

前置	文档要求	来源
CER已识别clinical evidence gap	CER中specific gap表，与GSPR对应	MDR Annex XIV Part A
Risk management更新	与gap关联的risk file更新版本	ISO 14971:2019
PMS Plan写入PMCF	PMS Plan里引用PMCF Plan编号	MDR Annex III §1.1(b)
PMCF Plan初稿	按MDCG 2020-7模板的8个章节	MDCG 2020-7
GDPR评估	DPIA/DPO意见书；适用法律基础	GDPR Art. 35 + 6
EU伦理意见	视各成员国规定，部分国家survey需伦理审查	参考各国本地法

GDPR是中国厂商最容易忽视的环节。即使是问卷研究、不收集患者姓名，只要收集了患者性别、年龄段、临床事件信息并能与器械批号关联，都可能触发GDPR的pseudonymous data处理规则。建议在DPIA里写明数据流路径（中国厂商自己不接触患者级数据，由欧洲CRO代为采集和去标识化）。

PMCF问卷研究的endpoint：怎么从CER claim反推

设计survey最关键的一步：endpoint不是凭空写的，是从CER的clinical claim和risk管理的residual risk反推出来的。

反推的逻辑链

CER写了什么clinical benefit/performance声明？
这个声明在pivotal data里的支持是什么样的（哪个变量、用什么单位、随访多长时间）？
上市后真实世界数据需要"再确认"还是"补充"这个声明？
用什么endpoint在survey里反映这个声明？
acceptance criteria是什么（达到多少算"再确认成功"）？

举例：某Class IIa敷料类产品，CER声称"可在7天内显著促进伤口愈合"。pivotal data来自一个120例的随机对照研究，主要终点是"21天伤口完全闭合率"。

PMCF survey设计：

元素	写法
Primary endpoint	21天伤口完全闭合率（与pivotal data一致）
Secondary endpoints	7天、14天的伤口面积缩小百分比；并发症发生率
Acceptance criteria	21天完全闭合率≥75%（与pivotal data 95% CI下界一致）
量表	Bates-Jensen Wound Assessment Tool（已发表心理测量学验证）
测量时点	基线、第7天、第14天、第21天
样本量	单比例置信区间法，p₀=0.75，半宽度0.05，α=0.05 → n≈288
失访补偿	假设失访率15%，最终招募n=339
入选	18-80岁，特定伤口类型，签GDPR同意
排除	严重免疫缺陷、其他干扰治疗

这种endpoint到acceptance criteria的可追溯性是NB审核的核心看点。如果survey的endpoint与CER完全无关，整个PMCF计划会被打回。

endpoint常见错误对比表

错误endpoint	问题	修正
"用户满意度评分"	不与CER声明对应；属Level 8	把"满意度"换成具体的临床表现指标
"未发生严重不良事件"	太宽，几乎所有器械都达到	改为specific事件率，对比基线
"医生推荐意愿"	不可量化、有偏倚	删除，或仅作探索性次要
"易用性5星评分"	缺乏验证量表	用SUS（System Usability Scale）等已验证量表
"症状改善"	没说改善多少算改善	用VAS或具体临床量表+MCID

样本量与SAP预定：不能省的一步

NB对Level 4 survey的核心要求之一是Pre-specified Statistical Analysis Plan（SAP）。SAP必须在数据收集前完成，且包括样本量计算、统计方法、亚组分析、缺失值处理。

三种常见的样本量计算逻辑

场景	适用方法	输入参数
单组比例（如成功率）	Wilson或Clopper-Pearson置信区间	预期p₀、半宽度、α
与历史对照比较	单比例假设检验	p₀、p₁、α、power
多变量回归	events per variable（EPV）	自变量数、需要的最小事件数
非劣性	非劣性边界δ	p₀、p₁、δ、α、power

中国厂商最常见的样本量错误：随手写一个n=100的"经验数字"，没引用计算公式或软件输出。这种SAP NB会直接打回，要求补充计算依据。

偏倚控制：把survey从Level 8拉到Level 4

NB判定证据等级的关键是偏倚控制。下表对比了survey常见偏倚和控制方法。

偏倚类型	表现	控制方法
选择偏倚	只让"合作"的医生填写	抽样框预定，随机抽样或全队列入组
回忆偏倚	让医生回忆6个月前的病例	前瞻性收集，使用病历数据而非记忆
应答偏倚	满意的患者更愿回应	强化随访（电话+邮件+邮寄）、计算应答率、敏感性分析
测量偏倚	不同医生对"愈合"判定不一	使用已验证量表，提供操作手册和培训
退出偏倚	病情恶化的患者中途退出	区分死亡、退出、失访；缺失数据敏感性分析
厂商偏倚	厂商代表参与数据采集	由独立CRO采集，厂商仅接收去标识化数据
发表偏倚	只报告positive结果	提前注册PMCF研究（如WHO ICTRP或EUDAMED MDR专用注册）

应答率（response rate）的defense是NB审核员最常追问的点之一。低于60%的应答率几乎一定被NB质疑代表性，建议在SAP里预设：如果应答率<70%，启动sensitivity analysis，对比应答者和非应答者在已知协变量上的分布。

不能用survey代替临床调查的5种情形

并非所有的clinical evidence gap都能用survey填补。下表列出了survey不充分的典型情形。

情形	为什么survey不充分	替代方案
器械有新的预期用途	涉及不在原适应症内的用法，需要前瞻性数据	Pilot临床调查或PMCF study
长期植入物的长期表现	长期跟踪需要registry或追踪型研究	Implant registry / cohort study
罕见但严重的不良事件检出	样本量需求大，survey不可行	Registry或post-market surveillance database
新增的适用人群	对新人群没有pivotal data	临床调查
与新型对照器械的非劣性	survey不能控制对照组	Comparative clinical investigation

中国制造商的常见错误：用survey回答需要registry或临床调查的问题。NB会基于MDCG 2020-7的Section 6（"justification of method appropriateness"）打回。在PMCF Plan里明确"为什么survey对这个endpoint是合适的"是必答题。

NB驳回的典型缺陷与逐条回应

以下是2025-2026年BSI、TÜV SÜD、DEKRA、MEDCERT等NB对legacy器械PMCF survey最常见的缺陷意见，以及推荐的回应思路。

NB典型缺陷	含义	回应方式
"Survey is presented as Level 4 but design lacks SAP"	没有预定的SAP	补SAP，注明完成日期早于数据收集；如已开始收集，做敏感性分析
"Endpoints not linked to CER claims"	endpoint没追溯到CER	在PMCF Plan里增加追溯表，逐条对应CER claim
"Sample size not justified"	样本量没计算依据	补样本量计算章节，引用统计软件输出
"Response rate not addressed"	没有应答率防御	加阈值（<70%触发sensitivity）和补充策略
"User satisfaction is not a clinical endpoint"	主要终点不是临床指标	删除满意度作为主要，改为具体临床表现
"Subgroup analyses not pre-specified"	亚组分析事后做	在SAP里预定关键亚组（年龄、性别、器械型号）
"Missing data strategy unclear"	缺失数据处理未说明	加多重插补/LOCF和敏感性分析
"Bias controls insufficient"	偏倚控制太弱	改为前瞻性、随机抽样、独立CRO采集
"Validated instruments not used"	用了自定义量表	替换为已发表心理测量学验证的量表
"GDPR compliance not addressed"	缺DPIA或法律基础	补DPIA和成员国伦理审查证明

回应缺陷不是逐条辩驳，而是按NB的语言修订PMCF Plan。每条缺陷至少要在Plan里加一段或一个表格的修订内容，并在回复信里指明对应的章节号和页码。

文件夹里放什么：PMCF survey证据包结构

NB审核或主管当局抽查时，他们会看到的不是单一文档，而是一整个证据包。这个文件夹结构是低风险legacy器械PMCF survey的最低配置：

/PMCF_Survey_Evidence_Pack/
├── 01_PMCF_Plan_v2.0.pdf              （MDCG 2020-7模板）
├── 02_SAP_v1.0.pdf                    （pre-specified statistical analysis plan）
├── 03_Sample_Size_Calculation.pdf     （含统计软件输出截图）
├── 04_CER_Endpoint_Traceability.xlsx  （CER claim → PMCF endpoint）
├── 05_Validated_Instruments_Refs/      （量表的发表来源、心理测量学论文）
├── 06_Survey_Questionnaire_Master_EN.pdf
├── 07_Translations/                    （各成员国语言版本+反向翻译验证）
├── 08_GDPR_DPIA.pdf                    （数据保护影响评估）
├── 09_Ethical_Approvals/               （各成员国伦理审查证明）
├── 10_Site_Selection_Justification.pdf
├── 11_Investigator_Brochure.pdf
├── 12_Training_Records/                （研究员/CRO的培训记录）
├── 13_PMCF_Evaluation_Report_v1.0.pdf  （MDCG 2020-8模板）
├── 14_CAPA_Linkage.xlsx               （PMCF结果如何驱动CAPA/CER更新）
├── 15_Audit_Trail/                     （所有版本变更记录）
└── 16_Risk_Management_Update.pdf       （ISO 14971与PMCF联动）

每个子文件都要有版本号、签字日期、审批人。NB审核员会随机抽几个交叉核对版本一致性。

中国厂商的5个隐性失败模式

失败模式1：把欧盟分销商当作PMCF的主要数据源

分销商不是临床医生。让他们填survey意味着证据等级直接掉到Level 9（专家用户反馈）。

补救：与欧洲CRO签合同，由CRO联系临床医生（最好是HCP listed in IFU intended use）填写。CRO负责协议、培训、采集、去标识化。

失败模式2：Survey一次性发完不做随访

很多survey一次发出后就不再随访。应答率天然低，且无法分清"未应答"和"病情恶化退出"。

补救：设三轮随访SOP（首次邮件→2周后再邮件→1个月后电话/邮寄）。记录每一轮的应答情况，作为响应率的支持证据。

失败模式3：endpoint里塞了"销售相关"的问题

问卷里出现"您是否会向同事推荐"、"购买后悔程度"等市场调研问题，NB一眼判定为Level 8。

补救：所有商业相关问题剥离到独立的市场调研问卷（不算PMCF）。PMCF survey只问临床表现、安全性、IFU符合性、off-label使用。

失败模式4：用了一份"通用模板"survey给所有产品线

某中国厂商有10款Class IIa器械，全部用同一份PMCF survey模板，只改了产品名。NB发现endpoint与各产品的CER不对应，全部打回。

补救：每个UDI-DI组（device family）都需要独立的PMCF Plan和SAP。如果几个产品的临床用法和claim相近，可以共享部分章节但endpoint必须各自对应。

失败模式5：SAP的"数据收集后才写"

PMCF data已经收集了几个月，制造商才意识到需要SAP，找统计师补一份。NB审核时核对版本日期，发现SAP在数据采集开始之后才完成——直接判Level 8。

补救：SAP必须在数据采集前完成并版本控制（v1.0签字日期+pre-specification declaration）。如已经开始采集才发现这个问题，需要在Evaluation Report里写一段方法学限制（"protocol amendment after data collection began"），并附敏感性分析。

一份PMCF Survey的时间线参考

下面是从启动到NB审定通过的实际时间分布。把这个嵌入项目计划里，能避免最后被时间挤压成"满意度调查"。

阶段	月数	关键交付
Gap分析与PMCF Plan v0.1	1	gap表、CER追溯
SAP起草	1	含样本量计算
GDPR DPIA与伦理审查	1-3	DPO意见、伦理批文
Survey问卷与量表选择	1	主版+翻译反向校验
启动site与培训	1	投资者手册、培训记录
数据采集	6-12	滚动招募
数据清洗与分析	1-2	按SAP执行
Evaluation Report v1.0	1	MDCG 2020-8模板
NB审核与缺陷回复	2-4	修订版+回复表
CAPA闭环	1-3	与CER/PMS同步

总周期通常16-30个月。如果你的MDR过渡截止日是2027年12月或2028年12月，现在（2026年5月）已经是不能再拖的最后窗口。

总结：从模板填空到证据生产

把PMCF survey看作一份MDCG 2020-7模板填空，是中国厂商最常见的失败起点。它必须被当成一份小型的临床研究——预定的SAP、可追溯的endpoint、独立采集、偏倚控制、应答率防御、缺失数据处理。把这些元素一个不少地写进Plan，NB才会接受为Level 4证据。

具体优先级建议：先做CER的gap分析、确认survey是合适方法；再请有资质的统计师写SAP；再选已发表心理测量学验证的量表；再签独立CRO合同；最后才进入数据采集。这个顺序不能颠倒。

参考资源

免责声明：本文涉及临床研究方法学、统计设计、GDPR合规和NB审核策略的具体应用。每个PMCF Plan必须由有医疗器械临床研究和统计学资质的人员审定，并结合各成员国伦理与本地法律的最新要求。

低风险legacy器械的PMCF问卷研究怎么设计才不会被公告机构驳回

本文只解决什么 / 不解决什么

为什么是"问卷研究"而不是"满意度调查"

Rank 4高质量survey和Rank 8低质量survey的区别

启动PMCF问卷研究前的6个先决条件

PMCF问卷研究的endpoint：怎么从CER claim反推

反推的逻辑链

endpoint常见错误对比表

样本量与SAP预定：不能省的一步

三种常见的样本量计算逻辑

推荐的SAP结构

偏倚控制：把survey从Level 8拉到Level 4

不能用survey代替临床调查的5种情形

NB驳回的典型缺陷与逐条回应

文件夹里放什么：PMCF survey证据包结构

中国厂商的5个隐性失败模式

失败模式1：把欧盟分销商当作PMCF的主要数据源

失败模式2：Survey一次性发完不做随访

失败模式3：endpoint里塞了"销售相关"的问题

失败模式4：用了一份"通用模板"survey给所有产品线

失败模式5：SAP的"数据收集后才写"

一份PMCF Survey的时间线参考

总结：从模板填空到证据生产

参考资源

AI 助手

低风险legacy器械的PMCF问卷研究怎么设计才不会被公告机构驳回

本文只解决什么 / 不解决什么

为什么是"问卷研究"而不是"满意度调查"

Rank 4高质量survey和Rank 8低质量survey的区别

启动PMCF问卷研究前的6个先决条件

PMCF问卷研究的endpoint：怎么从CER claim反推

反推的逻辑链

endpoint常见错误对比表

样本量与SAP预定：不能省的一步

三种常见的样本量计算逻辑

推荐的SAP结构

偏倚控制：把survey从Level 8拉到Level 4

不能用survey代替临床调查的5种情形

NB驳回的典型缺陷与逐条回应

文件夹里放什么：PMCF survey证据包结构

中国厂商的5个隐性失败模式

失败模式1：把欧盟分销商当作PMCF的主要数据源

失败模式2：Survey一次性发完不做随访

失败模式3：endpoint里塞了"销售相关"的问题

失败模式4：用了一份"通用模板"survey给所有产品线

失败模式5：SAP的"数据收集后才写"

一份PMCF Survey的时间线参考

总结：从模板填空到证据生产

参考资源

相关文章

MDR Article 88趋势报告阈值：如何从中国投诉数据判断"显著增加"并触发EU trend report

EU MDR SSCP公告机构缺陷回复：Class III和植入式器械如何把临床收益写到能过审

医疗器械PMCF上市后临床跟踪完全指南：EU MDR合规必修课（2026）

AI 助手