IVDR Article 2(44) 对性能评价(Performance Evaluation)的定义简洁而精准:"对数据进行评估和分析,以确立或验证器械的科学有效性、分析性能以及(在适用时)临床性能。"一句话点出了性能评估的三个支柱。问题在于,这三个支柱该怎么落地——怎么收集证据、怎么写报告、怎么对应不同风险等级的要求——IVDR 法规本身给的是框架,实操层面的细节散落在 MDCG 指南、协调标准和公告机构的审核实践中。
在我们接触的中国 IVD 企业里,性能评估文件被公告机构退回的比例相当高。退回的原因往往不是数据不好,而是报告结构与法规要求对不上:科学有效性没有系统文献综述支撑,分析性能参数缺项,临床性能数据和预期用途脱节。这些问题不难解决,但前提是搞清楚 IVDR 到底要什么、每个支柱的证据包长什么样。
从IVDD到IVDR:性能评估的范式转变
IVDD 时代,大部分 IVD 产品走自我声明路径,公告机构只审查清单 A/B 产品(约占全部 IVD 的 10-20%)。性能评价在实践中被简化为一组检验报告——拿到参考实验室的数据,加上几个精密度实验,基本就够用了。那时候没有"科学有效性报告""分析性能报告""临床性能报告"这样的文件概念,更不存在三支柱的体系化要求。
IVDR 把这个局面彻底改写了。法规将约 80% 的 IVD 产品纳入公告机构审查范围(仅 Class A 非无菌器械可自我声明),并在 Annex XIII Part A 中明确要求:性能评价必须涵盖科学有效性、分析性能和临床性能三个维度,三个维度各自的证据需要分别评估、综合分析,最终汇总到性能评价报告(PER)中。
这个转变的本质不只是"多写几份报告"。IVDR 要求的是一种证据驱动的思维——你的产品声称能检测某个指标,那你必须证明:这个指标和临床状态之间的关系是有科学依据的(科学有效性),你的产品能准确稳定地检测这个指标(分析性能),检测结果确实能帮助临床决策(临床性能)。三根柱子缺一根,整个结构站不住。
还有一个容易被忽略的点:IVDR 下的性能评价是持续过程,不是一次性文件。法规要求制造商在整个产品生命周期内持续更新性能评价,将上市后监督(PMS)和上市后性能跟踪(PMPF)的数据纳入分析。这意味着你的证据体系必须是活的,能不断吸收新数据、回应新问题。
三支柱框架:不是三份独立的报告
在展开每个支柱之前,有必要澄清一个常见误解。有些企业把科学有效性报告(SVR)、分析性能报告(APR)和临床性能报告(CPR)当作三份各自独立的文件来准备,各自成章、互不引用。这种做法在公告机构审查时会暴露问题。
三支柱是一个证据链条。科学有效性回答的是"测这个指标有没有道理",分析性能回答的是"你的产品能不能准确测出这个指标",临床性能回答的是"测出来之后对临床有没有用"。三者的逻辑是递进的——没有科学有效性作为基础,分析性能就失去了意义;没有分析性能的保证,临床性能数据就不可靠。因此,三份报告之间必须有交叉引用,最终在 PER 中形成连贯的论证。
IVDR Annex XIII Part A 对此表述得明确:性能评价计划(PEP)需同时覆盖三个支柱,性能评价报告(PER)需对三个支柱的数据进行"critical evaluation"(批判性评估)。批判性评估意味着不是简单罗列数据,而是要分析数据的充分性、一致性和局限性,得出有说服力的结论。
支柱一:科学有效性报告(SVR)怎么做
科学有效性(Scientific Validity)要证明的核心命题是:被测量的分析物(analyte)与某种临床状态或生理过程之间存在有据可查的关联。比如,HbA1c 与糖尿病长期血糖控制之间的关系,或 troponin 与心肌损伤之间的关系——这些关联不是产品制造商自己定义的,而是由科学共同体在长期研究中确立的。
证据来源
MDCG 2022-2 指南列出了科学有效性证据的主要来源:
- 科学文献:系统性文献检索是最核心的证据来源。检索范围应覆盖主要生物医学数据库(PubMed、Embase、Cochrane Library 等),检索策略需要记录在案、可复现。
- 专家意见:当文献不足以完全覆盖时,可以引用领域专家的书面意见作为补充证据。专家需具备相关学术或临床资质,意见需有据可查。
- 概念验证研究:对于新型生物标志物或创新检测原理,可能需要自行开展探索性研究来初步建立分析物与临床状态的关联。
- 临床性能研究数据:如果制造商已经进行了临床性能研究,其中的数据也可以反过来支撑科学有效性。
文献检索的方法论要求
这是中国企业的常见薄弱环节。很多 SVR 里的"文献综述"实际上是随意找了十几篇相关论文摘抄摘要,既没有检索策略,也没有纳入排除标准。这种做法在公告机构审核中无法通过。
正规的文献检索流程:
- 明确检索问题(PICO 格式:人群、干预/指标、对照、结局)
- 确定检索词和逻辑组合
- 选择数据库(至少两个,建议 PubMed + Embase)
- 设定纳入/排除标准
- 执行检索并记录结果数量
- 按标准筛选文献(标题初筛 → 摘要复筛 → 全文终筛)
- 提取数据并进行质量评价
- 综合分析,得出结论
整个过程需要记录在文献检索方案(Literature Search Protocol)中,保留检索截图或导出记录。就实际经验而言,一篇扎实的 SVR 通常需要引用 30-80 篇文献,涵盖分析物的生物学基础、临床关联证据、国内外指南共识等多个方面。
SVR 的报告结构
一份完整的科学有效性报告应包含:
- 分析物信息(名称、分子特征、检测原理)
- 临床背景(目标疾病/状态的流行病学、临床意义)
- 文献检索方案与检索结果
- 证据综合分析(支持分析物与临床状态关联的证据强度)
- 结论(科学有效性是否得到确立,是否存在知识空白)
对于成熟的分析物(如 glucose、HBsAg),科学有效性通常可以完全通过文献确立。对于新型标志物,可能需要补充原始研究数据。两者的证据强度要求不同,但论证逻辑是一致的。
支柱二:分析性能报告(APR)的每一个参数
分析性能(Analytical Performance)要回答的是:你的 IVD 产品在实验室条件下能不能准确、稳定地检测目标分析物。IVDR Annex I Section 9.1 列出了需要评估的性能参数,这是法规对分析性能最具体的条款要求。
必须评估的参数
每个参数的含义和实操要点:
分析灵敏度 / 检出限(Analytical Sensitivity / LoD)——产品能检测到的最低分析物浓度。LoD(Limit of Detection)和 LoQ(Limit of Quantitation)是两个概念:LoD 是"能检出"的最低浓度,LoQ 是"能准确定量"的最低浓度。对于定性产品,LoD 是关键参数;对于定量产品,LoD 和 LoQ 都需要确定。实验方法通常采用系列稀释或低浓度样本重复检测。
分析特异性(Analytical Specificity)——产品只对目标分析物产生反应、不受其他物质干扰的能力。这包括两个子项:内源性干扰(溶血、脂血、胆红素等常见样本基质干扰)和外源性干扰(常用药物、食物成分等)。需要设计干扰实验,在目标浓度附近加入潜在干扰物,评估对检测结果的影响。
交叉反应(Cross-reactivity)——产品与结构相似或临床相关的非目标分析物发生反应的情况。对于免疫诊断产品,这项研究尤为关键。需要选择与目标分析物结构相近的物质、同一生物家族的其他成员、临床样本中可能共存的病原体等进行交叉反应测试。
正确度 / 偏倚(Trueness / Bias)——检测结果与真实值(或参考值)之间的一致程度。可以通过与参考方法比对、使用有证参考物质(CRM)或参加能力验证(PT/EQA)来评估。
精密度(Precision)——重复检测同一标本时结果的一致性。包括两个层面:重复性(repeatability,同一操作者、同一仪器、同一批次、短时间内)和再现性(reproducibility,不同操作者、不同仪器、不同批次、不同实验室、不同天数)。CLSI EP05-A3 是精密度实验设计的主要参考标准。
准确度(Accuracy)——正确度和精密度的综合效应,即单个检测结果与真实值的接近程度。在有些情况下可以通过与金标准方法比对来直接评估。
测量范围与线性(Measuring Range / Linearity)——产品在规定的浓度范围内,检测结果与分析物实际浓度呈线性关系的范围。需要用系列稀释的标准品验证线性范围,通常参照 CLSI EP06-A。
Cut-off 值——对于定性产品,cut-off 是区分阳性和阴性的临界值。cut-off 的设定直接影响产品的诊断灵敏度和特异性,需要基于临床样本的 ROC 曲线分析或统计学方法确定。
标本采集与处理要求——标本类型(血清、血浆、全血、尿液等)、采集方法、抗凝剂选择、保存条件、运输条件、冻融影响等。这些因素直接影响检测结果的可靠性,需要在分析性能评估中予以验证。
APR 的报告结构
分析性能报告应包含:
- 检测方法与仪器平台描述
- 各参数的实验设计(参照标准、样本量、接受标准)
- 原始数据与统计分析
- 与声明性能指标的比较
- 结论与局限性
一个容易忽略的细节:APR 中每个实验的接受标准(acceptance criteria)应当在性能评估计划(PEP)中预先设定,而不是实验做完之后再定。先射箭再画靶,公告机构是能看出来的。
支柱三:临床性能报告(CPR)什么时候需要做临床研究
临床性能(Clinical Performance)要证明的是:你的 IVD 产品给出的检测结果,确实与目标临床状态相关联,能够支持临床决策。这涉及几个关键指标:
- 诊断灵敏度(Diagnostic Sensitivity):在患病人群中正确检出阳性的比例
- 诊断特异性(Diagnostic Specificity):在健康人群中正确检出阴性的比例
- 阳性预测值(PPV,Positive Predictive Value):检测结果为阳性时,实际患病的概率
- 阴性预测值(NPV,Negative Predictive Value):检测结果为阴性时,实际未患病的概率
- 似然比(Likelihood Ratios):阳性似然比和阴性似然比,综合反映检测的鉴别能力
- 正常人群和患病人群的预期值:目标人群中检测结果的分布特征
什么时候必须做临床性能研究
对于成熟的分析物且检测原理成熟的产品(如常规生化试剂),临床性能数据可以通过文献综述获得,不一定要做新的临床研究。但以下几种情况通常需要开展临床性能研究:
- 新型生物标志物或新的临床预期用途
- 伴随诊断(Companion Diagnostics)产品
- 筛查用途的产品(对灵敏度和特异性有更高要求)
- 自测产品( layperson 使用场景,需评估用户理解能力)
- 近患检测(POCT)产品(非实验室环境使用,需验证现场性能)
Class C 和 Class D 产品,公告机构通常要求提供临床性能研究数据。MDCG 2022-2 指南也明确指出,随着风险等级升高,对临床证据强度和直接性的要求也相应提高。
临床性能研究的设计要点
如果需要做临床性能研究,设计阶段就要考虑几个关键问题:
样本量怎么定。不能随意选一个数字,需要基于统计学方法计算——根据预期的灵敏度/特异性、置信区间宽度、目标人群患病率等参数,用公式或软件(如 PASS、nQuery)确定最低样本量。样本量不足是公告机构退回 CPR 的常见原因。
对比方法怎么选。通常需要一个已上市的同类型产品作为对比试剂(comparator),或者以临床诊断金标准作为参考。对比方法的选择需要在方案中论证。
样本来源。IVD 临床性能研究可以用剩余标本(residual specimens),不一定需要前瞻性采集。ISO 20916:2019 是 IVD 临床性能研究的国际参考标准。
CPR 的报告结构
临床性能报告应包含:
- 临床背景与研究目的
- 文献检索结果(如有)
- 临床性能研究方案(研究设计、样本量论证、纳入/排除标准、统计方法)
- 研究结果(灵敏度、特异性、PPV/NPV、似然比、置信区间)
- 亚组分析(如适用)
- 与文献数据的综合分析
- 结论(临床性能是否支撑预期用途)
性能评估计划(PEP):动笔之前的第一步
很多企业拿到产品直接开始写 SVR、APR、CPR,写到一半发现三个报告的预期用途描述不一致,或者某个分析性能参数的接受标准无法确定。这些问题都可以通过先做性能评估计划(Performance Evaluation Plan)来避免。
IVDR Annex XIII Part A 要求制造商在开展性能评价之前制定 PEP,PEP 是整个性能评价的纲领性文件。它的核心内容应包括:
- 器械描述:产品名称、型号、预期用途、适用人群、检测原理、标本类型
- 性能声明:产品声称达到的性能指标(灵敏度、特异性、LoD 等)
- 三支柱的方法论:每个支柱将采用什么方法收集证据(文献检索、实验研究、临床研究)
- 文献检索方案:数据库、检索策略、纳入/排除标准
- 分析性能参数清单:需要评估哪些参数、对应的实验方案、接受标准
- 临床性能策略:是否需要临床研究、样本量论证、对比方法选择
- GSPR 映射:哪些通用安全与性能要求将通过性能评价来论证
- 收益-风险评价方法:如何判断证据是否足以支撑产品的收益-风险比
- PMPF 策略:上市后如何持续收集性能数据
MDCG 2022-2 还建议 PEP 考虑以下因素:产品的创新程度、分析物的科学有效性成熟度、目标人群的变异性、疾病流行率、现有参考物质或参考方法的可用性等。这些因素会影响证据强度和数量的需求。
PEP 不是静态文件。随着性能评价的推进,如果发现需要调整方案(比如增加某个分析性能参数的评估),应当在 PEP 中记录变更理由。公告机构审核时,会关注 PEP 与实际执行之间的一致性。
性能评估报告(PER):三支柱怎么合而为一
性能评价报告(Performance Evaluation Report)是三支柱证据的最终汇总。它不是把 SVR、APR、CPR 简单装订在一起,而是一个独立的、具有论证性的文件。
PER 的核心任务是:
综合分析。把三个支柱的数据放在一起审视,分析证据的一致性和充分性。比如,SVR 中文献报告的分析物参考范围是否与 APR 中的测量范围吻合?CPR 中的临床灵敏度是否与 APR 中的分析灵敏度一致?
论证收益-风险比。IVDR 要求制造商基于性能评价数据论证产品的收益-风险比可接受。这不是一句"收益大于风险"就能交差的,需要结合具体数据:产品的诊断准确度是多少?假阳性/假阴性的临床后果是什么?现有替代方案的局限性在哪里?你的产品相比现有方案提供了什么额外的价值?
关联 GSPR。IVDR Annex I 的通用安全与性能要求中,有多条与性能直接相关(特别是 Section 9 中的性能要求)。PER 需要明确说明每条相关 GSPR 是如何被性能评价数据所论证的。很多企业忽略了这一步,导致技术文件中 GSPR 论证和性能评价报告之间存在空白地带。
明确结论和局限性。PER 应当给出清晰的结论:性能评价数据是否充分支撑产品的预期用途?是否存在需要通过 PMPF 进一步收集数据的领域?哪些结论是基于有限样本量或特定人群得出的?
一个实操建议:PER 的摘要部分应当能独立回答公告机构的核心关切——你的产品检测什么、用于什么临床场景、性能数据是否充分、风险是否可控。如果摘要做不到这一点,说明报告的论证主线不够清晰。
按风险等级的分级要求对照
不同风险等级的 IVD 产品,性能评价的深度和广度要求差异显著。以下是 Class A 到 Class D 的对照:
| 要求维度 | Class A | Class B | Class C | Class D |
|---|---|---|---|---|
| 公告机构介入 | 否(自我声明) | 是(审核 QMS + 抽查技术文档) | 是(全面技术文档审核) | 是(全面审核 + 专家小组) |
| 性能评价(PE) | 需要 | 完整 PE | 完整 PE | 完整 PE |
| 科学有效性 | 文献综述 | 系统文献综述 | 系统文献综述 + 可能需原始研究 | 系统文献综述 + 可能需原始研究 |
| 分析性能 | 基本参数 | 全部适用参数 | 全部适用参数 | 全部适用参数 |
| 临床性能 | 视预期用途 | 通常可用文献 | 通常需要临床性能研究 | 需要临床性能研究 |
| PMPF | 基本要求 | 需要 | 需要 | 需要 |
| PSUR | 不需要 | 不需要 | 需要 | 需要 |
| SSP(安全与性能总结) | 不需要 | 不需要 | 不需要 | 需要 |
| 专家小组咨询 | 不涉及 | 不涉及 | 可能涉及 | 通常涉及 |
| 更新频率 | 按需 | 定期 | 至少每年评估更新 | 至少每年更新 |
需要强调几个重点。
Class A 虽然不需要公告机构审查,但 PE 仍然是法规要求的,不能因为没人查就不做。从合规风险的角度看,一旦产品出现问题,PE 文档将是监管审查的首要对象。
Class C(伴随诊断、基因检测、肿瘤标志物等)是当前中国 IVD 出海企业最集中的类别。这个级别的产品,公告机构对临床性能证据的要求相当高,纯文献路径通常不够,需要做临床性能研究。同时 Class C 需要 PSUR(定期安全更新报告),这意味着 PE 必须定期更新,PMPF 数据要纳入分析。
Class D(血源安全筛查、危及生命的传染病原体检测)的审查最为严格,涉及专家小组(Expert Panel)咨询,对证据质量和直接性的要求最高。
中国IVD企业的常见失败场景
根据我们与多家公告机构的交流以及审核反馈的汇总,中国企业在 IVDR 性能评价方面有几类高频问题。
把性能评价当成文书工作。这是最根本的问题。有些企业找模板、填数据、出报告,整个过程缺少科学论证的思维。PE 文件看起来"有",但经不起推敲——文献检索没有方案、分析性能实验设计不合理、临床性能数据与预期用途对不上。公告机构审的不是文件格式,而是论证的逻辑链。
文献检索方法不过关。很多 SVR 中的文献综述是"找论文"而不是"做系统检索"。没有检索策略、没有纳入排除标准、没有检索结果的量化记录。公告机构越来越关注文献检索的规范性,MDCG 2022-2 对此有明确的方法论要求。
干扰和交叉反应研究缺失。分析性能评估中最容易被忽略的两项。有些企业做了精密度和正确度,就认为分析性能够了。但对于免疫诊断产品,交叉反应是公告机构的必查项;对于生化诊断产品,内源性干扰(溶血、脂血、胆红素)实验不可缺少。
临床性能研究设计不合理。样本量不足是最常见的问题——20-30 例样本就想论证一个诊断产品的灵敏度/特异性,统计效力远远不够。其次是对照组选择不当,未能代表目标人群的真实分布。
PE 结论与 GSPR 不挂钩。性能评价报告的结论停留在"产品性能符合要求"这个层面,没有具体映射到 IVDR Annex I 中的通用安全与性能要求。技术文件中 GSPR 论证部分写着"参见性能评价报告",但性能评价报告中找不到对应的论证段落。
低估 PMPF 的要求。有些企业认为拿到 CE 证书就完成了性能评价,把 PMPF 当成上市后的一个例行流程。实际上 IVDR 明确要求 PMPF 是性能评价的延伸,PMPF 数据要持续纳入 PE 更新。对于 Class C/D 产品,PMPF 计划的质量直接影响 PSUR 的可信度。
证据包准备路径与建议
对于正在准备 IVDR 性能评价的中国 IVD 企业,我们建议按以下路径推进。
差距分析。对照 IVDR Annex XIII Part A 和 MDCG 2022-2,评估现有数据的完整性。具体来说:你有没有做过系统文献检索?分析性能参数是否覆盖了 Annex I Section 9.1 的全部适用项?临床性能证据来源是什么——文献还是原始研究?差距分析的结果将决定后续工作量。
制定 PEP。在动手做实验或写报告之前,先把 PEP 写好。PEP 中明确三支柱的策略、每个支柱的证据来源、接受标准、GSPR 映射。这一步看似耗时,实际上能避免后续大量返工。
科学有效性先行。SVR 是三支柱的基础。先把文献检索做完,搞清楚分析物的科学基础是否牢固。如果科学有效性存在知识空白,后续的分析性能和临床性能策略可能需要调整。
分析性能实验设计。根据产品的检测原理和预期用途,确定需要评估的参数清单。参照 CLSI 系列标准(EP05 精密度、EP06 线性、EP07 干扰、EP17 检出限等)设计实验方案。实验设计要在 PEP 中预先记录,包括样本量、接受标准、统计方法。
临床性能策略制定。根据产品风险等级和预期用途,决定是走文献路径还是做临床研究。如果需要做临床研究,尽早确定样本量、研究设计(回顾性/前瞻性)、对比方法、统计方案。临床研究的启动和执行周期较长,应当提前规划。
文档结构统一。确保 SVR、APR、CPR 三份报告的预期用途描述、性能声明和术语使用保持一致。最终写 PER 时,三支柱的证据要形成连贯的论证链条,结论要明确关联到 GSPR。
建立更新机制。PE 不是一锤子买卖。产品上市后,PMS 数据、PMPF 数据、文献更新、客户投诉、不良事件等信息都要纳入 PE 的持续更新。建议在 PEP 中就明确更新的触发条件和频率。
就我们看到的案例来说,准备充分的 IVDR 性能评价通常需要 6-12 个月的时间(含临床性能研究则需要更久)。时间主要花在三个地方:文献检索与分析(1-2 个月)、分析性能实验(2-4 个月)、临床性能研究(3-6 个月,如需要)。把这三个环节并行规划,可以压缩整体周期。
参考资源
- MDCG 2022-2: Guidance on general principles of clinical evidence for IVD medical devices — 欧盟 MDCG 发布的 IVD 临床证据指导原则,性能评价方法论的权威参考
- Performance evaluation according to IVDR: Requirements and evidence (Seleon) — IVDR 性能评价要求的系统性梳理
- Performance evaluation under the IVDR: A practical overview (Decomplix) — 三支柱框架的实操解读
- How to write a Performance Evaluation Report (Greenlight Guru) — PER 撰写方法论与结构指南
- Clinical evidence for IVD performance evaluation (MedFiles) — IVD 临床证据策略与分析