IVDR性能评估三支柱实操：科学有效性、分析性能与临床性能证据包怎么做

IVDR Article 2(44) 对性能评价（Performance Evaluation）的定义简洁而精准："对数据进行评估和分析，以确立或验证器械的科学有效性、分析性能以及（在适用时）临床性能。"一句话点出了性能评估的三个支柱。问题在于，这三个支柱该怎么落地——怎么收集证据、怎么写报告、怎么对应不同风险等级的要求——IVDR 法规本身给的是框架，实操层面的细节散落在 MDCG 指南、协调标准和公告机构的审核实践中。

在我们接触的中国 IVD 企业里，性能评估文件被公告机构退回的比例相当高。退回的原因往往不是数据不好，而是报告结构与法规要求对不上：科学有效性没有系统文献综述支撑，分析性能参数缺项，临床性能数据和预期用途脱节。这些问题不难解决，但前提是搞清楚 IVDR 到底要什么、每个支柱的证据包长什么样。

从IVDD到IVDR：性能评估的范式转变

IVDD 时代，大部分 IVD 产品走自我声明路径，公告机构只审查清单 A/B 产品（约占全部 IVD 的 10-20%）。性能评价在实践中被简化为一组检验报告——拿到参考实验室的数据，加上几个精密度实验，基本就够用了。那时候没有"科学有效性报告""分析性能报告""临床性能报告"这样的文件概念，更不存在三支柱的体系化要求。

IVDR 把这个局面彻底改写了。法规将约 80% 的 IVD 产品纳入公告机构审查范围（仅 Class A 非无菌器械可自我声明），并在 Annex XIII Part A 中明确要求：性能评价必须涵盖科学有效性、分析性能和临床性能三个维度，三个维度各自的证据需要分别评估、综合分析，最终汇总到性能评价报告（PER）中。

这个转变的本质不只是"多写几份报告"。IVDR 要求的是一种证据驱动的思维——你的产品声称能检测某个指标，那你必须证明：这个指标和临床状态之间的关系是有科学依据的（科学有效性），你的产品能准确稳定地检测这个指标（分析性能），检测结果确实能帮助临床决策（临床性能）。三根柱子缺一根，整个结构站不住。

还有一个容易被忽略的点：IVDR 下的性能评价是持续过程，不是一次性文件。法规要求制造商在整个产品生命周期内持续更新性能评价，将上市后监督（PMS）和上市后性能跟踪（PMPF）的数据纳入分析。这意味着你的证据体系必须是活的，能不断吸收新数据、回应新问题。

三支柱框架：不是三份独立的报告

在展开每个支柱之前，有必要澄清一个常见误解。有些企业把科学有效性报告（SVR）、分析性能报告（APR）和临床性能报告（CPR）当作三份各自独立的文件来准备，各自成章、互不引用。这种做法在公告机构审查时会暴露问题。

三支柱是一个证据链条。科学有效性回答的是"测这个指标有没有道理"，分析性能回答的是"你的产品能不能准确测出这个指标"，临床性能回答的是"测出来之后对临床有没有用"。三者的逻辑是递进的——没有科学有效性作为基础，分析性能就失去了意义；没有分析性能的保证，临床性能数据就不可靠。因此，三份报告之间必须有交叉引用，最终在 PER 中形成连贯的论证。

IVDR Annex XIII Part A 对此表述得明确：性能评价计划（PEP）需同时覆盖三个支柱，性能评价报告（PER）需对三个支柱的数据进行"critical evaluation"（批判性评估）。批判性评估意味着不是简单罗列数据，而是要分析数据的充分性、一致性和局限性，得出有说服力的结论。

支柱一：科学有效性报告（SVR）怎么做

科学有效性（Scientific Validity）要证明的核心命题是：被测量的分析物（analyte）与某种临床状态或生理过程之间存在有据可查的关联。比如，HbA1c 与糖尿病长期血糖控制之间的关系，或 troponin 与心肌损伤之间的关系——这些关联不是产品制造商自己定义的，而是由科学共同体在长期研究中确立的。

证据来源

MDCG 2022-2 指南列出了科学有效性证据的主要来源：

科学文献：系统性文献检索是最核心的证据来源。检索范围应覆盖主要生物医学数据库（PubMed、Embase、Cochrane Library 等），检索策略需要记录在案、可复现。
专家意见：当文献不足以完全覆盖时，可以引用领域专家的书面意见作为补充证据。专家需具备相关学术或临床资质，意见需有据可查。
概念验证研究：对于新型生物标志物或创新检测原理，可能需要自行开展探索性研究来初步建立分析物与临床状态的关联。
临床性能研究数据：如果制造商已经进行了临床性能研究，其中的数据也可以反过来支撑科学有效性。

文献检索的方法论要求

这是中国企业的常见薄弱环节。很多 SVR 里的"文献综述"实际上是随意找了十几篇相关论文摘抄摘要，既没有检索策略，也没有纳入排除标准。这种做法在公告机构审核中无法通过。

正规的文献检索流程：

明确检索问题（PICO 格式：人群、干预/指标、对照、结局）
确定检索词和逻辑组合
选择数据库（至少两个，建议 PubMed + Embase）
设定纳入/排除标准
执行检索并记录结果数量
按标准筛选文献（标题初筛 → 摘要复筛 → 全文终筛）
提取数据并进行质量评价
综合分析，得出结论

整个过程需要记录在文献检索方案（Literature Search Protocol）中，保留检索截图或导出记录。就实际经验而言，一篇扎实的 SVR 通常需要引用 30-80 篇文献，涵盖分析物的生物学基础、临床关联证据、国内外指南共识等多个方面。

SVR 的报告结构

一份完整的科学有效性报告应包含：

分析物信息（名称、分子特征、检测原理）
临床背景（目标疾病/状态的流行病学、临床意义）
文献检索方案与检索结果
证据综合分析（支持分析物与临床状态关联的证据强度）
结论（科学有效性是否得到确立，是否存在知识空白）

对于成熟的分析物（如 glucose、HBsAg），科学有效性通常可以完全通过文献确立。对于新型标志物，可能需要补充原始研究数据。两者的证据强度要求不同，但论证逻辑是一致的。

支柱二：分析性能报告（APR）的每一个参数

分析性能（Analytical Performance）要回答的是：你的 IVD 产品在实验室条件下能不能准确、稳定地检测目标分析物。IVDR Annex I Section 9.1 列出了需要评估的性能参数，这是法规对分析性能最具体的条款要求。

必须评估的参数

每个参数的含义和实操要点：

分析灵敏度 / 检出限（Analytical Sensitivity / LoD）——产品能检测到的最低分析物浓度。LoD（Limit of Detection）和 LoQ（Limit of Quantitation）是两个概念：LoD 是"能检出"的最低浓度，LoQ 是"能准确定量"的最低浓度。对于定性产品，LoD 是关键参数；对于定量产品，LoD 和 LoQ 都需要确定。实验方法通常采用系列稀释或低浓度样本重复检测。

分析特异性（Analytical Specificity）——产品只对目标分析物产生反应、不受其他物质干扰的能力。这包括两个子项：内源性干扰（溶血、脂血、胆红素等常见样本基质干扰）和外源性干扰（常用药物、食物成分等）。需要设计干扰实验，在目标浓度附近加入潜在干扰物，评估对检测结果的影响。

交叉反应（Cross-reactivity）——产品与结构相似或临床相关的非目标分析物发生反应的情况。对于免疫诊断产品，这项研究尤为关键。需要选择与目标分析物结构相近的物质、同一生物家族的其他成员、临床样本中可能共存的病原体等进行交叉反应测试。

正确度 / 偏倚（Trueness / Bias）——检测结果与真实值（或参考值）之间的一致程度。可以通过与参考方法比对、使用有证参考物质（CRM）或参加能力验证（PT/EQA）来评估。

精密度（Precision）——重复检测同一标本时结果的一致性。包括两个层面：重复性（repeatability，同一操作者、同一仪器、同一批次、短时间内）和再现性（reproducibility，不同操作者、不同仪器、不同批次、不同实验室、不同天数）。CLSI EP05-A3 是精密度实验设计的主要参考标准。

准确度（Accuracy）——正确度和精密度的综合效应，即单个检测结果与真实值的接近程度。在有些情况下可以通过与金标准方法比对来直接评估。

测量范围与线性（Measuring Range / Linearity）——产品在规定的浓度范围内，检测结果与分析物实际浓度呈线性关系的范围。需要用系列稀释的标准品验证线性范围，通常参照 CLSI EP06-A。

Cut-off 值——对于定性产品，cut-off 是区分阳性和阴性的临界值。cut-off 的设定直接影响产品的诊断灵敏度和特异性，需要基于临床样本的 ROC 曲线分析或统计学方法确定。

标本采集与处理要求——标本类型（血清、血浆、全血、尿液等）、采集方法、抗凝剂选择、保存条件、运输条件、冻融影响等。这些因素直接影响检测结果的可靠性，需要在分析性能评估中予以验证。

APR 的报告结构

分析性能报告应包含：

检测方法与仪器平台描述
各参数的实验设计（参照标准、样本量、接受标准）
原始数据与统计分析
与声明性能指标的比较
结论与局限性

一个容易忽略的细节：APR 中每个实验的接受标准（acceptance criteria）应当在性能评估计划（PEP）中预先设定，而不是实验做完之后再定。先射箭再画靶，公告机构是能看出来的。

支柱三：临床性能报告（CPR）什么时候需要做临床研究

临床性能（Clinical Performance）要证明的是：你的 IVD 产品给出的检测结果，确实与目标临床状态相关联，能够支持临床决策。这涉及几个关键指标：

诊断灵敏度（Diagnostic Sensitivity）：在患病人群中正确检出阳性的比例
诊断特异性（Diagnostic Specificity）：在健康人群中正确检出阴性的比例
阳性预测值（PPV，Positive Predictive Value）：检测结果为阳性时，实际患病的概率
阴性预测值（NPV，Negative Predictive Value）：检测结果为阴性时，实际未患病的概率
似然比（Likelihood Ratios）：阳性似然比和阴性似然比，综合反映检测的鉴别能力
正常人群和患病人群的预期值：目标人群中检测结果的分布特征

什么时候必须做临床性能研究

对于成熟的分析物且检测原理成熟的产品（如常规生化试剂），临床性能数据可以通过文献综述获得，不一定要做新的临床研究。但以下几种情况通常需要开展临床性能研究：

新型生物标志物或新的临床预期用途
伴随诊断（Companion Diagnostics）产品
筛查用途的产品（对灵敏度和特异性有更高要求）
自测产品（ layperson 使用场景，需评估用户理解能力）
近患检测（POCT）产品（非实验室环境使用，需验证现场性能）

Class C 和 Class D 产品，公告机构通常要求提供临床性能研究数据。MDCG 2022-2 指南也明确指出，随着风险等级升高，对临床证据强度和直接性的要求也相应提高。

临床性能研究的设计要点

如果需要做临床性能研究，设计阶段就要考虑几个关键问题：

样本量怎么定。不能随意选一个数字，需要基于统计学方法计算——根据预期的灵敏度/特异性、置信区间宽度、目标人群患病率等参数，用公式或软件（如 PASS、nQuery）确定最低样本量。样本量不足是公告机构退回 CPR 的常见原因。

对比方法怎么选。通常需要一个已上市的同类型产品作为对比试剂（comparator），或者以临床诊断金标准作为参考。对比方法的选择需要在方案中论证。

样本来源。IVD 临床性能研究可以用剩余标本（residual specimens），不一定需要前瞻性采集。ISO 20916:2019 是 IVD 临床性能研究的国际参考标准。

CPR 的报告结构

临床性能报告应包含：

临床背景与研究目的
文献检索结果（如有）
临床性能研究方案（研究设计、样本量论证、纳入/排除标准、统计方法）
研究结果（灵敏度、特异性、PPV/NPV、似然比、置信区间）
亚组分析（如适用）
与文献数据的综合分析
结论（临床性能是否支撑预期用途）

性能评估计划（PEP）：动笔之前的第一步

很多企业拿到产品直接开始写 SVR、APR、CPR，写到一半发现三个报告的预期用途描述不一致，或者某个分析性能参数的接受标准无法确定。这些问题都可以通过先做性能评估计划（Performance Evaluation Plan）来避免。

IVDR Annex XIII Part A 要求制造商在开展性能评价之前制定 PEP，PEP 是整个性能评价的纲领性文件。它的核心内容应包括：

器械描述：产品名称、型号、预期用途、适用人群、检测原理、标本类型
性能声明：产品声称达到的性能指标（灵敏度、特异性、LoD 等）
三支柱的方法论：每个支柱将采用什么方法收集证据（文献检索、实验研究、临床研究）
文献检索方案：数据库、检索策略、纳入/排除标准
分析性能参数清单：需要评估哪些参数、对应的实验方案、接受标准
临床性能策略：是否需要临床研究、样本量论证、对比方法选择
GSPR 映射：哪些通用安全与性能要求将通过性能评价来论证
收益-风险评价方法：如何判断证据是否足以支撑产品的收益-风险比
PMPF 策略：上市后如何持续收集性能数据

MDCG 2022-2 还建议 PEP 考虑以下因素：产品的创新程度、分析物的科学有效性成熟度、目标人群的变异性、疾病流行率、现有参考物质或参考方法的可用性等。这些因素会影响证据强度和数量的需求。

PEP 不是静态文件。随着性能评价的推进，如果发现需要调整方案（比如增加某个分析性能参数的评估），应当在 PEP 中记录变更理由。公告机构审核时，会关注 PEP 与实际执行之间的一致性。

性能评估报告（PER）：三支柱怎么合而为一

性能评价报告（Performance Evaluation Report）是三支柱证据的最终汇总。它不是把 SVR、APR、CPR 简单装订在一起，而是一个独立的、具有论证性的文件。

PER 的核心任务是：

综合分析。把三个支柱的数据放在一起审视，分析证据的一致性和充分性。比如，SVR 中文献报告的分析物参考范围是否与 APR 中的测量范围吻合？CPR 中的临床灵敏度是否与 APR 中的分析灵敏度一致？

论证收益-风险比。IVDR 要求制造商基于性能评价数据论证产品的收益-风险比可接受。这不是一句"收益大于风险"就能交差的，需要结合具体数据：产品的诊断准确度是多少？假阳性/假阴性的临床后果是什么？现有替代方案的局限性在哪里？你的产品相比现有方案提供了什么额外的价值？

关联 GSPR。IVDR Annex I 的通用安全与性能要求中，有多条与性能直接相关（特别是 Section 9 中的性能要求）。PER 需要明确说明每条相关 GSPR 是如何被性能评价数据所论证的。很多企业忽略了这一步，导致技术文件中 GSPR 论证和性能评价报告之间存在空白地带。

明确结论和局限性。PER 应当给出清晰的结论：性能评价数据是否充分支撑产品的预期用途？是否存在需要通过 PMPF 进一步收集数据的领域？哪些结论是基于有限样本量或特定人群得出的？

一个实操建议：PER 的摘要部分应当能独立回答公告机构的核心关切——你的产品检测什么、用于什么临床场景、性能数据是否充分、风险是否可控。如果摘要做不到这一点，说明报告的论证主线不够清晰。

按风险等级的分级要求对照

不同风险等级的 IVD 产品，性能评价的深度和广度要求差异显著。以下是 Class A 到 Class D 的对照：

要求维度	Class A	Class B	Class C	Class D
公告机构介入	否（自我声明）	是（审核 QMS + 抽查技术文档）	是（全面技术文档审核）	是（全面审核 + 专家小组）
性能评价（PE）	需要	完整 PE	完整 PE	完整 PE
科学有效性	文献综述	系统文献综述	系统文献综述 + 可能需原始研究	系统文献综述 + 可能需原始研究
分析性能	基本参数	全部适用参数	全部适用参数	全部适用参数
临床性能	视预期用途	通常可用文献	通常需要临床性能研究	需要临床性能研究
PMPF	基本要求	需要	需要	需要
PSUR	不需要	不需要	需要	需要
SSP（安全与性能总结）	不需要	不需要	不需要	需要
专家小组咨询	不涉及	不涉及	可能涉及	通常涉及
更新频率	按需	定期	至少每年评估更新	至少每年更新

需要强调几个重点。

Class A 虽然不需要公告机构审查，但 PE 仍然是法规要求的，不能因为没人查就不做。从合规风险的角度看，一旦产品出现问题，PE 文档将是监管审查的首要对象。

Class C（伴随诊断、基因检测、肿瘤标志物等）是当前中国 IVD 出海企业最集中的类别。这个级别的产品，公告机构对临床性能证据的要求相当高，纯文献路径通常不够，需要做临床性能研究。同时 Class C 需要 PSUR（定期安全更新报告），这意味着 PE 必须定期更新，PMPF 数据要纳入分析。

Class D（血源安全筛查、危及生命的传染病原体检测）的审查最为严格，涉及专家小组（Expert Panel）咨询，对证据质量和直接性的要求最高。

中国IVD企业的常见失败场景

根据我们与多家公告机构的交流以及审核反馈的汇总，中国企业在 IVDR 性能评价方面有几类高频问题。

把性能评价当成文书工作。这是最根本的问题。有些企业找模板、填数据、出报告，整个过程缺少科学论证的思维。PE 文件看起来"有"，但经不起推敲——文献检索没有方案、分析性能实验设计不合理、临床性能数据与预期用途对不上。公告机构审的不是文件格式，而是论证的逻辑链。

文献检索方法不过关。很多 SVR 中的文献综述是"找论文"而不是"做系统检索"。没有检索策略、没有纳入排除标准、没有检索结果的量化记录。公告机构越来越关注文献检索的规范性，MDCG 2022-2 对此有明确的方法论要求。

干扰和交叉反应研究缺失。分析性能评估中最容易被忽略的两项。有些企业做了精密度和正确度，就认为分析性能够了。但对于免疫诊断产品，交叉反应是公告机构的必查项；对于生化诊断产品，内源性干扰（溶血、脂血、胆红素）实验不可缺少。

临床性能研究设计不合理。样本量不足是最常见的问题——20-30 例样本就想论证一个诊断产品的灵敏度/特异性，统计效力远远不够。其次是对照组选择不当，未能代表目标人群的真实分布。

PE 结论与 GSPR 不挂钩。性能评价报告的结论停留在"产品性能符合要求"这个层面，没有具体映射到 IVDR Annex I 中的通用安全与性能要求。技术文件中 GSPR 论证部分写着"参见性能评价报告"，但性能评价报告中找不到对应的论证段落。

低估 PMPF 的要求。有些企业认为拿到 CE 证书就完成了性能评价，把 PMPF 当成上市后的一个例行流程。实际上 IVDR 明确要求 PMPF 是性能评价的延伸，PMPF 数据要持续纳入 PE 更新。对于 Class C/D 产品，PMPF 计划的质量直接影响 PSUR 的可信度。

证据包准备路径与建议

对于正在准备 IVDR 性能评价的中国 IVD 企业，我们建议按以下路径推进。

差距分析。对照 IVDR Annex XIII Part A 和 MDCG 2022-2，评估现有数据的完整性。具体来说：你有没有做过系统文献检索？分析性能参数是否覆盖了 Annex I Section 9.1 的全部适用项？临床性能证据来源是什么——文献还是原始研究？差距分析的结果将决定后续工作量。

制定 PEP。在动手做实验或写报告之前，先把 PEP 写好。PEP 中明确三支柱的策略、每个支柱的证据来源、接受标准、GSPR 映射。这一步看似耗时，实际上能避免后续大量返工。

科学有效性先行。SVR 是三支柱的基础。先把文献检索做完，搞清楚分析物的科学基础是否牢固。如果科学有效性存在知识空白，后续的分析性能和临床性能策略可能需要调整。

分析性能实验设计。根据产品的检测原理和预期用途，确定需要评估的参数清单。参照 CLSI 系列标准（EP05 精密度、EP06 线性、EP07 干扰、EP17 检出限等）设计实验方案。实验设计要在 PEP 中预先记录，包括样本量、接受标准、统计方法。

临床性能策略制定。根据产品风险等级和预期用途，决定是走文献路径还是做临床研究。如果需要做临床研究，尽早确定样本量、研究设计（回顾性/前瞻性）、对比方法、统计方案。临床研究的启动和执行周期较长，应当提前规划。

文档结构统一。确保 SVR、APR、CPR 三份报告的预期用途描述、性能声明和术语使用保持一致。最终写 PER 时，三支柱的证据要形成连贯的论证链条，结论要明确关联到 GSPR。

建立更新机制。PE 不是一锤子买卖。产品上市后，PMS 数据、PMPF 数据、文献更新、客户投诉、不良事件等信息都要纳入 PE 的持续更新。建议在 PEP 中就明确更新的触发条件和频率。

就我们看到的案例来说，准备充分的 IVDR 性能评价通常需要 6-12 个月的时间（含临床性能研究则需要更久）。时间主要花在三个地方：文献检索与分析（1-2 个月）、分析性能实验（2-4 个月）、临床性能研究（3-6 个月，如需要）。把这三个环节并行规划，可以压缩整体周期。

参考资源

MDCG 2022-2: Guidance on general principles of clinical evidence for IVD medical devices — 欧盟 MDCG 发布的 IVD 临床证据指导原则，性能评价方法论的权威参考
Performance evaluation according to IVDR: Requirements and evidence (Seleon) — IVDR 性能评价要求的系统性梳理
Performance evaluation under the IVDR: A practical overview (Decomplix) — 三支柱框架的实操解读
How to write a Performance Evaluation Report (Greenlight Guru) — PER 撰写方法论与结构指南
Clinical evidence for IVD performance evaluation (MedFiles) — IVD 临床证据策略与分析