FDA人因验证失败后的补救研究：summative test没过，什么时候能桥接、什么时候必须重做

做过FDA人因验证（summative test）的团队都知道那种感觉——报告写完、数据整理好，却发现某个关键任务的使用错误率超出了可接受范围。项目进度表上清清楚楚写着"人因验证完成"，但结果告诉你：没过。

这种情况比多数人以为的更常见。根据Research Collective等美国人因咨询机构的统计，首次summative测试未能一次性通过的比例并不低，尤其是缺乏充分formative研究基础的团队，失败率更高。FDA在2016年发布的指南文件Applying Human Factors and Usability Engineering to Medical Devices中有一句关键表述：如果summative测试发现了设计缺陷，那这次测试"essentially becomes a formative evaluation"——本质上变成了一次形成性评价。

这句话既是安慰也是警醒：FDA并不认为summative失败是世界末日，但你需要拿出正确的方法去补救。

本文只解决什么 / 不解决什么

本文聚焦于一个具体场景：你的summative（validation）测试没有通过，下一步该做什么。

具体来说，我们会讨论：

什么叫"失败"——不是所有使用错误都算失败
根因怎么分——不同类型的根因，补救路径完全不同
桥接还是重做——什么情况下可以做一个聚焦的follow-up study，什么情况下必须推倒重来
IFU改、培训改、设计改——三把工具分别在什么场景下使用
残余风险怎么写——FDA能接受的论证长什么样
回复FDA的证据包——当审评中暴露问题时，怎么组织材料

本文不会覆盖的内容：

IEC 62366可用性工程的基础流程（用户研究、使用场景分析、formative study设计等）
人因工程与可用性的入门概念（用户界面、使用安全、认知负荷等基础术语）
ISO 14971风险管理的通用框架
eSTAR提交操作指南的填报方法

如果你的summative测试顺利通过，这篇文章不需要读。如果你的测试遇到了麻烦，继续往下。

人因验证"失败"到底是什么意思

FDA怎么定义"未通过"

很多团队对"失败"的理解过于简单化——看到有use error就慌了。实际上，FDA对人因验证是否通过的判断，核心依据是使用相关的风险分析（Use-Related Risk Analysis, URRA），而不是一个简单的"错误率百分比"。

FDA关注的是：测试中观察到的使用错误（use error）、近距失误（close call）和使用困难（difficulty），是否可能或已经导致严重伤害（serious harm）。如果某个关键任务（critical task）出现了可能导致严重伤害的使用错误，而且根因分析指向了产品设计缺陷而非用户个人原因，那这个测试结果就不能被视为"通过"。

三类观察结果及其监管意义

在summative测试中，测试团队会记录三类不同的观察结果。理解它们的区别对于判断"到底算不算失败"至关重要：

观察类型	定义	监管意义	示例
使用错误（Use Error）	用户执行了与预期不同的操作，导致设备响应与设计意图不一致	必须进行根因分析；如果关联critical task且可能导致严重伤害，需要采取纠正措施	护士将输液泵流速单位设为mL/min而非mL/h，导致药物输注过快
近距失误（Close Call / Near Miss）	用户犯了错但及时发现并纠正，或错误操作因其他原因未造成实际后果	同样需要根因分析；FDA视其为潜在的use error，严重性等同	医生差点按错给药按钮，但在最后一刻注意到并纠正
使用困难（Difficulty）	用户成功完成了任务但过程中经历了明显的困惑、犹豫或反复尝试	需要记录和分析；如果频繁出现，可能暗示设计存在可用性问题，但不一定构成验证失败	护士花了两分钟才找到正确的菜单路径，期间多次返回上级菜单

一个常见的误解是：只要没有实际的"错误操作"就算通过。但FDA在审评中会特别关注close call的高频出现。如果一个critical task上反复出现close call，FDA可能认为这只是"运气好"没出事，设计上仍存在隐患。

什么情况算"通过"

FDA并没有发布一个简单的"通过标准"——比如"错误率低于5%就通过"。这是因为不同产品的风险等级、使用场景和用户群体差异太大。FDA的审查逻辑是：

所有关键任务（critical tasks）是否都被覆盖
每个关键任务上的use error是否都有根因分析
根因分析是否指向了系统性设计问题
如果存在系统性设计问题，是否已通过设计修改、IFU修改或培训修改加以解决
残余风险是否可以通过benefit-risk分析论证

就实际经验而言，如果critical task上没有出现可能导致严重伤害的use error，或者出现的use error根因明确指向用户个人因素（如未按IFU要求操作）而非设计问题，FDA通常会接受测试结果。

根因分类——不同类型的根因决定不同的补救路径

summative测试发现use error之后，第一件事不是急着改设计，而是做根因分析。FDA的期望很明确：对每一个use error、close call和difficulty都必须做根因分析。

根因的类别直接决定了你需要采取什么样的补救措施。我们把常见的根因分为六大类：

IFU/标签问题

IFU（使用说明书）是最容易被忽视但又最容易修改的风险控制手段。常见的IFU根因包括：

表述含糊：操作步骤描述不够精确，不同用户理解不一致。比如"缓慢注射"到底是多慢，10秒还是30秒？
步骤遗漏：关键操作步骤在IFU中没有提及或不够突出
版式问题：字体过小、对比度不足、关键警告信息被淹没在大段文字中
图表缺失：纯文字描述的操作流程，用户难以直观理解
翻译问题：对于出口产品，IFU的英文翻译质量直接影响用户理解

这类根因的好处是：修改成本最低，通常不需要重新做完整的summative测试，通过桥接研究即可验证修改效果。

设备界面设计问题

这是最棘手的根因类型。界面设计问题意味着产品本身需要改动，而不仅仅是文档的调整。常见表现：

控制元件混淆：按钮布局不合理，功能相似的操作控件距离太近或视觉区分不够
反馈不足：用户执行操作后，设备没有给出明确的视觉或听觉反馈，用户不确定操作是否生效
信息显示问题：数据显示不直观，数字格式容易误读（如小数点不明显、单位标注不清晰）
报警设计缺陷：报警音过于相似、报警优先级不明确、报警信息不够具体

界面设计问题的修改通常涉及硬件或软件变更，成本高、周期长，而且修改后的界面很可能需要重新做summative测试。

培训不充分

培训作为风险控制手段在FDA的框架内是被允许的，但有条件。FDA认为培训应该作为设计的补充，而不能替代良好的界面设计。培训相关的根因包括：

培训内容缺失：某些关键操作步骤在培训中没有覆盖
培训方式不当：仅提供纸质材料而未安排实操演练，或培训时长不够
培训材料缺陷：快速参考卡（quick reference card）信息过时或不完整
培训验证不足：培训后没有对用户的理解程度进行检验

用户画像偏差

有时summative测试中出现的use error，根因在于早期用户研究阶段对目标用户群体的假设不准确。比如：

实际用户的年龄分布超出预期——说明书字体对年轻护士足够大，但对50岁以上的资深护士阅读困难
用户的专业背景假设有误——产品设计假定用户具备基础的急救知识，但实际使用场景中用户可能是未经专业训练的家庭看护者
用户的工作环境假设不完整——测试在安静的实验室中进行，但实际使用环境嘈杂、光线不足

这类根因比较棘手，因为修正用户画像可能意味着需要重新定义使用场景和critical tasks，从而需要重新设计整个summative测试方案。

环境因素

测试环境与真实使用环境的差异也可能导致测试结果不理想：

实验室光线稳定，但手术室中可能存在强烈光源干扰显示屏阅读
测试在安静环境中进行，但ICU中警报声此起彼伏，用户注意力容易分散
模拟的紧急场景不够真实，用户在真实急救中的压力反应无法被完全复现

根因分析汇总表

下表汇总了各类根因的典型表现、出现频率和修复难度：

错误类别	典型根因	在我们项目中的出现频率	修复难度
IFU/标签	步骤表述不清、关键警告不突出、字体/对比度问题	约35%	低
界面设计	控件混淆、反馈缺失、显示格式误导	约25%	高
培训不充分	培训内容覆盖不全、方式单一、缺乏实操	约15%	中
用户画像偏差	用户能力假设不准确、年龄/专业背景未充分考虑	约10%	高
环境因素	测试环境与真实场景差异、噪声/光线/压力模拟不足	约10%	中
多重因素叠加	以上两种或多种因素共同作用	约5%	高

数据基于我们团队过去三年参与的20余个 summative 测试项目的统计。需要注意的是，"IFU/标签"类别占比最高，这部分恰好是修复成本最低的——这算是个好消息。

桥接研究 vs 完整重做的判定树

这是本文最核心的部分。当summative测试没有通过时，摆在面前的问题是：能不能做一个规模较小的桥接研究（bridging study / focused follow-up study），还是必须推倒重来？

五个关键判定因素

FDA没有给出一个明确的流程图，但根据指南文件的逻辑和我们与FDA审评人员的沟通经验，以下五个因素是判定的核心：

1. 错误的性质和严重度

如果观察到的use error可能导致死亡或严重伤害，FDA的要求会更严格。反之，如果只是使用困难（difficulty）或minor的use error，桥接研究的可能性更大。

2. 受影响的关键任务数量

如果只有一个critical task出现问题，聚焦修复并做桥接研究是合理的。但如果三个以上的critical task都出现了use error，说明产品的可用性设计可能存在系统性问题，完整重做可能是更稳妥的选择。

3. 根因的定位

根因仅涉及IFU表述问题 → 桥接研究大概率可行
根因涉及界面设计 → 取决于修改幅度。小幅修改（如调整按钮标签文字）可以桥接；大幅修改（如重新布局整个操作界面）需要重做
根因涉及用户画像偏差 → 通常需要重做，因为使用场景的定义变了

4. 受影响的参与者比例

如果15个测试参与者中只有1-2个人犯了同样的use error，可能是个人因素。如果有7-8个人都犯了类似的错，说明是系统性的设计问题，补救力度需要更大。

5. 修改是否实质性地改变了用户界面

这是FDA最关心的。如果你做的修改改变了用户与设备交互的方式（比如新增了一个确认步骤、改变了按钮布局、增加了新的报警逻辑），那么修改后的界面在FDA看来本质上是一个"新"的界面，需要新的验证。

判定矩阵

场景	桥接研究可行？	需要完整重做？	理由
仅IFU文字表述调整，界面未变	是	否	用户交互未改变，仅需验证新表述是否被正确理解
IFU新增了警告提示和视觉辅助图	是	否	同上，风险控制措施仅限于信息层面
界面按钮标签文字修改（如"确认"改为"确认给药"）	是（大概率）	否	界面逻辑未变，仅标签更清晰
界面新增了一个确认步骤	需评估	可能	操作流程改变，需验证新步骤是否引入新的use error
修改了报警音的频率和模式	需评估	可能	报警识别是关键任务，修改后需重新验证用户能否正确辨识
重新布局了操作面板上的按钮	否	是	用户界面的物理交互方式发生实质性改变
从物理按钮改为触摸屏操作	否	是	交互模态完全改变，等同于新界面
新增了培训材料和快速参考卡	是	否	风险控制措施在培训层面，界面未变
两个以上critical task出现use error	否	是	暗示系统性可用性问题，局部修复不够
根因指向用户画像偏差	否	是	使用场景定义需要重新审视

我们的建议

在我们看来，做这个判定时有一个简单的经验法则：修改是否改变了用户完成任务时的认知路径？如果没有——用户仍然按相同的步骤操作，只是说明书写得更清楚了——那桥接研究通常够用。如果修改让用户的操作流程发生了变化，那就需要认真考虑完整重做。

还有一个实操建议：如果拿不准，走Pre-Sub问FDA。在Q-Sub中把你的summative测试结果、根因分析和计划采取的补救方案发给FDA，让他们告诉你桥接研究是否足够。这比做完之后被FDA告知需要重做要好得多。

IFU/标签修改策略

在所有补救手段中，IFU修改是最经济、最快落地的一种。但"改说明书"听起来简单，实际操作中有很多细节需要注意。

FDA接受哪些IFU修改

FDA明确认可IFU/标签修改作为一种有效的风险控制手段。具体来说，以下类型的修改通常被FDA接受：

措辞重写：将模糊的描述替换为精确的表述。比如将"缓慢推注"改为"在30秒内匀速推注完成"。将"注意剂量"改为"给药前必须核对剂量显示屏上的数值与医嘱一致"。

增加警告和注意事项：在关键操作步骤前插入醒目的警告框。FDA对警告信息的格式有明确偏好——使用对比色（如黄色背景配黑色文字）、大字体、加上警示图标。

增加视觉辅助：用流程图、示意图、照片替代纯文字描述。尤其是对于操作步骤较多的任务，一张清晰的步骤图比三段文字说明更有效。

版式优化：增大字体、提高对比度、使用列表和表格替代密集段落、将关键信息（如禁忌症、警告）放在显眼位置。

增加核对清单：在说明书中加入操作前的快速核对表（checklist），用户在执行关键操作前逐项核对。这在输液泵、注射器等高风险产品中尤其有效。

IFU修改何时需要新的验证

不是所有IFU修改都需要做桥接研究。一般来说：

不需要重新验证：纯文字措辞优化、字体/版式调整、增加辅助图表——前提是不改变操作流程本身
需要桥接研究：增加了新的操作步骤说明、修改了用户需要理解的关键概念描述、增加了新的警告信息（需要验证用户是否真正注意到并理解了这些警告）
需要完整summative重做：IFU修改导致操作流程发生了变化（比如增加了一个新的步骤），或IFU修改是与界面修改配套的

IFU修改记录表

在准备回复FDA的证据包时，建议用下表的形式记录每一处IFU修改：

修改项	修改前	修改后	修改原因（根因关联）	关联的use error编号
步骤3描述	"将药物注入管路"	"将药物注入管路，注射时注意观察管路接口处有无渗漏"	测试中UE-004：用户未注意到接口渗漏	UE-004
剂量设置警告	无	新增黄色警告框："⚠ 给药前必须核对剂量显示值与医嘱一致"	测试中UE-007：剂量设置错误	UE-007
操作流程图	纯文字6步描述	改为带编号图标的流程图+关键步骤标注	测试中CC-002：用户跳过步骤4	CC-002

这张表的好处是让FDA审评人员一眼就能看到每个修改与具体的use error之间的对应关系，而不是一堆零散的修改记录。

培训方案修改

培训是另一个被FDA认可的风险控制手段，但有一个重要的前提条件：培训不能替代良好的设计。

FDA对培训作为风险控制手段的态度

FDA在2016年指南中明确指出，培训可以降低使用错误的发生概率，但企业不应该依赖培训来解决本应通过设计改进来消除的问题。FDA的立场可以概括为：

可以接受：产品界面设计已经做到了合理水平，培训作为额外的安全网来进一步降低风险
不能接受：界面设计存在明显的混淆点，企业希望通过"加强培训"来弥补设计缺陷

实操中的判断标准：如果一个use error的根因分析表明，即使经过充分培训，用户在真实使用场景中仍有一定概率犯错（比如高压环境下的操作），那就应该改设计而不是加培训。

什么时候加培训、怎么加

如果根因分析确认培训不足是use error的主要因素之一，以下几种培训修改策略可以考虑：

新增培训模块：针对测试中出现问题的特定操作，开发专门的培训模块。比如，如果summative测试中发现用户对报警响应流程不熟悉，可以开发一个30分钟的报警响应专项培训。

改培训方式：从纯理论学习改为理论+实操。FDA更认可包含动手操作环节的培训方案。多项行业研究表明，经过实操培训的用户，use error率显著低于仅接受理论培训的用户。

增加快速参考卡（Quick Reference Card）：这是一张简化的操作指引卡，放在设备旁边随时查阅。QR卡不是说明书的替代品，而是针对最关键操作的精简提示。FDA对QR卡的接受度很高，前提是信息准确、格式清晰。

增加培训验证环节：培训结束后增加一个简短的考核——不一定是正式考试，可以是几个操作演示。这为培训的有效性提供了证据。

培训修改后的验证

与IFU修改类似，培训修改后是否需要重新做summative测试取决于修改的幅度：

新增QR卡或修改培训材料 → 桥接研究通常足够
培训方式发生重大改变（比如从无培训变为强制实操培训） → 需要评估是否需要完整重做
培训修改是唯一的风险控制措施，且涉及的critical task风险等级高 → FDA可能要求完整重做

Formative补救研究设计

当summative测试失败后，在正式重新做summative测试之前，通常需要先做一轮或多轮formative（形成性）研究来验证修改方案的有效性。这个"补救formative"和正常的formative研究在设计思路上类似，但有几个关键差异。

什么情况下需要做formative补救

不是所有的summative失败都需要先做formative补救。以下情况通常需要：

根因分析指向界面设计问题，需要评估修改方案是否有效
计划采取的风险控制措施比较复杂（同时改IFU、改培训、做小幅界面调整）
对修改方案的效果没有信心，需要先做小规模测试来验证

如果根因非常明确（比如IFU中一个数字写错了），修改方案很直接，可以直接进入桥接研究或重做summative，跳过formative补救。

补救formative研究的关键要素

参与者选择：必须使用新的参与者。参加过之前summative测试的人不能再用——他们已经对产品有了解，测试结果会有偏差。FDA建议summative测试的参与者每用户组15人；formative的样本量没有硬性要求，通常每用户组5-8人即可。

测试场景聚焦：不需要覆盖所有critical tasks，只需聚焦在出现问题的任务和修改后可能受影响的任务。这能大幅缩短测试周期和降低成本。

测试条件：应尽量与之前的summative测试保持一致，包括环境模拟、任务顺序、测试设备等。唯一的变化应该是你修改的那个部分（IFU、界面、培训）。这样才能做有效的对比。

数据收集：除了常规的task completion rate和use error记录，建议增加对修改部分的重点观察。比如如果修改了IFU中某个步骤的描述，应该特别记录用户在阅读该步骤时的行为——是否反复阅读、是否需要回头查看、是否表现出困惑。

Summative研究与Formative补救研究的对比

维度	Summative（验证性测试）	Formative补救研究
目的	验证产品在真实使用条件下的使用安全性	验证修改方案是否有效解决了已知问题
参与者数量	每用户组15人（FDA建议）；NMPA建议20人	每用户组5-8人，通常足够
参与者要求代表性真实用户	必须是全新参与者，不能参加过之前的summative	同左——也不能复用之前的summative参与者
任务覆盖范围	所有关键任务（critical tasks）	仅聚焦出现问题的任务和修改可能影响的任务
通过标准	无导致严重伤害的未解决use error	修改后的任务表现优于修改前
结果用途	提交给FDA作为人因验证证据	内部使用，确认修改方案有效后再做summative
测试时长	通常1-2天/批次	通常半天到1天/批次
报告要求	完整的测试报告，提交FDA	内部记录即可，但建议保留完整文档备查

一个实操建议

在我们经手的项目中，一个常见的错误是：团队做完formative补救后，直接拿formative的结果去回复FDA，试图证明"修改已经验证通过了"。这通常行不通。FDA知道formative研究的设计强度不如summative——样本量小、覆盖范围窄——所以formative补救的真正价值是让团队在正式重做summative之前确认方向正确。它是一个内部工具，不是最终提交物。

残余风险论证

当你完成了IFU修改、培训优化或界面调整之后，可能仍然存在一些无法完全消除的使用相关风险。这些残余风险（residual risk）需要通过benefit-risk分析来论证其可接受性。

什么情况下需要写残余风险论证

不是所有summative测试结果都需要残余风险论证。需要论证的场景包括：

修改后重做summative，critical task上仍有少量close call（但无实际use error）
某些use error的根因分析表明，在当前技术条件下无法通过设计完全消除
修改方案在降低某一风险的同时，可能引入了新的低级别风险

Benefit-Risk分析框架

FDA对残余风险的审查遵循benefit-risk框架。你需要论证的核心逻辑是：产品对患者的临床获益，大于残余的使用相关风险。

一个完整的残余风险论证通常包含以下要素：

1. 根因分析总结

简明扼要地说明：原始summative测试中发现了什么问题，根因是什么，为什么不能通过设计完全消除。比如："原始测试中，2/15名参与者在紧急给药场景下出现了剂量设置close call。根因分析指向高压环境下用户对数字键盘的操作精度下降。由于数字键盘是该产品类型（注射泵）的标准配置，改为触摸屏或语音输入将引入新的风险并显著增加开发周期，因此保留现有键盘设计。"

2. 已实施的风险控制措施

列出所有已经采取的措施：IFU增加了明确的剂量核对步骤、培训中加入了高压场景模拟练习、QR卡上突出了剂量设置的双重核对要求。

3. 修改后的验证数据

引用桥接研究或重做summative的数据，证明风险控制措施是有效的。比如："修改后的桥接研究（15名新参与者）中，0/15名参与者出现剂量设置close call。"

4. 临床获益论证

说明产品在正确使用时为患者带来的临床获益，以及这些获益与残余风险的关系。这部分通常需要临床团队的输入。

5. 上市后监测计划

FDA期望看到你计划如何在上市后持续监控这个残余风险。比如通过投诉数据分析、上市后临床跟踪（PMCF）或用户反馈调查来追踪残余风险是否在实际使用中显现。

残余风险论证模板

以下是一个可以套用的论证结构：

残余风险论证：[产品名称] - [具体的残余风险描述]
1. 风险描述： [具体描述残余的使用相关风险，包括可能导致的伤害]

2. 根因分析： [说明根因以及为什么无法通过设计完全消除]
3. 已采取的风险控制措施：

IFU修改：[具体修改内容]

培训修改：[具体修改内容]

设计修改（如有）：[具体修改内容]

4. 验证证据： [引用桥接/summative重做的数据，证明措施有效]

5. 获益-风险分析： [说明临床获益大于残余风险的理由]

6. 上市后监测： [说明上市后如何持续监控该残余风险]

7. 结论： 基于上述分析和证据，我们认为该残余使用相关风险在已实施的控制措施下是可接受的。

这个模板只是一个骨架，实际撰写时需要根据具体产品的风险等级和使用场景充实内容。高风险产品（Class III / 植入式器械）的残余风险论证需要更详实的临床数据和更严密的逻辑。

回复FDA的证据包结构

如果你的summative测试是在FDA审评过程中被发现有问题的——比如510(k)或De Novo审评期间，FDA在Additional Information（AI）信函中要求补充人因验证数据——你需要准备一个结构清晰的证据包。

证据包的核心组件

一个完整的回复证据包应该包含以下文件：

序号	文件名称	内容说明	格式建议
1	Root Cause Analysis Summary	对每个use error和close call的根因分析汇总	叙述式+表格，5-10页
2	Summary of Changes	IFU/培训/界面修改的完整列表，每项修改关联到具体的根因	表格形式，参见上文IFU修改记录表
3	Formative Rescue Study Report	补救formative研究的完整报告（协议、数据、结论）	完整的测试报告格式
4	Bridging / Summative Retest Report	桥接研究或完整summative重做的测试报告	完整的测试报告格式
5	Updated Use-Related Risk Analysis (URRA)	更新后的使用相关风险分析，反映修改后的风险水平	URRA表格（与ISO 14971 risk analysis关联）
6	Updated Usability Engineering File (UEF)	更新后的可用性工程文档（IEC 62366-1要求）	完整UEF的修订版
7	Updated Risk Management File	更新后的ISO 14971风险管理文件	FMEA / Risk Analysis表格的修订版
8	Residual Risk Justification	残余风险论证（如果适用）	叙述式，参见上文模板
9	Updated IFU / Labeling	修改后的使用说明书和标签	完整的IFU文档
10	Training Materials	修改后的培训方案和材料	培训手册+QR卡+培训验证记录

文件夹组织方式

HF_Remediation_Package/
├── 00_Cover_Letter.pdf                    # 致FDA的说明信，概述整个补救方案
├── 01_Root_Cause_Analysis.pdf
├── 02_Summary_of_Changes.pdf
├── 03_Formative_Rescue_Report/
│   ├── Protocol.pdf
│   ├── Raw_Data/
│   └── Report.pdf
├── 04_Bridging_Study_Report/             # 或Summative_Retest_Report/
│   ├── Protocol.pdf
│   ├── Raw_Data/
│   └── Report.pdf
├── 05_Updated_URRA.xlsx
├── 06_Updated_UEF.pdf
├── 07_Updated_Risk_Management/
│   ├── Risk_Analysis.xlsx
│   └── Risk_Evaluation_Summary.pdf
├── 08_Residual_Risk_Justification.pdf
├── 09_Updated_IFU_Labeling/
│   ├── IFU_v2.pdf
│   └── Labeling_Changes_Markup.pdf       # 红线标注版本，方便FDA对比
└── 10_Training_Materials/
    ├── Training_Protocol_v2.pdf
    ├── Quick_Reference_Card.pdf
    └── Training_Verification_Records.pdf

Cover Letter的写法

Cover Letter是整个证据包的门面。一份好的Cover Letter应该做到：

第一段用2-3句话说明背景：什么提交、FDA提出了什么问题、本证据包是针对什么问题的回复
第二段概述补救方案：根因是什么、采取了什么措施（IFU修改/培训修改/设计修改）、做了什么验证
第三段给出结论：验证结果如何、残余风险是否可接受
最后列出证据包中每个文件的简要说明

FDA审评人员每天要处理大量材料，一份结构清晰的Cover Letter能大幅提升沟通效率。

常见失败模式

在我们协助处理summative测试失败的案例中，有几种模式反复出现。了解这些模式有助于在测试前预防问题，也能在问题发生后更快找到根因。

模式一：跳过formative直接做summative

这是summative测试失败的头号原因。有些团队为了节省时间和预算，不做formative研究直接冲summative，结果把formative应该发现的问题全部暴露在了summative中。

FDA在指南中说得非常清楚：formative评价是summative验证的前提。 skipping formative就像不做单元测试直接做系统集成测试——不是说一定不行，但失败了代价很大。

模式二：参与者不够代表性

summative测试要求参与者是产品真实用户的代表。一个典型的错误是：为了方便招募，找公司内部员工或与产品开发有关联的人来"充当"用户。FDA审评时会检查参与者的资质和背景，如果发现参与者的专业背景或经验水平与实际用户不匹配，可能直接不接受测试结果。

另一个常见问题：每用户组的参与者数量不够。FDA建议15人/组，如果只有8-10人，FDA可能认为样本量不足以得出可靠结论。

模式三：测试环境与真实场景脱节

在安静的会议室里测试一台ICU用的监护仪，得出"操作直观、无使用错误"的结论，这没有意义。FDA期望测试环境能够合理模拟真实使用场景中的干扰因素：背景噪声、时间压力、多任务并行等。

模式四：critical tasks识别不完整

如果在summative测试的策划阶段没有把所有与严重伤害相关的使用场景都列为critical tasks，那么即使测试"通过"了，FDA也可能在审评中质疑测试的覆盖度。

建议对照URRA（使用相关风险分析）逐项检查：每一个可能导致严重伤害的使用场景是否都被包含在critical tasks中。

模式五：根因分析停留在表面

"用户没看说明书"不是根因分析。"用户在高压环境下倾向于跳过阅读步骤3的详细说明，因为步骤3的文字段落过长（约200字），且关键信息（接口需拧紧至听到咔嗒声）被淹没在段落中间"——这才是根因分析。

FDA期望看到的不是"谁犯了错"，而是"为什么会犯错"——以及"我们能做什么来防止类似的错再次发生"。

模式六：忽视close call

有些团队在报告中只关注实际的use error，对close call一笔带过。FDA的观点是：close call是use error的"差点发生版"，统计意义上它代表了潜在的风险。如果报告中大量close call未被认真分析，FDA会认为团队对人因风险的理解不够深入。

补救工作流程

当你确认summative测试没有通过后，以下是我们建议的step-by-step补救流程：

第一步：暂停提交。如果还在准备提交阶段，不要抱着侥幸心理提交。如果FDA在审评中发现summative有问题（通过AI信函或电话会议告知），时间损失和信誉损失会更大。

第二步：完整记录所有观察结果。不要急于下结论。把每一个use error、close call和difficulty都详细记录下来：哪个参与者、在哪个任务、做了什么、结果是什么、当时的测试环境是怎样的。

第三步：逐项做根因分析。使用5-Why或鱼骨图等方法，对每个观察结果追溯根因。注意区分"表面原因"和"根本原因"。邀请产品设计师、人因工程师和临床专家一起参与分析。

第四步：对根因进行分类。参照本文前面的六大类根因分类法，将每个根因归入对应类别。这一步决定了后续的补救路径。

第五步：制定补救方案。基于根因分类，确定每类问题采取什么措施（IFU修改/培训修改/设计修改）。使用桥接vs重做的判定矩阵，确定验证策略。

第六步：实施修改。修改IFU、更新培训材料、或调整界面设计。确保每项修改都有完整的变更记录。

第七步：做formative补救研究（如需要）。验证修改方案的方向是否正确。使用新的参与者，聚焦出问题的任务。

第八步：做桥接研究或summative重做。根据判定结果，执行桥接研究（聚焦出问题的任务+修改可能影响的任务）或完整的summative重做（覆盖所有critical tasks）。

第九步：撰写残余风险论证（如需要）。如果补救后仍有残余风险，按benefit-risk框架撰写论证。

第十步：组织证据包。按本文的文件夹结构组织所有文档，撰写Cover Letter，提交给FDA。

整个流程的时间跨度因补救复杂度而异。纯IFU修改+桥接研究，从发现问题到完成证据包，通常需要6-10周。如果涉及界面设计修改+完整summative重做，可能需要4-6个月。

FAQ

Q1：summative测试中出现了use error，但频率很低（1/15），算失败吗？

要看具体的情况。FDA不是用一个固定的百分比来判断通过与否的。1/15的出现频率，如果根因分析指向用户个人因素（比如该参与者未按要求阅读IFU），且该use error不涉及可能导致严重伤害的critical task，FDA通常会接受。但如果这个use error涉及高风险操作，即使只出现一次，FDA也可能要求补救措施。关键在于根因分析和残余风险论证的质量，而不是数字本身。

Q2：做完summative之后才发现可以改进IFU的某个地方，需要重做吗？

如果summative测试本身是"通过"的（没有未解决的critical use error），后续发现IFU可以优化，通常不需要重做summative。记录下发现的改进机会，作为产品持续改进的一部分。但如果你在summative之后要做IFU的重大修改（比如增加了新的操作步骤），需要评估修改是否会引入新的使用风险。必要时做桥接研究。

Q3：桥接研究需要多少人？

FDA没有对桥接研究的样本量给出明确数字。实操中，我们的建议是：桥接研究的每用户组参与者数量应与summative一致（15人），因为桥接研究的目的是替代summative在特定任务上的验证。如果预算或时间紧张，至少不应低于10人/组。参与者必须是全新的，不能复用之前summative的人。

Q4：formative补救研究的参与者可以参加后续的summative重做吗？

不可以。FDA的原则是：参加过任何形式ative研究的参与者，不能再参加summative测试。原因很简单——他们对产品已经有了了解和经验，不再代表"第一次接触产品的真实用户"。这个规则在补救场景下同样适用：参加过formative补救研究的人，不能参加后续的桥接研究或summative重做。

Q5：如果summative测试是在第三方实验室做的，补救研究可以换实验室吗？

可以，但不建议轻易更换。使用同一实验室的好处是测试方法的一致性，FDA审评时更容易对比修改前后的数据。如果必须换实验室（比如前一个实验室的测试方法有问题），需要在报告中说明原因，并确保新实验室的测试协议与原始summative保持一致——唯一的差异应该在于你修改的那个部分。

Q6：如果涉及EU MDR，summative失败后需要做什么额外的处理？

EU MDR要求企业维护一份可用性工程文档（Usability Engineering File, UEF）作为符合性评估的一部分。summative失败后的所有修改、根因分析、formative补救、桥接/重做结果都需要更新到UEF中。此外，如果产品已经在欧盟市场销售，summative失败可能触发FSCA（现场安全纠正行动）的评估——你需要判断已上市产品是否存在同样的使用安全风险，如果是，需要通过公告机构（Notified Body）走变更流程。

Q7：ANSI/AAMI HE75在补救过程中有什么参考价值？

ANSI/AAMI HE75是人因工程设计的参考标准（2025年发布了最新版），它不替代IEC 62366-1的流程要求，但提供了大量具体的设计指导——比如按钮间距、字体大小、报警音频率等参数的推荐值。在补救过程中，如果你的界面设计修改需要参考具体的设计参数，HE75是很好的技术依据。引用HE75的推荐值来支撑你的设计修改决策，也有助于增强FDA对你修改方案合理性的信心。

人因验证失败并不罕见，也不是项目终结。关键在于：认真做根因分析，选择正确的补救路径（桥接还是重做），把IFU修改、培训优化和设计调整三把工具用对地方，然后用扎实的验证数据和清晰的证据包向FDA证明你解决了问题。整个过程考验的不是运气，而是方法论和执行力。

如果你正在经历summative测试失败的困境，或者希望在测试前做更好的准备（formative研究、URRA完善等），欢迎联系我们的团队。我们提供从人因工程策略规划到summative测试执行的全流程支持。

参考资源：