← 返回首页

FDA人因验证失败后的补救研究:summative test没过,什么时候能桥接、什么时候必须重做

FDA人因验证(summative test)未通过时的根因分类、桥接研究vs完整重做判定、IFU/培训修改策略、残余风险论证与回复FDA的证据包。

陈然
陈然最后更新:

做过FDA人因验证(summative test)的团队都知道那种感觉——报告写完、数据整理好,却发现某个关键任务的使用错误率超出了可接受范围。项目进度表上清清楚楚写着"人因验证完成",但结果告诉你:没过。

这种情况比多数人以为的更常见。根据Research Collective等美国人因咨询机构的统计,首次summative测试未能一次性通过的比例并不低,尤其是缺乏充分formative研究基础的团队,失败率更高。FDA在2016年发布的指南文件Applying Human Factors and Usability Engineering to Medical Devices中有一句关键表述:如果summative测试发现了设计缺陷,那这次测试"essentially becomes a formative evaluation"——本质上变成了一次形成性评价。

这句话既是安慰也是警醒:FDA并不认为summative失败是世界末日,但你需要拿出正确的方法去补救。

本文只解决什么 / 不解决什么

本文聚焦于一个具体场景:你的summative(validation)测试没有通过,下一步该做什么。

具体来说,我们会讨论:

  • 什么叫"失败"——不是所有使用错误都算失败
  • 根因怎么分——不同类型的根因,补救路径完全不同
  • 桥接还是重做——什么情况下可以做一个聚焦的follow-up study,什么情况下必须推倒重来
  • IFU改、培训改、设计改——三把工具分别在什么场景下使用
  • 残余风险怎么写——FDA能接受的论证长什么样
  • 回复FDA的证据包——当审评中暴露问题时,怎么组织材料

本文不会覆盖的内容:

如果你的summative测试顺利通过,这篇文章不需要读。如果你的测试遇到了麻烦,继续往下。

人因验证"失败"到底是什么意思

FDA怎么定义"未通过"

很多团队对"失败"的理解过于简单化——看到有use error就慌了。实际上,FDA对人因验证是否通过的判断,核心依据是使用相关的风险分析(Use-Related Risk Analysis, URRA),而不是一个简单的"错误率百分比"。

FDA关注的是:测试中观察到的使用错误(use error)、近距失误(close call)和使用困难(difficulty),是否可能或已经导致严重伤害(serious harm)。如果某个关键任务(critical task)出现了可能导致严重伤害的使用错误,而且根因分析指向了产品设计缺陷而非用户个人原因,那这个测试结果就不能被视为"通过"。

三类观察结果及其监管意义

在summative测试中,测试团队会记录三类不同的观察结果。理解它们的区别对于判断"到底算不算失败"至关重要:

观察类型定义监管意义示例
使用错误(Use Error)用户执行了与预期不同的操作,导致设备响应与设计意图不一致必须进行根因分析;如果关联critical task且可能导致严重伤害,需要采取纠正措施护士将输液泵流速单位设为mL/min而非mL/h,导致药物输注过快
近距失误(Close Call / Near Miss)用户犯了错但及时发现并纠正,或错误操作因其他原因未造成实际后果同样需要根因分析;FDA视其为潜在的use error,严重性等同医生差点按错给药按钮,但在最后一刻注意到并纠正
使用困难(Difficulty)用户成功完成了任务但过程中经历了明显的困惑、犹豫或反复尝试需要记录和分析;如果频繁出现,可能暗示设计存在可用性问题,但不一定构成验证失败护士花了两分钟才找到正确的菜单路径,期间多次返回上级菜单

一个常见的误解是:只要没有实际的"错误操作"就算通过。但FDA在审评中会特别关注close call的高频出现。如果一个critical task上反复出现close call,FDA可能认为这只是"运气好"没出事,设计上仍存在隐患。

什么情况算"通过"

FDA并没有发布一个简单的"通过标准"——比如"错误率低于5%就通过"。这是因为不同产品的风险等级、使用场景和用户群体差异太大。FDA的审查逻辑是:

  1. 所有关键任务(critical tasks)是否都被覆盖
  2. 每个关键任务上的use error是否都有根因分析
  3. 根因分析是否指向了系统性设计问题
  4. 如果存在系统性设计问题,是否已通过设计修改、IFU修改或培训修改加以解决
  5. 残余风险是否可以通过benefit-risk分析论证

就实际经验而言,如果critical task上没有出现可能导致严重伤害的use error,或者出现的use error根因明确指向用户个人因素(如未按IFU要求操作)而非设计问题,FDA通常会接受测试结果。

根因分类——不同类型的根因决定不同的补救路径

summative测试发现use error之后,第一件事不是急着改设计,而是做根因分析。FDA的期望很明确:对每一个use error、close call和difficulty都必须做根因分析。

根因的类别直接决定了你需要采取什么样的补救措施。我们把常见的根因分为六大类:

IFU/标签问题

IFU(使用说明书)是最容易被忽视但又最容易修改的风险控制手段。常见的IFU根因包括:

  • 表述含糊:操作步骤描述不够精确,不同用户理解不一致。比如"缓慢注射"到底是多慢,10秒还是30秒?
  • 步骤遗漏:关键操作步骤在IFU中没有提及或不够突出
  • 版式问题:字体过小、对比度不足、关键警告信息被淹没在大段文字中
  • 图表缺失:纯文字描述的操作流程,用户难以直观理解
  • 翻译问题:对于出口产品,IFU的英文翻译质量直接影响用户理解

这类根因的好处是:修改成本最低,通常不需要重新做完整的summative测试,通过桥接研究即可验证修改效果。

设备界面设计问题

这是最棘手的根因类型。界面设计问题意味着产品本身需要改动,而不仅仅是文档的调整。常见表现:

  • 控制元件混淆:按钮布局不合理,功能相似的操作控件距离太近或视觉区分不够
  • 反馈不足:用户执行操作后,设备没有给出明确的视觉或听觉反馈,用户不确定操作是否生效
  • 信息显示问题:数据显示不直观,数字格式容易误读(如小数点不明显、单位标注不清晰)
  • 报警设计缺陷:报警音过于相似、报警优先级不明确、报警信息不够具体

界面设计问题的修改通常涉及硬件或软件变更,成本高、周期长,而且修改后的界面很可能需要重新做summative测试。

培训不充分

培训作为风险控制手段在FDA的框架内是被允许的,但有条件。FDA认为培训应该作为设计的补充,而不能替代良好的界面设计。培训相关的根因包括:

  • 培训内容缺失:某些关键操作步骤在培训中没有覆盖
  • 培训方式不当:仅提供纸质材料而未安排实操演练,或培训时长不够
  • 培训材料缺陷:快速参考卡(quick reference card)信息过时或不完整
  • 培训验证不足:培训后没有对用户的理解程度进行检验

用户画像偏差

有时summative测试中出现的use error,根因在于早期用户研究阶段对目标用户群体的假设不准确。比如:

  • 实际用户的年龄分布超出预期——说明书字体对年轻护士足够大,但对50岁以上的资深护士阅读困难
  • 用户的专业背景假设有误——产品设计假定用户具备基础的急救知识,但实际使用场景中用户可能是未经专业训练的家庭看护者
  • 用户的工作环境假设不完整——测试在安静的实验室中进行,但实际使用环境嘈杂、光线不足

这类根因比较棘手,因为修正用户画像可能意味着需要重新定义使用场景和critical tasks,从而需要重新设计整个summative测试方案。

环境因素

测试环境与真实使用环境的差异也可能导致测试结果不理想:

  • 实验室光线稳定,但手术室中可能存在强烈光源干扰显示屏阅读
  • 测试在安静环境中进行,但ICU中警报声此起彼伏,用户注意力容易分散
  • 模拟的紧急场景不够真实,用户在真实急救中的压力反应无法被完全复现

根因分析汇总表

下表汇总了各类根因的典型表现、出现频率和修复难度:

错误类别典型根因在我们项目中的出现频率修复难度
IFU/标签步骤表述不清、关键警告不突出、字体/对比度问题约35%
界面设计控件混淆、反馈缺失、显示格式误导约25%
培训不充分培训内容覆盖不全、方式单一、缺乏实操约15%
用户画像偏差用户能力假设不准确、年龄/专业背景未充分考虑约10%
环境因素测试环境与真实场景差异、噪声/光线/压力模拟不足约10%
多重因素叠加以上两种或多种因素共同作用约5%

数据基于我们团队过去三年参与的20余个 summative 测试项目的统计。需要注意的是,"IFU/标签"类别占比最高,这部分恰好是修复成本最低的——这算是个好消息。

桥接研究 vs 完整重做的判定树

这是本文最核心的部分。当summative测试没有通过时,摆在面前的问题是:能不能做一个规模较小的桥接研究(bridging study / focused follow-up study),还是必须推倒重来?

五个关键判定因素

FDA没有给出一个明确的流程图,但根据指南文件的逻辑和我们与FDA审评人员的沟通经验,以下五个因素是判定的核心:

1. 错误的性质和严重度

如果观察到的use error可能导致死亡或严重伤害,FDA的要求会更严格。反之,如果只是使用困难(difficulty)或minor的use error,桥接研究的可能性更大。

2. 受影响的关键任务数量

如果只有一个critical task出现问题,聚焦修复并做桥接研究是合理的。但如果三个以上的critical task都出现了use error,说明产品的可用性设计可能存在系统性问题,完整重做可能是更稳妥的选择。

3. 根因的定位
  • 根因仅涉及IFU表述问题 → 桥接研究大概率可行
  • 根因涉及界面设计 → 取决于修改幅度。小幅修改(如调整按钮标签文字)可以桥接;大幅修改(如重新布局整个操作界面)需要重做
  • 根因涉及用户画像偏差 → 通常需要重做,因为使用场景的定义变了
4. 受影响的参与者比例

如果15个测试参与者中只有1-2个人犯了同样的use error,可能是个人因素。如果有7-8个人都犯了类似的错,说明是系统性的设计问题,补救力度需要更大。

5. 修改是否实质性地改变了用户界面

这是FDA最关心的。如果你做的修改改变了用户与设备交互的方式(比如新增了一个确认步骤、改变了按钮布局、增加了新的报警逻辑),那么修改后的界面在FDA看来本质上是一个"新"的界面,需要新的验证。

判定矩阵

场景桥接研究可行?需要完整重做?理由
仅IFU文字表述调整,界面未变用户交互未改变,仅需验证新表述是否被正确理解
IFU新增了警告提示和视觉辅助图同上,风险控制措施仅限于信息层面
界面按钮标签文字修改(如"确认"改为"确认给药")是(大概率)界面逻辑未变,仅标签更清晰
界面新增了一个确认步骤需评估可能操作流程改变,需验证新步骤是否引入新的use error
修改了报警音的频率和模式需评估可能报警识别是关键任务,修改后需重新验证用户能否正确辨识
重新布局了操作面板上的按钮用户界面的物理交互方式发生实质性改变
从物理按钮改为触摸屏操作交互模态完全改变,等同于新界面
新增了培训材料和快速参考卡风险控制措施在培训层面,界面未变
两个以上critical task出现use error暗示系统性可用性问题,局部修复不够
根因指向用户画像偏差使用场景定义需要重新审视

我们的建议

在我们看来,做这个判定时有一个简单的经验法则:修改是否改变了用户完成任务时的认知路径?如果没有——用户仍然按相同的步骤操作,只是说明书写得更清楚了——那桥接研究通常够用。如果修改让用户的操作流程发生了变化,那就需要认真考虑完整重做。

还有一个实操建议:如果拿不准,走Pre-Sub问FDA。在Q-Sub中把你的summative测试结果、根因分析和计划采取的补救方案发给FDA,让他们告诉你桥接研究是否足够。这比做完之后被FDA告知需要重做要好得多。

IFU/标签修改策略

在所有补救手段中,IFU修改是最经济、最快落地的一种。但"改说明书"听起来简单,实际操作中有很多细节需要注意。

FDA接受哪些IFU修改

FDA明确认可IFU/标签修改作为一种有效的风险控制手段。具体来说,以下类型的修改通常被FDA接受:

措辞重写:将模糊的描述替换为精确的表述。比如将"缓慢推注"改为"在30秒内匀速推注完成"。将"注意剂量"改为"给药前必须核对剂量显示屏上的数值与医嘱一致"。

增加警告和注意事项:在关键操作步骤前插入醒目的警告框。FDA对警告信息的格式有明确偏好——使用对比色(如黄色背景配黑色文字)、大字体、加上警示图标。

增加视觉辅助:用流程图、示意图、照片替代纯文字描述。尤其是对于操作步骤较多的任务,一张清晰的步骤图比三段文字说明更有效。

版式优化:增大字体、提高对比度、使用列表和表格替代密集段落、将关键信息(如禁忌症、警告)放在显眼位置。

增加核对清单:在说明书中加入操作前的快速核对表(checklist),用户在执行关键操作前逐项核对。这在输液泵、注射器等高风险产品中尤其有效。

IFU修改何时需要新的验证

不是所有IFU修改都需要做桥接研究。一般来说:

  • 不需要重新验证:纯文字措辞优化、字体/版式调整、增加辅助图表——前提是不改变操作流程本身
  • 需要桥接研究:增加了新的操作步骤说明、修改了用户需要理解的关键概念描述、增加了新的警告信息(需要验证用户是否真正注意到并理解了这些警告)
  • 需要完整summative重做:IFU修改导致操作流程发生了变化(比如增加了一个新的步骤),或IFU修改是与界面修改配套的

IFU修改记录表

在准备回复FDA的证据包时,建议用下表的形式记录每一处IFU修改:

修改项修改前修改后修改原因(根因关联)关联的use error编号
步骤3描述"将药物注入管路""将药物注入管路,注射时注意观察管路接口处有无渗漏"测试中UE-004:用户未注意到接口渗漏UE-004
剂量设置警告新增黄色警告框:"⚠ 给药前必须核对剂量显示值与医嘱一致"测试中UE-007:剂量设置错误UE-007
操作流程图纯文字6步描述改为带编号图标的流程图+关键步骤标注测试中CC-002:用户跳过步骤4CC-002

这张表的好处是让FDA审评人员一眼就能看到每个修改与具体的use error之间的对应关系,而不是一堆零散的修改记录。

培训方案修改

培训是另一个被FDA认可的风险控制手段,但有一个重要的前提条件:培训不能替代良好的设计

FDA对培训作为风险控制手段的态度

FDA在2016年指南中明确指出,培训可以降低使用错误的发生概率,但企业不应该依赖培训来解决本应通过设计改进来消除的问题。FDA的立场可以概括为:

  • 可以接受:产品界面设计已经做到了合理水平,培训作为额外的安全网来进一步降低风险
  • 不能接受:界面设计存在明显的混淆点,企业希望通过"加强培训"来弥补设计缺陷

实操中的判断标准:如果一个use error的根因分析表明,即使经过充分培训,用户在真实使用场景中仍有一定概率犯错(比如高压环境下的操作),那就应该改设计而不是加培训。

什么时候加培训、怎么加

如果根因分析确认培训不足是use error的主要因素之一,以下几种培训修改策略可以考虑:

新增培训模块:针对测试中出现问题的特定操作,开发专门的培训模块。比如,如果summative测试中发现用户对报警响应流程不熟悉,可以开发一个30分钟的报警响应专项培训。

改培训方式:从纯理论学习改为理论+实操。FDA更认可包含动手操作环节的培训方案。多项行业研究表明,经过实操培训的用户,use error率显著低于仅接受理论培训的用户。

增加快速参考卡(Quick Reference Card):这是一张简化的操作指引卡,放在设备旁边随时查阅。QR卡不是说明书的替代品,而是针对最关键操作的精简提示。FDA对QR卡的接受度很高,前提是信息准确、格式清晰。

增加培训验证环节:培训结束后增加一个简短的考核——不一定是正式考试,可以是几个操作演示。这为培训的有效性提供了证据。

培训修改后的验证

与IFU修改类似,培训修改后是否需要重新做summative测试取决于修改的幅度:

  • 新增QR卡或修改培训材料 → 桥接研究通常足够
  • 培训方式发生重大改变(比如从无培训变为强制实操培训) → 需要评估是否需要完整重做
  • 培训修改是唯一的风险控制措施,且涉及的critical task风险等级高 → FDA可能要求完整重做

Formative补救研究设计

当summative测试失败后,在正式重新做summative测试之前,通常需要先做一轮或多轮formative(形成性)研究来验证修改方案的有效性。这个"补救formative"和正常的formative研究在设计思路上类似,但有几个关键差异。

什么情况下需要做formative补救

不是所有的summative失败都需要先做formative补救。以下情况通常需要:

  • 根因分析指向界面设计问题,需要评估修改方案是否有效
  • 计划采取的风险控制措施比较复杂(同时改IFU、改培训、做小幅界面调整)
  • 对修改方案的效果没有信心,需要先做小规模测试来验证

如果根因非常明确(比如IFU中一个数字写错了),修改方案很直接,可以直接进入桥接研究或重做summative,跳过formative补救。

补救formative研究的关键要素

参与者选择:必须使用新的参与者。参加过之前summative测试的人不能再用——他们已经对产品有了解,测试结果会有偏差。FDA建议summative测试的参与者每用户组15人;formative的样本量没有硬性要求,通常每用户组5-8人即可。

测试场景聚焦:不需要覆盖所有critical tasks,只需聚焦在出现问题的任务和修改后可能受影响的任务。这能大幅缩短测试周期和降低成本。

测试条件:应尽量与之前的summative测试保持一致,包括环境模拟、任务顺序、测试设备等。唯一的变化应该是你修改的那个部分(IFU、界面、培训)。这样才能做有效的对比。

数据收集:除了常规的task completion rate和use error记录,建议增加对修改部分的重点观察。比如如果修改了IFU中某个步骤的描述,应该特别记录用户在阅读该步骤时的行为——是否反复阅读、是否需要回头查看、是否表现出困惑。

Summative研究与Formative补救研究的对比

维度Summative(验证性测试)Formative补救研究
目的验证产品在真实使用条件下的使用安全性验证修改方案是否有效解决了已知问题
参与者数量每用户组15人(FDA建议);NMPA建议20人每用户组5-8人,通常足够
参与者要求 代表性真实用户必须是全新参与者,不能参加过之前的summative同左——也不能复用之前的summative参与者
任务覆盖范围所有关键任务(critical tasks)仅聚焦出现问题的任务和修改可能影响的任务
通过标准无导致严重伤害的未解决use error修改后的任务表现优于修改前
结果用途提交给FDA作为人因验证证据内部使用,确认修改方案有效后再做summative
测试时长通常1-2天/批次通常半天到1天/批次
报告要求完整的测试报告,提交FDA内部记录即可,但建议保留完整文档备查

一个实操建议

在我们经手的项目中,一个常见的错误是:团队做完formative补救后,直接拿formative的结果去回复FDA,试图证明"修改已经验证通过了"。这通常行不通。FDA知道formative研究的设计强度不如summative——样本量小、覆盖范围窄——所以formative补救的真正价值是让团队在正式重做summative之前确认方向正确。它是一个内部工具,不是最终提交物。

残余风险论证

当你完成了IFU修改、培训优化或界面调整之后,可能仍然存在一些无法完全消除的使用相关风险。这些残余风险(residual risk)需要通过benefit-risk分析来论证其可接受性。

什么情况下需要写残余风险论证

不是所有summative测试结果都需要残余风险论证。需要论证的场景包括:

  • 修改后重做summative,critical task上仍有少量close call(但无实际use error)
  • 某些use error的根因分析表明,在当前技术条件下无法通过设计完全消除
  • 修改方案在降低某一风险的同时,可能引入了新的低级别风险

Benefit-Risk分析框架

FDA对残余风险的审查遵循benefit-risk框架。你需要论证的核心逻辑是:产品对患者的临床获益,大于残余的使用相关风险

一个完整的残余风险论证通常包含以下要素:

1. 根因分析总结

简明扼要地说明:原始summative测试中发现了什么问题,根因是什么,为什么不能通过设计完全消除。比如:"原始测试中,2/15名参与者在紧急给药场景下出现了剂量设置close call。根因分析指向高压环境下用户对数字键盘的操作精度下降。由于数字键盘是该产品类型(注射泵)的标准配置,改为触摸屏或语音输入将引入新的风险并显著增加开发周期,因此保留现有键盘设计。"

2. 已实施的风险控制措施

列出所有已经采取的措施:IFU增加了明确的剂量核对步骤、培训中加入了高压场景模拟练习、QR卡上突出了剂量设置的双重核对要求。

3. 修改后的验证数据

引用桥接研究或重做summative的数据,证明风险控制措施是有效的。比如:"修改后的桥接研究(15名新参与者)中,0/15名参与者出现剂量设置close call。"

4. 临床获益论证

说明产品在正确使用时为患者带来的临床获益,以及这些获益与残余风险的关系。这部分通常需要临床团队的输入。

5. 上市后监测计划

FDA期望看到你计划如何在上市后持续监控这个残余风险。比如通过投诉数据分析、上市后临床跟踪(PMCF)或用户反馈调查来追踪残余风险是否在实际使用中显现。

残余风险论证模板

以下是一个可以套用的论证结构:

残余风险论证:[产品名称] - [具体的残余风险描述]

1. 风险描述: [具体描述残余的使用相关风险,包括可能导致的伤害]

2. 根因分析: [说明根因以及为什么无法通过设计完全消除]

3. 已采取的风险控制措施:
  • IFU修改:[具体修改内容]
  • 培训修改:[具体修改内容]
  • 设计修改(如有):[具体修改内容]

4. 验证证据: [引用桥接/summative重做的数据,证明措施有效]

5. 获益-风险分析: [说明临床获益大于残余风险的理由]

6. 上市后监测: [说明上市后如何持续监控该残余风险]

7. 结论: 基于上述分析和证据,我们认为该残余使用相关风险在已实施的控制措施下是可接受的。

这个模板只是一个骨架,实际撰写时需要根据具体产品的风险等级和使用场景充实内容。高风险产品(Class III / 植入式器械)的残余风险论证需要更详实的临床数据和更严密的逻辑。

回复FDA的证据包结构

如果你的summative测试是在FDA审评过程中被发现有问题的——比如510(k)或De Novo审评期间,FDA在Additional Information(AI)信函中要求补充人因验证数据——你需要准备一个结构清晰的证据包。

证据包的核心组件

一个完整的回复证据包应该包含以下文件:

序号文件名称内容说明格式建议
1Root Cause Analysis Summary对每个use error和close call的根因分析汇总叙述式+表格,5-10页
2Summary of ChangesIFU/培训/界面修改的完整列表,每项修改关联到具体的根因表格形式,参见上文IFU修改记录表
3Formative Rescue Study Report补救formative研究的完整报告(协议、数据、结论)完整的测试报告格式
4Bridging / Summative Retest Report桥接研究或完整summative重做的测试报告完整的测试报告格式
5Updated Use-Related Risk Analysis (URRA)更新后的使用相关风险分析,反映修改后的风险水平URRA表格(与ISO 14971 risk analysis关联)
6Updated Usability Engineering File (UEF)更新后的可用性工程文档(IEC 62366-1要求)完整UEF的修订版
7Updated Risk Management File更新后的ISO 14971风险管理文件FMEA / Risk Analysis表格的修订版
8Residual Risk Justification残余风险论证(如果适用)叙述式,参见上文模板
9Updated IFU / Labeling修改后的使用说明书和标签完整的IFU文档
10Training Materials修改后的培训方案和材料培训手册+QR卡+培训验证记录

文件夹组织方式

HF_Remediation_Package/
├── 00_Cover_Letter.pdf                    # 致FDA的说明信,概述整个补救方案
├── 01_Root_Cause_Analysis.pdf
├── 02_Summary_of_Changes.pdf
├── 03_Formative_Rescue_Report/
│   ├── Protocol.pdf
│   ├── Raw_Data/
│   └── Report.pdf
├── 04_Bridging_Study_Report/             # 或Summative_Retest_Report/
│   ├── Protocol.pdf
│   ├── Raw_Data/
│   └── Report.pdf
├── 05_Updated_URRA.xlsx
├── 06_Updated_UEF.pdf
├── 07_Updated_Risk_Management/
│   ├── Risk_Analysis.xlsx
│   └── Risk_Evaluation_Summary.pdf
├── 08_Residual_Risk_Justification.pdf
├── 09_Updated_IFU_Labeling/
│   ├── IFU_v2.pdf
│   └── Labeling_Changes_Markup.pdf       # 红线标注版本,方便FDA对比
└── 10_Training_Materials/
    ├── Training_Protocol_v2.pdf
    ├── Quick_Reference_Card.pdf
    └── Training_Verification_Records.pdf

Cover Letter的写法

Cover Letter是整个证据包的门面。一份好的Cover Letter应该做到:

  • 第一段用2-3句话说明背景:什么提交、FDA提出了什么问题、本证据包是针对什么问题的回复
  • 第二段概述补救方案:根因是什么、采取了什么措施(IFU修改/培训修改/设计修改)、做了什么验证
  • 第三段给出结论:验证结果如何、残余风险是否可接受
  • 最后列出证据包中每个文件的简要说明

FDA审评人员每天要处理大量材料,一份结构清晰的Cover Letter能大幅提升沟通效率。

常见失败模式

在我们协助处理summative测试失败的案例中,有几种模式反复出现。了解这些模式有助于在测试前预防问题,也能在问题发生后更快找到根因。

模式一:跳过formative直接做summative

这是summative测试失败的头号原因。有些团队为了节省时间和预算,不做formative研究直接冲summative,结果把formative应该发现的问题全部暴露在了summative中。

FDA在指南中说得非常清楚:formative评价是summative验证的前提。 skipping formative就像不做单元测试直接做系统集成测试——不是说一定不行,但失败了代价很大。

模式二:参与者不够代表性

summative测试要求参与者是产品真实用户的代表。一个典型的错误是:为了方便招募,找公司内部员工或与产品开发有关联的人来"充当"用户。FDA审评时会检查参与者的资质和背景,如果发现参与者的专业背景或经验水平与实际用户不匹配,可能直接不接受测试结果。

另一个常见问题:每用户组的参与者数量不够。FDA建议15人/组,如果只有8-10人,FDA可能认为样本量不足以得出可靠结论。

模式三:测试环境与真实场景脱节

在安静的会议室里测试一台ICU用的监护仪,得出"操作直观、无使用错误"的结论,这没有意义。FDA期望测试环境能够合理模拟真实使用场景中的干扰因素:背景噪声、时间压力、多任务并行等。

模式四:critical tasks识别不完整

如果在summative测试的策划阶段没有把所有与严重伤害相关的使用场景都列为critical tasks,那么即使测试"通过"了,FDA也可能在审评中质疑测试的覆盖度。

建议对照URRA(使用相关风险分析)逐项检查:每一个可能导致严重伤害的使用场景是否都被包含在critical tasks中。

模式五:根因分析停留在表面

"用户没看说明书"不是根因分析。"用户在高压环境下倾向于跳过阅读步骤3的详细说明,因为步骤3的文字段落过长(约200字),且关键信息(接口需拧紧至听到咔嗒声)被淹没在段落中间"——这才是根因分析。

FDA期望看到的不是"谁犯了错",而是"为什么会犯错"——以及"我们能做什么来防止类似的错再次发生"。

模式六:忽视close call

有些团队在报告中只关注实际的use error,对close call一笔带过。FDA的观点是:close call是use error的"差点发生版",统计意义上它代表了潜在的风险。如果报告中大量close call未被认真分析,FDA会认为团队对人因风险的理解不够深入。

补救工作流程

当你确认summative测试没有通过后,以下是我们建议的step-by-step补救流程:

第一步:暂停提交。如果还在准备提交阶段,不要抱着侥幸心理提交。如果FDA在审评中发现summative有问题(通过AI信函或电话会议告知),时间损失和信誉损失会更大。

第二步:完整记录所有观察结果。不要急于下结论。把每一个use error、close call和difficulty都详细记录下来:哪个参与者、在哪个任务、做了什么、结果是什么、当时的测试环境是怎样的。

第三步:逐项做根因分析。使用5-Why或鱼骨图等方法,对每个观察结果追溯根因。注意区分"表面原因"和"根本原因"。邀请产品设计师、人因工程师和临床专家一起参与分析。

第四步:对根因进行分类。参照本文前面的六大类根因分类法,将每个根因归入对应类别。这一步决定了后续的补救路径。

第五步:制定补救方案。基于根因分类,确定每类问题采取什么措施(IFU修改/培训修改/设计修改)。使用桥接vs重做的判定矩阵,确定验证策略。

第六步:实施修改。修改IFU、更新培训材料、或调整界面设计。确保每项修改都有完整的变更记录。

第七步:做formative补救研究(如需要)。验证修改方案的方向是否正确。使用新的参与者,聚焦出问题的任务。

第八步:做桥接研究或summative重做。根据判定结果,执行桥接研究(聚焦出问题的任务+修改可能影响的任务)或完整的summative重做(覆盖所有critical tasks)。

第九步:撰写残余风险论证(如需要)。如果补救后仍有残余风险,按benefit-risk框架撰写论证。

第十步:组织证据包。按本文的文件夹结构组织所有文档,撰写Cover Letter,提交给FDA。

整个流程的时间跨度因补救复杂度而异。纯IFU修改+桥接研究,从发现问题到完成证据包,通常需要6-10周。如果涉及界面设计修改+完整summative重做,可能需要4-6个月。

FAQ

Q1:summative测试中出现了use error,但频率很低(1/15),算失败吗?

要看具体的情况。FDA不是用一个固定的百分比来判断通过与否的。1/15的出现频率,如果根因分析指向用户个人因素(比如该参与者未按要求阅读IFU),且该use error不涉及可能导致严重伤害的critical task,FDA通常会接受。但如果这个use error涉及高风险操作,即使只出现一次,FDA也可能要求补救措施。关键在于根因分析和残余风险论证的质量,而不是数字本身。

Q2:做完summative之后才发现可以改进IFU的某个地方,需要重做吗?

如果summative测试本身是"通过"的(没有未解决的critical use error),后续发现IFU可以优化,通常不需要重做summative。记录下发现的改进机会,作为产品持续改进的一部分。但如果你在summative之后要做IFU的重大修改(比如增加了新的操作步骤),需要评估修改是否会引入新的使用风险。必要时做桥接研究。

Q3:桥接研究需要多少人?

FDA没有对桥接研究的样本量给出明确数字。实操中,我们的建议是:桥接研究的每用户组参与者数量应与summative一致(15人),因为桥接研究的目的是替代summative在特定任务上的验证。如果预算或时间紧张,至少不应低于10人/组。参与者必须是全新的,不能复用之前summative的人。

Q4:formative补救研究的参与者可以参加后续的summative重做吗?

不可以。FDA的原则是:参加过任何形式ative研究的参与者,不能再参加summative测试。原因很简单——他们对产品已经有了了解和经验,不再代表"第一次接触产品的真实用户"。这个规则在补救场景下同样适用:参加过formative补救研究的人,不能参加后续的桥接研究或summative重做。

Q5:如果summative测试是在第三方实验室做的,补救研究可以换实验室吗?

可以,但不建议轻易更换。使用同一实验室的好处是测试方法的一致性,FDA审评时更容易对比修改前后的数据。如果必须换实验室(比如前一个实验室的测试方法有问题),需要在报告中说明原因,并确保新实验室的测试协议与原始summative保持一致——唯一的差异应该在于你修改的那个部分。

Q6:如果涉及EU MDR,summative失败后需要做什么额外的处理?

EU MDR要求企业维护一份可用性工程文档(Usability Engineering File, UEF)作为符合性评估的一部分。summative失败后的所有修改、根因分析、formative补救、桥接/重做结果都需要更新到UEF中。此外,如果产品已经在欧盟市场销售,summative失败可能触发FSCA(现场安全纠正行动)的评估——你需要判断已上市产品是否存在同样的使用安全风险,如果是,需要通过公告机构(Notified Body)走变更流程。

Q7:ANSI/AAMI HE75在补救过程中有什么参考价值?

ANSI/AAMI HE75是人因工程设计的参考标准(2025年发布了最新版),它不替代IEC 62366-1的流程要求,但提供了大量具体的设计指导——比如按钮间距、字体大小、报警音频率等参数的推荐值。在补救过程中,如果你的界面设计修改需要参考具体的设计参数,HE75是很好的技术依据。引用HE75的推荐值来支撑你的设计修改决策,也有助于增强FDA对你修改方案合理性的信心。


人因验证失败并不罕见,也不是项目终结。关键在于:认真做根因分析,选择正确的补救路径(桥接还是重做),把IFU修改、培训优化和设计调整三把工具用对地方,然后用扎实的验证数据和清晰的证据包向FDA证明你解决了问题。整个过程考验的不是运气,而是方法论和执行力。

如果你正在经历summative测试失败的困境,或者希望在测试前做更好的准备(formative研究、URRA完善等),欢迎联系我们的团队。我们提供从人因工程策略规划到summative测试执行的全流程支持。

参考资源:

AI 助手

你好!我看到你正在阅读「FDA人因验证失败后的补救研究:summative test没过,什么时候能桥接、什么时候必须重做」。有任何关于这篇文章的问题,都可以问我!

由 Gemini 驱动 · 回答仅供参考