医疗器械可用性工程与人因工程：IEC 62366合规指南

在全球医疗器械市场中，"可用性（Usability）"早已不再是一个锦上添花的设计理念，而是决定产品能否获得市场准入的关键合规要素。FDA每年因人因工程（Human Factors Engineering）缺陷而发出的补充问题函（AI/RTA）数以百计，欧盟MDR更是在《一般安全与性能要求》（GSPR）中明确将可用性纳入强制性合规条款。对于志在出海的中国医疗器械企业而言，忽视可用性工程意味着在审评审批阶段遭遇高昂的时间成本和返工风险。

本文将系统解读可用性工程核心标准IEC 62366-1、FDA人因指南以及欧盟MDR相关要求，从流程框架、评价方法、文档编制到常见陷阱，为企业构建一套完整的可用性工程合规路线图。

一、可用性工程为何如此关键？

1.1 来自监管的明确信号

近年来全球主要监管机构对可用性工程的重视程度持续提升：

FDA方面： 据FDA公开数据，使用错误（Use Error）是导致医疗器械不良事件报告（MDR Report）的首要原因之一。FDA在2016年发布了专门的《对医疗器械应用人因工程和可用性工程》指南（Applying Human Factors and Usability Engineering to Medical Devices），将人因数据作为510(k)、De Novo和PMA审评的核心组成部分。缺乏充分的人因验证数据，产品极有可能收到"拒绝受理函"（Refuse to Accept, RTA）或"补充信息函"（Additional Information, AI）。
欧盟方面： MDR 2017/745在Annex I（一般安全与性能要求）中明确规定器械应根据人因工程原则进行设计，充分考虑预期用户的技术水平、经验、教育和培训，以及使用环境。公告机构（Notified Body）在技术文件审查中会重点核查可用性工程文件。
中国方面： NMPA于2024年3月正式发布了《医疗器械可用性工程注册审查指导原则》，标志着中国对医疗器械可用性的监管从行业建议正式升级为明确的注册审查要求。该指导原则建立了基于风险等级的分级要求体系，特别是针对SaMD和高风险有源器械，完整的可用性工程报告已成为技术评审的必备材料（详见第六节）。

1.2 真实案例的警示

可用性缺陷导致的后果往往十分严重：

输液泵使用错误： 某知名品牌输液泵因用户界面按键布局不合理，护士在紧急情况下频繁误按，导致药物剂量输入错误，FDA要求该企业实施全球召回并重新设计界面。
胰岛素笔注射器： 某胰岛素笔的剂量旋钮方向与用户直觉相反，多名糖尿病患者注射了错误剂量的胰岛素，引发严重低血糖事件。FDA在审评阶段即因人因数据不足发出拒绝函，该产品上市推迟超过18个月。
AED自动体外除颤器： 某AED设备的语音指导信息在嘈杂环境中难以听清，非专业用户在急救时操作犹豫，延误了最佳除颤时机。

这些案例的共同特征是：技术性能达标，但因未充分考虑真实使用场景下的用户行为而导致安全风险。这正是可用性工程要解决的核心问题。

二、可用性工程与人因工程：概念辨析

2.1 可用性工程（Usability Engineering）

可用性工程是一套系统化的方法论，关注的是用户与医疗器械之间的交互过程。其目标是确保器械的用户界面（User Interface）能够被预期用户在预期使用环境中安全、有效、高效地使用。IEC 62366-1将可用性定义为：用户界面的特性，使其建立有效性、效率和用户对其使用满意度的基础。

2.2 人因工程（Human Factors Engineering, HFE）

人因工程是一个更广泛的学科，研究人类的认知能力、身体能力、行为模式以及其局限性，并将这些知识应用于系统、产品和环境的设计中。在医疗器械领域，人因工程关注的不仅是界面设计，还包括工作流程设计、培训方案优化、环境因素控制等。

2.3 两者的关系

简而言之：人因工程是学科基础，可用性工程是该学科在医疗器械设计中的具体应用流程。 FDA在其指南文件中将两者视为等价，统称为"Human Factors/Usability Engineering"（HF/UE）。IEC 62366-1则主要以"可用性工程"作为标准框架术语，但实质覆盖了人因工程的核心内容。

对于出海企业而言，无论使用哪个术语，关键是建立一套贯穿产品全生命周期的、以用户为中心的设计与验证流程。

三、IEC 62366-1:2015 + AMD1:2020 标准全面解读

3.1 标准概览

IEC 62366-1:2015 + AMD1:2020《医疗器械 — 可用性工程对医疗器械的应用》（Medical devices — Part 1: Application of usability engineering to medical devices）是全球公认的医疗器械可用性工程核心标准。该标准被FDA、欧盟公告机构以及包括NMPA在内的多个国家和地区的监管机构广泛认可。

标准的核心要素包括：

适用范围： 所有医疗器械（包括IVD），无论风险等级高低均应开展可用性工程活动，但活动的深度和范围应与器械的使用风险相称。
核心理念： 通过迭代设计和验证的方式，识别并消除或降低与使用相关的风险。
AMD1:2020修正案： 主要澄清了若干定义和流程要求，强化了对附件使用场景的覆盖，并与ISO 14971:2019的最新版本进行了术语协调。此外，AMD1:2020特别强化了对社会和组织因素作为使用环境要素的要求——标准明确将以下因素纳入使用环境分析的范畴：
- 工作压力水平： 例如急诊科的高压环境对操作准确性的影响
- 轮班时长与疲劳： 长时间轮班（如12小时夜班）下用户的认知能力和操作精度下降
- 团队协作与个人操作动态： 器械是由单人独立操作还是在多人协作场景中使用，团队沟通模式对使用安全的影响
这些因素的加入具有重要的实践意义。企业在编制使用规范和设计可用性测试场景时，不能仅考虑物理环境（如光线、噪音），还必须充分纳入社会和组织维度。例如，对于ICU监护设备，测试场景应模拟护士在处理多名患者、频繁被中断、处于轮班末期疲劳状态下的操作情况。忽略这些因素可能导致总结性评价的结果无法反映真实使用风险。

3.2 关键术语定义

理解以下核心术语对于正确实施标准至关重要：

术语	英文	定义说明
用户界面	User Interface	用户与医疗器械之间发生交互的所有接触点，包括显示屏、按键、报警声、标签说明书等
使用错误	Use Error	由用户执行的（或未执行的）与制造商意图不同的行为，无论用户是否意识到
使用规范	Use Specification	描述预期用途、用户群体和使用环境的文件
危险使用场景	Hazardous Use Scenario	使用错误或用户界面特性导致危险情况的完整事件序列
形成性评价	Formative Evaluation	设计开发过程中进行的迭代测试，目的是发现并修复问题
总结性评价	Summative Evaluation	设计完成后对最终用户界面的验证性测试，目的是确认可接受性

3.3 标准与其他标准的关系

IEC 62366-1并非孤立运行，它与以下标准形成了紧密的合规网络：

ISO 14971（风险管理）： IEC 62366-1的使用风险分析输入直接来源于ISO 14971的风险管理过程，使用相关风险的识别和控制也需要纳入风险管理文件。两个标准在可用性领域高度互补。
IEC 62304（软件生命周期）： 对于含软件的医疗器械，可用性工程活动需要与软件开发生命周期同步进行。用户界面需求应纳入软件需求规范。
IEC 60601-1-6（医用电气设备可用性）： 该标准是IEC 60601-1的并列标准，专门针对医用电气设备的可用性要求，技术内容直接引用IEC 62366-1。
IEC 60601-1-8（报警系统）： 如果器械包含报警功能，报警的可用性设计需要同时满足IEC 60601-1-8和IEC 62366-1的要求。

四、可用性工程流程：分步实施指南

IEC 62366-1规定了一套结构化的可用性工程流程，贯穿产品设计开发的全生命周期。以下是各关键步骤的详细解读。

4.1 使用规范的编制（Use Specification）

使用规范是可用性工程活动的起点和基础。一份完整的使用规范应包含：

预期用途与医疗适应证：

器械的临床功能和治疗/诊断目的
目标患者群体特征
使用禁忌和局限性

用户群体画像（User Profiles）：

专业用户：临床医生、护士、实验室技术人员等，需明确其专业背景、培训水平
非专业用户/患者：家庭使用器械的用户群体，需考虑年龄范围、身体和认知能力、健康素养水平
安装和维护人员：负责器械安装、校准和维护的技术人员

使用环境（Use Environments）：

物理环境：医院手术室、急诊科、ICU、家庭、户外急救现场等
环境条件：光照水平、噪音程度、温湿度、佩戴手套操作等
社会和组织环境：工作压力大小、中断频率、多任务并行程度

实战建议： 中国企业在编制使用规范时，最常见的错误是按照中国医疗环境描述用户群体和使用场景，而忽略了目标出海市场的差异。例如，美国护理人员的职责分工、急诊室的工作流程、家庭护理的普及程度都与中国有显著不同。建议在使用规范阶段即进行目标市场的实地调研或文献研究。

4.2 使用相关风险分析（Use-Related Risk Analysis）

使用相关风险分析是将IEC 62366-1与ISO 14971连接起来的核心环节。其流程包括：

第一步：识别使用相关的危害（Hazards）

系统梳理与用户界面交互相关的所有潜在危害
关注"正常使用"和"可合理预见的误用"两种场景

第二步：分析使用错误与危险情况的因果链

从用户感知（Perception）、认知（Cognition）、行动（Action）三个维度分析使用错误的来源
建立从使用错误到危险情况再到伤害的完整事件序列

第三步：评估风险

结合伤害的严重程度和发生概率进行风险等级评估
注意：使用错误的发生概率评估不能仅凭工程师的主观判断，应基于文献数据、类似产品的不良事件数据或可用性测试数据

第四步：确定需要降低风险的使用场景

根据风险可接受准则，确定哪些危险使用场景需要通过用户界面改进来降低风险

4.3 用户界面设计与评价（UI Design & Evaluation）

基于使用规范和风险分析结果，进入迭代设计阶段：

设计原则：

一致性原则：界面元素的布局、颜色编码、操作逻辑保持一致
反馈原则：系统对用户操作提供及时、明确的反馈
容错原则：设计应能防止或容忍用户的操作失误
可见性原则：关键信息和操作状态应清晰可见
符合用户心理模型：操作方式应符合目标用户的既有认知和习惯

关键设计要素：

显示信息：数值精度、单位标识、报警阈值显示、趋势图形
输入控制：按键尺寸和间距、触屏响应灵敏度、旋钮转向和阻尼
标签与说明书：图标含义、文字大小、多语言支持、快速操作指南
报警设计：报警优先级分级、声光特性、报警疲劳的预防

4.4 形成性评价（Formative Evaluation）

形成性评价是设计开发过程中的迭代测试活动，目的不是"通过或不通过"，而是发现问题并指导设计改进。

常见的形成性评价方法：

方法	适用阶段	说明
启发式评价（Heuristic Evaluation）	概念设计	由可用性专家基于设计原则评审界面原型
认知走查（Cognitive Walkthrough）	详细设计	模拟用户完成关键任务的认知过程，识别潜在困难
模拟使用测试（Simulated Use Testing）	原型阶段	招募代表性用户操作原型产品，观察使用行为
专家审查（Expert Review）	全过程	人因工程专家对界面进行系统审查

形成性评价的关键要点：

不需要统计学上的严格样本量要求，通常每轮5-8名参与者即可发现大部分可用性问题
应覆盖所有主要用户群体（如同时招募医生和护士）
可以使用纸质原型、线框图、3D打印模型等低保真原型进行早期评价
强烈建议进行多轮迭代： 第一轮发现问题 → 设计改进 → 第二轮验证改进效果 → 进一步优化
每轮评价均应有完整的记录文档

4.5 总结性评价（Summative Evaluation）

总结性评价是可用性工程的最终验证环节，在设计冻结后对最终用户界面进行的正式评价。其目的是提供客观证据，证明用户可以安全、有效地使用器械。

与形成性评价的核心区别：

形成性评价是为了"发现问题"，总结性评价是为了"证明安全"
总结性评价有明确的通过/失败准则
总结性评价的结果将作为监管审评的核心证据

总结性评价的详细要求将在第九节"如何开展可用性研究"中专门论述。

五、FDA人因指南：与IEC 62366的差异与衔接

5.1 FDA指南概述

FDA于2016年发布的《对医疗器械应用人因工程和可用性工程》（Applying Human Factors and Usability Engineering to Medical Devices）指南，是FDA评审人因数据的核心参考文件。虽然该指南与IEC 62366-1在理念和方法论上高度一致，但在以下方面存在显著差异：

5.2 关键差异对比

维度	IEC 62366-1	FDA人因指南
法律性质	国际标准（协调标准）	FDA行业指南（非强制但实际必须遵循）
风险分级	所有器械均适用，深度随风险调整	明确划分需提交HFE报告的器械类别
知识使用（Knowledge Task）	关注可合理预见的使用	特别强调"关键任务"（Critical Tasks）的识别
总结性评价	可接受多种验证方式	对高风险器械明确要求模拟使用测试（Simulated Use Study）
培训的定位	培训可作为风险控制措施之一	培训不能作为消除设计缺陷的替代手段，但可作为残余风险的缓解措施
标签/说明书	视为用户界面的一部分	对标签、IFU的可用性有额外的专门要求

5.3 FDA要求提交人因数据的产品范围

FDA并非对所有510(k)申请都要求完整的人因工程报告。以下类型的器械必须提交人因数据：

新型器械或重大设计变更： 用户界面发生了实质性变化的器械
已知存在使用问题的器械类别： FDA维护了一份"高优先级器械清单"，包括输液泵、AED、胰岛素泵、家用血糖仪等
面向非专业用户（家庭使用）的器械： 所有OTC家用器械几乎都需要人因验证
使用错误可能导致严重伤害或死亡的器械
组合产品（药械组合、注射笔等）： FDA CDRH和CDER联合要求

5.4 FDA的"关键任务"方法论

FDA指南中最具操作性的概念是"关键任务（Critical Tasks）"分析：

关键任务定义： 如果用户在执行该任务时发生使用错误，可能直接或间接导致严重伤害或死亡
识别方法： 通过使用相关风险分析（URRA）系统识别所有关键任务
验证重点： 总结性评价（人因验证测试）必须覆盖所有已识别的关键任务
通过准则： 关键任务中不应出现导致危险情况的使用错误；如出现，需要提供充分的风险缓解论证

5.5 FDA 2022年人因信息提交要求草案

2022年，FDA发布了重要的新版草案指南——《医疗器械上市申请中人因信息的内容》（Content of Human Factors Information in Medical Device Marketing Submissions）。该草案对2016版指南进行了实质性补充和细化，是出海企业必须密切关注的监管动向。

三级分类提交框架：

该草案最重要的更新是建立了基于风险的三级分类提交体系，明确了不同类型申请需要提交的人因信息深度：

类别	适用场景	提交要求
Category 1	对已上市器械的轻微修改，用户界面变化较小	缩减版人因信息（Abbreviated HF Information），主要说明变更内容及对可用性的影响评估
Category 2	器械不存在关键任务（Critical Tasks），或使用相关风险较低	中等深度人因信息（Moderate HF Information），包括使用规范、使用相关风险分析和设计优化记录，但不强制要求总结性评价
Category 3	器械存在关键任务，使用错误可能导致严重伤害或死亡	完整HF/UE报告（Full HF/UE Report），包括所有可用性工程活动的完整文档和总结性评价数据

8部分HF/UE报告结构：

对于Category 3器械，草案定义了标准化的8部分报告结构：

结论概要（Conclusions Summary）： 总体结论和关键发现摘要
器械描述与用户界面分析（Device/UI Analysis）： 器械功能、用户界面特征和交互方式的详细描述
使用规范（Use Specification）： 预期用途、用户群体、使用环境
已知问题分析（Known Problems Analysis）： 同类器械的已知使用问题和不良事件数据
使用相关风险分析（Use-Related Risk Analysis）： 关键任务识别、危险使用场景分析
用户界面设计与优化记录（UI Design History）： 形成性评价结果和设计迭代记录
总结性评价方案与结果（Summative Testing）： 人因验证测试的完整方案和数据
残余风险评估（Residual Risk Assessment）： 所有使用相关残余风险的评估和论证

申请路径扩展：

2022年草案的另一重要更新是明确将De Novo分类请求和人道主义器械豁免（HDE）申请纳入人因数据提交范围。此前这两种路径的人因要求相对模糊，新草案消除了这一灰色地带。对于通过De Novo路径出海的中国创新器械，这意味着企业必须从立项阶段就将人因工程纳入规划。

对中国企业的影响： 三级分类框架虽然增加了合规复杂度，但也为低风险器械企业提供了"减负"路径——如果能充分论证产品不存在关键任务（Category 2），可以免除总结性评价的要求，节省大量时间和费用。建议企业在Pre-Submission阶段即与FDA讨论产品所属的类别。

六、NMPA可用性工程要求：中国监管的正式框架

6.1 指导原则概述

2024年3月，NMPA正式发布了《医疗器械可用性工程注册审查指导原则》，标志着中国对医疗器械可用性的监管从"软性建议"正式升级为"明确要求"。该指导原则以IEC 62366-1为技术基础，但在多个方面体现了中国监管的特色。

对于中国出海企业而言，掌握NMPA要求不仅关乎国内注册，更有助于在全球多市场同步提交时建立统一的可用性工程策略。

6.2 基于风险的分级要求

NMPA指导原则采用了与器械风险等级挂钩的分级要求体系：

高风险器械（第三类）： 要求开展完整的可用性工程活动，包括形成性评价和总结性评价，并提交完整的可用性工程报告
中风险器械（第二类）： 要求开展可用性工程活动，但总结性评价的深度可根据使用风险进行调整
低风险器械（第一类）： 一般不强制要求正式的可用性研究报告，但建议在设计开发中融入可用性考量

6.3 与FDA和欧盟要求的差异

NMPA指导原则在整体框架上与国际接轨，但存在以下值得注意的差异：

用户范围定义较窄： NMPA指导原则中的"用户"概念主要聚焦于直接操作器械的医疗专业人员和患者。相比之下，FDA的用户定义更广泛，包含照护者（Caregivers）、旁观者（Bystanders）、安装维护人员等所有可能与器械交互的人群。企业在同时满足两个市场要求时，建议按FDA的更宽泛定义编制使用规范，以确保覆盖所有监管预期。

任务分类更细粒度： NMPA在关键任务之外，还引入了"重要任务"和"一般任务"的进一步细分，对不同级别任务的验证深度提出了差异化要求。这与FDA相对简单的"关键任务/非关键任务"二分法有所不同。

文档要求的中国特色： NMPA期望可用性工程文件与中国注册申报资料的整体结构相协调，特别是与产品技术要求、研究资料等模块的交叉引用。企业在编制文件时应注意与中国注册专家协调。

6.4 三市场协同策略

面向FDA、欧盟和NMPA同时提交的企业，建议采用以下协同策略：

以IEC 62366-1为基础建立统一的可用性工程流程，在此基础上分别满足三个市场的增量要求
使用规范按FDA的最宽用户定义编写，确保覆盖三个市场的所有预期
任务分类按NMPA的细粒度框架执行（高/中/低），同时确保FDA"关键任务"和欧盟"关键使用场景"的要求被充分覆盖
总结性评价在目标出海市场进行，但分析报告格式同时满足三个市场的文档结构要求

七、欧盟MDR一般安全与性能要求（GSPR）中的可用性

7.1 Annex I核心条款

欧盟MDR 2017/745在Annex I中多处涉及可用性要求，核心条款包括：

第5条（一般要求）： 器械应按照安全和性能的最新技术水平进行设计和制造。在选择最合适的解决方案时，制造商应按以下优先顺序应用风险管理原则：

通过安全设计和制造消除或尽可能降低风险（固有安全设计）
对无法消除的残余风险采取适当的保护措施（包括报警）
提供安全信息（警告/注意/标签）并在适当时提供培训

第14条第1款： 器械的设计和制造应考虑非专业人士的技术知识、经验、教育、培训以及使用环境，以使其能够按照预期安全使用。

第14条第2款： 器械及其各部分的功能和控制应易于识别。应通过设计和制造使器械的使用错误风险最小化。

第22条： 标签和使用说明的可用性要求。

第23条： 与器械一起提供的信息应考虑用户的培训和知识水平。

7.2 GSPR与IEC 62366-1的衔接

IEC 62366-1是欧盟MDR下的协调标准，这意味着按照该标准实施的可用性工程活动可以被推定为满足MDR Annex I中可用性相关的GSPR。企业在编制技术文件时，应在GSPR符合性清单中明确将IEC 62366-1的可用性工程文件作为各相关条款的符合性证据。

7.3 公告机构的审查重点

欧盟公告机构在审查可用性工程文件时通常关注以下方面：

使用规范是否完整覆盖了欧盟市场的用户群体和使用环境
使用相关风险分析是否与ISO 14971风险管理文件保持一致
形成性评价是否进行了足够的迭代
总结性评价是否覆盖了所有关键使用场景
可用性工程文件是否完整且可追溯
上市后监督（PMS）计划是否包含使用相关问题的持续监控

八、使用错误分析：分类体系与危险情况

8.1 使用错误的三维分类模型

IEC 62366-1和FDA指南均采用基于人因学的三维分类模型来分析使用错误的根源：

感知错误（Perception Errors）： 用户未能正确感知界面信息。

视觉：显示数值过小无法阅读、颜色编码对色盲用户不友好、报警指示灯位置隐蔽
听觉：报警声在嘈杂环境中被掩盖、语音提示发音不清
触觉：按键反馈力度不足导致用户不确定是否已按下

认知错误（Cognition Errors）： 用户感知到了信息但做出了错误的理解或判断。

记忆负荷过大：操作步骤过多、需要记忆的参数过多
心理模型不匹配：操作逻辑与用户的既有经验不符（如旋钮方向与预期相反）
信息歧义：图标含义不明确、数值单位标注不清、状态信息误导

行动错误（Action Errors）： 用户理解正确但执行了错误的操作。

精细动作错误：按错相邻按键、滑动操作精度不足
操作遗漏：跳过必要步骤（如忘记确认操作）
操作顺序错误：步骤执行顺序与要求不同

8.2 从使用错误到危险情况

使用错误本身并不一定导致伤害，关键在于使用错误是否会引发危险情况（Hazardous Situation）。分析链条如下：

使用错误 → 危险情况 → 伤害

例如：

使用错误：护士在输液泵上输入了错误的药物浓度（行动错误）
危险情况：患者接受了过量的药物输注
伤害：药物毒性反应、器官损伤甚至死亡

可用性工程的核心任务是切断从使用错误到危险情况的因果链，具体措施包括：

消除（Eliminate）： 通过界面设计使错误不可能发生（如物理联锁）
降低（Reduce）： 通过设计使错误难以发生（如确认对话框、范围限制）
检测（Detect）： 使错误易于被发现和纠正（如报警、状态显示）

九、如何开展可用性研究：实操指南

9.1 研究方案设计

一份完整的可用性研究方案（无论是形成性还是总结性评价）应包含：

研究目标： 明确本次研究要验证的问题和假设。

参与者选择：

根据使用规范中定义的用户群体确定参与者招募标准
总结性评价中，FDA通常期望每个主要用户群体至少招募15名参与者
招募缓冲（Recruitment Buffer）： 实际操作中建议每组招募18-20名参与者，以确保在出现迟到、不合格或中途退出等情况后仍能获得至少15名有效完成的数据集。招募不足是导致研究延期的常见原因之一
参与者应具有与目标用户群体匹配的专业背景、经验水平和人口学特征
重要提示： 参与者不应是产品开发团队成员或与制造商有利益关系的人员

任务场景设计：

覆盖所有关键任务和代表性使用场景
场景应尽可能模拟真实使用条件（环境、时间压力、干扰因素）
包含正常使用场景和异常/紧急场景

测试环境：

模拟使用测试应在模拟真实使用环境的测试实验室中进行
环境因素：光线、噪音、佩戴手套等应与真实场景一致
需要录像和观察设备（经参与者知情同意）

衰减期（Decay Period）：

对于需要培训后使用的器械，FDA期望在培训环节和正式测试环节之间设置最短1小时的衰减期（Decay Period）。这一要求的目的是模拟真实场景中用户接受培训后经过一段时间再实际操作的情况，避免"培训刚结束立即测试"导致结果过于乐观。具体注意事项：

衰减期的长度应与器械的实际使用频率相匹配——对于低频使用的器械（如AED），FDA可能期望更长的衰减期（如数天甚至数周）
衰减期内参与者不应接触器械或复习培训材料
在研究方案中应明确说明衰减期的时长及其合理性论证

研究后访谈（Post-Study Interview）：

FDA建议在每位参与者完成测试任务后进行结构化的研究后访谈。推荐的访谈问题维度包括：

参与者在操作过程中是否遇到任何困惑或犹豫？具体发生在哪个步骤？
参与者对界面信息的理解是否与设计意图一致？（特别是图标、报警含义、单位显示）
参与者是否有在真实场景中会采取不同操作方式的预期？
参与者认为哪些方面最需要改进？
对于观察到的使用错误，引导参与者回顾操作时的思维过程（但需注意避免诱导性提问）

研究后访谈的数据对于使用错误的根因分析至关重要。FDA审评员常常会特别关注访谈数据中反映出的系统性可用性问题，而非仅看任务成功率的数字。

9.2 数据收集与分析

定量数据：

任务成功率（Task Success Rate）
任务完成时间（Task Completion Time）
使用错误的类型和频次
未遂事件（Close Calls / Near Misses）的记录

定性数据：

用户行为观察记录
出声思考（Think-Aloud）数据
事后访谈中用户对使用困难和混淆点的描述
用户满意度评价

根因分析： 对于观察到的每一个使用错误和使用困难，需要进行根因分析：

是感知、认知还是行动层面的问题？
根源在界面设计还是培训材料？
是否可以通过设计改进消除？

9.3 通过/失败准则（Pass/Fail Criteria）

总结性评价必须预先定义明确的通过/失败准则。典型的准则框架：

关键任务： 不允许出现导致危险情况的使用错误。如出现，必须逐一分析其根因，确认是否为用户界面设计缺陷导致，并评估残余风险的可接受性。
非关键任务： 允许一定比例的使用困难，但应确认这些困难不会升级为安全风险。
整体可用性： 绝大多数参与者应能在无外部帮助的情况下成功完成关键任务。

FDA的期望： FDA审评员会仔细审查每一个在关键任务中出现的使用错误。即使只有1名参与者（在15名中）在关键任务中出现了导致潜在伤害的使用错误，企业也必须提供充分的分析和论证，说明该风险为何是可接受的，或展示已采取的额外风险缓解措施。

9.4 在哪里做可用性测试？

对于中国出海企业，可用性测试的地点选择是一个重要的策略问题：

目标市场测试（推荐）： 在美国或欧盟进行，参与者是真正的目标用户。FDA和公告机构对此类数据的认可度最高。
中国国内测试： 如果目标用户包含中国医疗专业人员（如面向中国医院出口回国使用的场景），国内测试数据是适用的。但如果产品主要面向美国或欧盟用户，仅有中国用户的数据可能不被接受，因为用户的培训背景、使用习惯和认知模式存在文化差异。
折中方案： 在中国进行形成性评价（低成本迭代优化），在目标市场进行总结性评价（正式验证）。

十、可用性工程文件（Usability Engineering File, UEF）

10.1 文件结构与内容

可用性工程文件是贯穿整个可用性工程过程的核心文档集合，也是提交给监管机构的主要证据。一份完整的UEF应包含：

可用性工程计划（Usability Engineering Plan）： 描述可用性工程活动的范围、方法、时间计划和资源
使用规范（Use Specification）： 预期用途、用户群体画像、使用环境描述
使用相关风险分析（Use-Related Risk Analysis, URRA）： 识别的使用相关危害、危险使用场景、风险评估结果
用户界面设计规范（UI Design Specification）： 用户界面的设计要求和设计依据
形成性评价记录： 每轮形成性评价的方案、结果、发现的问题和设计改进措施
总结性评价报告： 完整的验证性测试报告，包括方案、数据、分析和结论
使用相关风险控制措施的追溯矩阵： 证明每个已识别的使用风险都有对应的控制措施，且已经过验证
可用性工程总结报告（Usability Engineering Summary Report）： 汇总所有可用性工程活动的最终结论

10.2 文档质量的常见问题

监管审评中最常被指出的文档问题包括：

使用规范描述笼统，未针对具体目标市场定制
URRA与ISO 14971风险管理文件脱节，缺乏交叉引用
形成性评价记录不完整或缺失（有些企业跳过形成性评价直接做总结性评价）
总结性评价的通过/失败准则定义不明确或过于宽松
使用错误的根因分析不够深入，停留在现象描述层面
缺乏设计变更的追溯记录

十一、中国企业在可用性提交中的常见陷阱

11.1 理念层面的误区

误区一："产品通过了功能测试，可用性就没问题" 功能测试验证的是器械能否按规范工作，可用性验证的是真实用户能否正确操作。两者完全不同。一个功能完美的器械，如果界面设计不当，用户照样会犯错。

误区二："可用性只是给用户写一本好的说明书" 说明书和培训是可用性的一部分，但绝不是全部。FDA明确指出，培训不能替代良好的界面设计。首要措施永远应该是改进设计本身。

误区三："我们的产品在中国市场使用多年，没出过事故" 中国市场的使用经验不能直接外推到海外市场。用户群体不同、使用环境不同、培训体系不同，在中国表现良好的产品在海外市场可能面临完全不同的可用性挑战。

11.2 执行层面的常见问题

问题一：可用性工程启动过晚 许多企业在产品设计基本完成后才开始考虑可用性，这时发现重大界面缺陷需要返工，成本和时间代价极高。可用性工程应从产品概念阶段即开始介入。

问题二：形成性评价被跳过 有些企业为了节省时间和费用，跳过形成性评价直接做总结性评价。结果是总结性评价中发现大量问题，不得不返回修改设计再重新做总结性评价，反而花费更多。

问题三：参与者招募不规范 使用公司内部员工或合作医院的"友好"医生作为测试参与者，这些人对产品过于熟悉，无法代表真实的"初次使用"或"低频使用"场景。

问题四：测试场景过于理想化 在安静、明亮、无干扰的实验室中进行测试，而真实使用场景可能是嘈杂的急诊室、昏暗的病房或颠簸的救护车中。

问题五：不重视本地化可用性 界面翻译成英文后文字长度变化导致的布局问题、单位制转换（公制vs英制）、日期格式差异等"小问题"在可用性测试中往往暴露出令人意外的使用困难。

11.3 提交策略建议

提前与FDA进行Pre-Submission会议： 在启动人因研究之前，通过Pre-Sub会议与FDA讨论人因验证策略，确认关键任务清单和研究方案。这可以显著降低后续审评中出现意外问题的风险。
聘请有经验的人因工程咨询公司： 可用性工程是一个高度专业化的领域，建议聘请在FDA或欧盟有丰富提交经验的人因工程顾问。
尽早规划，分阶段投入： 在产品规划阶段就将可用性工程纳入项目计划，而不是作为上市前的最后一个补丁。

十二、标准生态：IEC 62366与关联标准的协同

12.1 与ISO 14971风险管理的协同

IEC 62366-1与ISO 14971的关系可以用"双向输入"来概括：

ISO 14971 → IEC 62366-1： 风险管理过程中识别的使用相关危害输入到可用性工程的使用风险分析中
IEC 62366-1 → ISO 14971： 可用性工程中发现的新危害和使用错误反馈回风险管理文件，更新风险评估

实施建议： 建立统一的风险追溯矩阵，将ISO 14971中的使用相关风险控制措施与IEC 62366-1中的验证活动一一对应。审评员最看重的就是这种端到端的可追溯性。

12.2 与IEC 62304软件生命周期的协同

对于含软件的医疗器械（包括SaMD），可用性工程需要与IEC 62304软件开发流程深度整合：

软件需求规范中应包含用户界面需求（来源于使用规范）
软件架构设计应考虑可用性约束（如响应时间要求）
软件验证活动应包含可用性验证
软件变更管理应评估对可用性的影响

12.3 与IEC 60601-1-6的协同

IEC 60601-1-6是医用电气设备安全标准IEC 60601-1的并列标准，专门规定了医用电气设备的可用性要求。该标准在技术内容上直接引用IEC 62366-1，但增加了以下特定要求：

电气安全相关的可用性考量（如电击防护措施的用户操作）
报警系统的可用性（与IEC 60601-1-8协同）
电磁兼容性相关的用户说明

12.4 AAMI HE75：原则导向的设计指南

在IEC 62366-1的标准生态中，AAMI HE75:2018《人因工程——医疗器械设计》（Human Factors Engineering — Design of Medical Devices）是一份不可忽视的补充性参考文件。与IEC 62366-1侧重流程框架（"做什么"和"按什么顺序做"）不同，AAMI HE75提供的是原则导向的设计指导（"怎么做得好"），涵盖显示设计、控件设计、报警设计、软件界面设计、标签与说明书设计等具体领域的最佳实践建议。

AAMI HE75虽然不是FDA认可的协调标准，也不具有强制执行力，但在实践中具有重要影响：

部分FDA审评员会引用AAMI HE75中的设计原则作为评审人因数据时的参考基准，特别是在评估界面设计合理性时
该标准为企业在形成性评价阶段的启发式评价和专家审查提供了系统化的评审检查清单
对于缺乏内部人因工程专家的中国企业，AAMI HE75是快速建立设计团队人因知识体系的实用工具

建议： 企业不必将AAMI HE75作为合规提交的必选引用标准，但在可用性工程文件中适当引用其设计原则，可以向FDA审评员展示企业在人因设计方面的专业深度，增强提交材料的说服力。

十三、可用性工程项目的时间线与成本估算

13.1 典型时间线

一个完整的可用性工程项目（从使用规范编制到总结性评价完成）的典型时间线如下：

阶段	活动	预估时间
第一阶段	使用规范编制 + 使用相关风险分析	4-6周
第二阶段	第一轮形成性评价（概念原型）	4-6周
第三阶段	设计迭代 + 第二轮形成性评价	6-8周
第四阶段	设计冻结 + 总结性评价方案制定	3-4周
第五阶段	总结性评价执行（参与者招募+测试+分析）	8-12周
第六阶段	可用性工程文件编制与审核	4-6周
合计		约 7-10个月

注意： 以上时间线假设不需要重大设计返工。如果总结性评价中发现严重可用性问题需要重新设计，整体时间可能延长3-6个月。

13.2 成本估算

可用性工程的成本因产品复杂度、目标市场和是否使用外部咨询公司而有较大差异：

项目	成本范围（美元）
人因工程咨询顾问费	$50,000 - $200,000
形成性评价（2-3轮）	$30,000 - $80,000/轮
总结性评价（含参与者招募）	$100,000 - $300,000
可用性实验室租赁与设备	$10,000 - $30,000
差旅与后勤（如在美国进行测试）	$20,000 - $50,000
文档编制与审核	$20,000 - $50,000
低风险器械合计	$150,000 - $300,000
高风险器械合计	$300,000 - $700,000

成本优化策略：

在中国进行形成性评价（降低差旅和人工成本），仅在目标市场进行总结性评价
将可用性工程与产品开发流程深度整合，避免后期返工
对于低至中风险器械，评估是否可以依靠文献数据和专家审查替代部分正式测试
利用远程可用性测试技术（适用于部分SaMD产品）降低成本

13.3 投资回报率分析

虽然可用性工程的前期投入不低，但考虑以下因素，其投资回报率通常非常可观：

避免FDA拒绝函： 一次RTA或AI导致的审评延迟平均增加6-12个月的上市时间，对应的市场机会成本远超可用性工程投入
减少上市后召回风险： 一次使用相关的产品召回，平均成本在数百万至数千万美元
降低上市后不良事件报告频率： 减少法规合规负担和品牌声誉损失
提升市场竞争力： 良好的用户体验是产品差异化竞争的重要维度

十四、结语

可用性工程不是医疗器械设计流程中一个孤立的合规检查项，而是应该从产品概念阶段就嵌入到设计开发DNA中的系统化方法论。对于中国医疗器械企业而言，建立扎实的可用性工程能力，不仅是打开FDA和欧盟大门的"必答题"，更是在全球市场中建立产品竞争力和品牌信誉的长期战略投资。

面对日益严格的全球监管要求，建议企业采取以下行动：

尽早在组织内建立可用性工程意识，从管理层到研发团队全面认识其重要性
将IEC 62366-1纳入质量管理体系，与ISO 14971和IEC 62304建立系统化的协同机制
在产品规划阶段就制定可用性工程计划，预留充分的时间和预算
重视目标市场的用户差异，避免将中国市场的使用经验简单外推
善用Pre-Submission等监管沟通工具，在正式提交前与FDA对齐人因验证策略

可用性工程不仅关乎法规合规，更关乎患者安全。每一个被消除的使用错误，都可能避免一次伤害事件。这也正是可用性工程在全球医疗器械监管体系中被提升到如此重要地位的根本原因。