2025 年 7 月 7 日,EMA 联合 PIC/S 发布了 EU GMP Annex 22(人工智能)征求意见稿。这是全球第一个专门针对制药 GMP 环境中 AI 使用制定的监管文件。征求意见截止到 2025 年 10 月,预计 2026 年中期发布正式稿,2027-2028 年分阶段实施。
对于在制药行业使用或计划使用 AI 的企业来说,Annex 22 不是一份可以观望的指导文件——它将写入 EudraLex Volume 4,成为 GMP 检查的法律依据。检查员会依据它来评估你的 AI 系统是否合规。
Annex 22 的定位:不创造新体系,而是延伸现有规则
Annex 22 的起草者明确表示,这个附录不是要另起炉灶。它做的是将 GMP 的基本原则——记录用途、验证、变更控制、持续监控——应用到"部分决策逻辑由 AI 模型实现"这一新场景。
与 Annex 11 的关系可以这样理解:Annex 11 管系统,Annex 22 管系统里的智能。Annex 11 覆盖 LIMS、MES、ERP 等传统计算机系统,聚焦验证、数据完整性和生命周期管理。Annex 22 则专门针对这些系统中嵌入的 AI/ML 模型,补充了 Annex 11 未涉及的要求:训练数据的选择和清洗、独立测试数据集、可解释性、置信度阈值、模型性能持续监控和漂移检测。
适用范围:什么能做,什么不能做
Annex 22 画了两条关键红线。
关键应用:仅允许静态确定性模型
关键应用(Critical) 指直接影响患者安全、产品质量或数据完整性的 AI 用途。这类场景只允许使用静态确定性模型——给定相同输入,必须产生相同输出。
这意味着:
- 允许:已训练好并锁定的分类模型、回归模型
- 禁止:自适应学习模型(在线学习、持续学习)
- 禁止:生成式 AI 和大语言模型(LLM)
后者的禁止值得特别关注。Annex 22 明确指出,产生概率性输出的模型不适用于关键 GMP 应用。如果你的质量部门打算用 ChatGPT 辅助偏差调查、用 LLM 生成 OOS 报告——这些在关键应用场景下不被允许。
非关键应用:可用生成式 AI,但须人机协同
非关键应用(Non-Critical) 指不直接影响患者安全、产品质量或数据完整性的场景,如文件草拟、摘要生成、查询辅助。在这些场景下:
- 可以使用 LLM 和生成式 AI
- 必须有合格人员审核 AI 输出(Human-in-the-Loop)
- 需要建立书面程序、审计追踪和使用控制
| 应用场景分类 | 关键(Critical) | 非关键(Non-Critical) |
|---|---|---|
| 允许的模型类型 | 静态确定性 ML 模型 | LLM、生成式 AI |
| 可解释性要求 | 严格 | 按需 |
| HITL 要求 | 关键决策需人工确认 | 所有输出需人工审核 |
| 验证要求 | 全生命周期验证 | 文件化程序 |
| 典型场景 | 视觉检测、过程控制、偏差分类 | 文件草拟、数据汇总、查询辅助 |
九步合规框架
Annex 22 构建了一个 AI 模型从开发到退役的完整生命周期框架,共九个阶段:
第一步:定义预期用途(Intended Use)明确 AI 模型要解决什么问题,用于什么决策。这一步必须由工艺领域专家(SME)负责,不能只交给数据科学家。文档需要包含:模型目标、输入输出规范、适用范围和限制、关键性能指标。
第二步:定义测试指标(Test Metrics)根据预期用途选择合适的性能衡量标准。分类模型可能需要混淆矩阵、灵敏度、特异度、精确度、F1 分数。回归模型可能需要 RMSE、MAE、R²。
第三步:管理测试数据(Test Data)数据是 AI 合规的基石。Annex 22 要求训练集、验证集和测试集必须独立,数据来源必须可追溯,数据质量必须经过评估。附录特别强调要对子群进行分析——如果模型用于判断产品"接受"或"拒绝",不能只看整体准确率,还需要检查在不同产品类型、不同缺陷等级上的表现是否一致。
第四步:模型开发(Model Development)保留完整的开发日志(Engineering Journal),包括模型架构选择、超参数调优记录、特征工程决策。所有决策必须可追溯。
第五步:模型测试(Model Testing)用独立的测试数据集进行评估。测试结果必须与预定义的接受标准对比。如果模型在某个子群上表现异常,需要记录并分析原因。
第六步:正式验收(Acceptance)由质量部门正式审核和批准。验收文件应包括:预期用途文档、测试报告、已知限制说明、监控计划。
第七步:并行部署(Parallel Deployment)在正式切换到 AI 系统之前,需要将 AI 输出与现有人工流程并行运行一段时间,验证 AI 系统在实际生产环境中的表现。Annex 22 要求 AI 至少与经验证的人工流程表现相当。
第八步:验证与放行(Validation & Release)确认所有验证活动完成,正式批准 AI 模型用于 GMP 生产。
第九步:运行监控与持续验证(Maintenance & Continuous Validation)这是最容易忽视的环节。模型上线后需要持续监控性能指标,检测数据漂移(输入数据分布变化)和模型漂移(模型性能退化)。一旦检测到异常,需要触发人工审核或重新验证。
数据治理要求
Annex 22 对数据的要求可以概括为 ALCOA+ 原则在 AI 领域的具体应用:
- 可归因(Attributable): 每条训练数据的来源、采集者、采集时间必须可追溯
- 可读(Legible): 数据格式标准化,可被审计员理解
- 同时性(Contemporaneous): 数据处理活动在发生时即被记录
- 原始性(Original): 保留原始数据,不得篡改
- 准确(Accurate): 数据标注和质量必须经过验证
此外,Annex 22 还要求数据集文档化(Data Sheet),描述数据集的来源、大小、标注方法、已知偏差和限制。
人员要求
Annex 22 第一章就讲人员,而非技术。起草者清楚,AI 合规的核心瓶颈不是算法,而是人。
关键人员要求包括:
- 操作人员必须理解 AI 模型的预期用途和关联风险,需要与 IT、数据科学家、QA 密切协作
- 人员资质和职责必须书面定义
- 对于 HITL 场景,操作人员的培训和持续能力评估必须像其他手工操作一样被管理
- 测试数据独立性要求延伸到人员——测试数据评估人员应独立于模型开发人员
PwC 2026 年的分析指出,Annex 22 隐含要求建立跨职能共担机制:数据科学家不能独立定义预期用途和接受标准,QA 无法在不理解模型行为的情况下进行验证,IT 不能在不了解模型依赖关系的情况下运维系统。
与 EU AI Act 的关系
Annex 22 和 EU AI Act 是两套并行但互补的框架:
| 维度 | Annex 22 | EU AI Act |
|---|---|---|
| 适用范围 | 制药 GMP 环境 | 所有行业 |
| 管理对象 | AI 模型在 GMP 中的使用 | AI 系统的市场投放 |
| 执行机构 | GMP 检查员 | 各国市场监督机构 |
| 高风险定义 | 关键 GMP 应用 | Annex III 列举的高风险用途 |
| 关键时间节点 | 2026 年正式稿,2027-2028 实施 | 2026 年 8 月高风险义务生效 |
两者在制药领域有交叉。PwC 的分析指出,制药企业需要在 2026 年 8 月之前完成 AI 使用全景盘点,同时评估 AI Act 和 Annex 22 下的合规要求。
FDA 的平行动态
2025 年 1 月,FDA 发布了《使用 AI 支持药品监管决策的考量》征求意见稿,引入"可信度评估框架"(Credibility Framework)。2026 年 1 月,FDA 和 EMA 联合发布了《药物开发中 AI 良好实践指导原则》,这是两大监管机构首次在 AI 治理上的正式联合声明。
这些文件虽然不是具有法律约束力的法规,但清晰表明了监管方向:FDA 和 EMA 在 AI 治理上正在趋同。对于同时面向美国和欧盟市场的企业来说,以 Annex 22 为基线建设 AI 合规体系,大概率也能满足 FDA 的期望。
对中国制药企业的实操建议
评估现有 AI 使用情况
很多企业已经在生产中使用 AI 而不自知。例如:MES 系统内置的统计过程控制算法、实验室信息系统的自动审核规则、供应商提供的视觉检测系统中的 ML 模型。Annex 22 发布后,这些都属于需要评估和文档化的范围。
建立跨职能 AI 治理架构
不要把 AI 合规只交给 IT 或 QA。Annex 22 要求工艺专家、质量人员、IT 运维和数据科学家共同参与。建议设立 AI 治理委员会,至少包含 QA、生产、IT、数据科学四个职能。
从视觉检测入手试点
视觉检测(Visual Inspection)是制药 AI 应用最成熟的场景,也是 Annex 22 合规最容易切入的领域。建议选择一个已有人工视觉检测流程的生产线,按照 Annex 22 的九步框架部署 AI 辅助检测,在并行运行阶段积累经验。
供应商管理升级
如果 AI 功能由设备或软件供应商提供(如自动化设备内置的 ML 模型),Annex 22 要求供应商提供算法文档(架构、训练程序、验证报告)。在采购新设备或系统时,需要将 AI 相关的文档要求纳入供应商审计清单。
常见问题
Annex 22 什么时候开始执行?2025 年 7 月发布征求意见稿,2025 年 10 月征求意见截止。预计 2026 年中期发布正式稿,2027-2028 年分阶段执行。但从现在起,GMP 检查员可能已经开始询问企业的 AI 使用情况。
我们用的是供应商预装的 AI 功能,也需要合规吗?需要。Annex 22 不管 AI 是自己开发的还是供应商提供的。只要在 GMP 环境中使用,就必须满足文档化、验证和监控的要求。供应商需要提供足够的文档(算法架构、训练过程、验证数据)让你完成合规。
可以用 ChatGPT 写偏差调查报告吗?如果偏差调查报告直接影响产品质量评估和纠正措施决策(属于关键应用),则不允许使用 LLM。如果仅用于草拟初稿,由合格人员完整审核后再纳入质量体系,属于非关键应用,可以使用但需要 HITL 和审计追踪。
已经验证过的传统统计模型需要按 Annex 22 重新验证吗?如果模型使用固定规则(如回归方程、控制图算法),不涉及从数据中"学习",一般不视为 Annex 22 管辖的 AI 模型。但如果模型涉及训练数据驱动的参数优化(如神经网络、随机森林等),则属于 Annex 22 范围,需要按照其要求进行差距评估。
中国 NMPA 有类似的 AI GMP 指南吗?截至 2026 年 4 月,NMPA 尚未发布专门针对制药 AI 的 GMP 指南。但中国作为 PIC/S 成员(2025 年加入),未来大概率会参考 Annex 22 的框架制定本国要求。对于出口欧盟的中国制药企业,现在按 Annex 22 标准建设 AI 合规体系是前瞻性选择。
参考资源
- EU GMP Annex 22 Draft — Annex 22 征求意见稿全文
- PwC: Annex 22 Making AI Work in GxP — PwC 对 Annex 22 的深度解读
- FDA-EMA Guiding Principles of Good AI Practice — FDA-EMA 联合 AI 指导原则
- IntuitionLabs: EU GMP Annex 22 AI Compliance — Annex 22 合规要点总结
- GMP Navigator: Annex 22 Training — Annex 22 专业培训课程
- PDA Journal: Interpreting Draft Annex 22 — PDA 学术论文解读