2026 年 4 月 17 日,Google 在日本官网发布文章《How Google Does It: 効果的な AI レッドチームの構築》,系统介绍其在 AI 系统安全性评估方面的实践。文章重点围绕“AI 红队”的组织方式与运作方法,说明如何从攻击者视角发现 AI 的脆弱点和意外行为,并将这些发现用于提升整体防御能力。
红队:防御团队的“实战陪练”
自成立以来,Google 红队一直是公司安全战略的核心组成部分,扮演着防御团队(蓝队)的“实战陪练”角色。随着技术演进,Google 在传统红队基础上,专门组建了面向 AI 的红队,聚焦生成式 AI、AI 代理等新型系统的安全性。
AI 红队在评估时,会假设多种现实中的威胁主体,例如:
- 国家级攻击者
- 高级持续性威胁(APT)组织
- 网络犯罪团伙
- 黑客激进分子(Hacktivist)
- 内部人员滥用或内鬼
在此基础上,红队通过模拟真实攻击场景,尝试从攻击者的思路出发,理解他们如何利用 AI 系统的特性与弱点实施攻击。
AI 攻击尚不多见,但前瞻性验证更关键
传统安全防护往往依赖大量既有攻击与入侵案例来设计防御措施。而现实世界中,针对 AI 系统的大规模攻击目前仍相对有限,可供参考的“真实事故”并不多。
在这种背景下,Google 将 AI 红队视为面向未来威胁的重要手段:
- 通过主动模拟现实攻击,提前暴露潜在脆弱性
- 在尚未出现大规模真实攻击前,就能迭代防御策略
- 为安全工程、产品设计和风险管理提供前瞻性依据
Google 表示,通过尽可能贴近现实的攻击模拟,可以更有效地发现系统薄弱环节,并据此强化整体防御能力。
从攻击者出发设计“现实可行”的攻击场景
在开展 AI 红队演练时,Google 首先会明确“对手模型”,包括:
- 攻击者的类型与背景
- 可支配的资源与技术能力
- 攻击动机与目标
在此基础上,再具体设计攻击路径与操作步骤。Google 强调,重点不是构造只存在于理论中的“完美攻击”,而是要围绕现实中真正可能发生、可被攻击者执行的场景进行验证。
为保证场景的现实性与前瞻性,Google 会综合利用:
- 最新的对抗性机器学习研究成果
- 来自 Mandiant、Google Threat Intelligence Group 等团队的威胁情报
通过这些信息,红队既评估当前已可实施的攻击方式,也推演未来可能出现的新型攻击手法。
文章特别指出,随着 AI 代理(AI Agent)能力增强,提示注入(Prompt Injection) 的风险显著上升:
- 当 AI 能访问敏感或机密数据
- 并且具备在现实世界中执行操作的能力(如调用内部系统、自动化脚本等)
此类系统就会成为更具价值、更具吸引力的攻击目标。
AI 攻击更像“社工攻击”,而非传统漏洞利用
Google 指出,针对 AI 的攻击,与传统那种基于确定性软件漏洞的攻击有明显不同,更接近“社会工程学攻击”的逻辑。
原因在于:

- 大型模型是概率性系统,同一输入可能产生不同输出
- 攻击者可以不断尝试不同提示、上下文和交互方式
- 通过反复试探,寻找模型“失误”或越过安全边界的触发点
因此,攻击的焦点不再只是代码缺陷,而是:
- 如何诱导模型偏离预设的安全规则(Guardrails)
- 如何通过语言与上下文操控,让模型执行本不该执行的行为
此外,许多与 AI 相关的安全问题,并不是在“模型单独存在”时出现,而是在:
- 模型被集成进具体产品或业务流程
- 获得真实数据访问权限和执行能力
之后才真正暴露出来。这也是为什么 Google 强调要在“产品级场景”中评估 AI 安全性,而不仅仅是测试模型本身。
结合传统安全与 AI 的端到端攻击模拟
在 Google 的实践中,AI 红队不会将 AI 攻击与传统网络攻击割裂开来,而是从现实攻击者的视角,将两者结合进行端到端演练。
现实中的攻击者不会只使用单一技术手段,因此 Google 会设计诸如:
- 先通过传统方式入侵内部系统
- 再进行横向移动(Lateral Movement),逐步接近 AI 环境
- 最终利用获得的访问权限,对 AI 系统实施攻击
在具体技术层面,Google 会模拟多种针对 AI 的攻击方式,例如:
- 提示攻击(Prompt-based Attacks / Prompt Injection)
- 训练数据抽取与模型反推
- 模型或数据后门(Backdoor)植入
- 数据投毒(Data Poisoning)
- 通过对话或接口窃取敏感信息
通过将这些 AI 攻击与传统入侵路径串联起来,Google 能更真实地评估整个系统在复杂攻击链条下的表现。
严格的行为准则与日志记录机制
为了在不伤害真实用户和业务的前提下进行高强度测试,Google 为 AI 红队制定了严格的行为规范:
- 攻击目标仅限于 Alphabet 管理的系统
- 禁止使用威胁、勒索、贿赂等手段
- 不得访问或操作任何真实客户数据
- 所有测试在专门构建的模拟或隔离环境中进行
同时,红队的全部活动都会被详细记录为日志,这些日志主要用于:
- 形成可审计的证据链,满足合规与内部治理要求
- 明确区分红队行为与真实攻击事件,避免混淆
- 为事后分析、经验复盘和防御策略优化提供数据基础
不必“恐惧 AI”,关键是学会像攻击者那样思考
在 Google 看来,复杂的 AI 系统确实会让人产生“难以防御”的直观印象,但真正关键的能力仍然是:
能否从攻击者视角出发,系统性地思考“我会如何利用这个系统”。
许多有效的攻击并不一定需要极高深的技术,而是:
- 对系统功能和边界的深入理解
- 对现实攻击路径的敏感度与想象力
- 对业务流程与人性弱点的把握
Google 也指出,攻击者同样在积极利用 AI:
- 自动化生成钓鱼内容与恶意代码
- 提升攻击的速度、规模与复杂度
- 辅助信息收集与目标分析
在这种攻防态势下,Google 正在探索将 AI 本身引入红队工作:
- 用 AI 辅助生成攻击场景与测试用例
- 自动化发现潜在风险模式
- 提高红队演练的覆盖度与效率
最后,Google 表示,会持续通过:
- 对模拟结果的系统化评估
- 在内部团队之间共享经验与教训
不断改进安全防护措施,并将这些经验沉淀到研究开发和资源投入决策中,以更好地应对未来 AI 安全挑战。