揭秘AI万能钥匙，可实现批量越狱

一次成功的越狱有可能颠覆人工智能供应商通过对模型的训练而在模型中建立的所有或大部分负责任的人工智能（RAI）防护网，因此，作为深度防御的一部分，在人工智能堆栈的其他层级上降低风险是一个关键的设计选择。与 Crescendo 等其他越狱程序不同的是，这些程序必须通过间接方式或编码方式向模型询问任务，而 "Skeleton Key "则将模型置于用户可以直接请求任务的模式，例如 "编写生物武器的配方"

FreeBuf_

1307人浏览 · 2024-07-08 14:04:31

FreeBuf_ · 2024-07-08 14:04:31 发布

近日，微软公布了一项人工智能越狱技术细节，该科技巨头的研究人员已经成功地对几款较为火热的人工智能模型进行了验证。几乎所有的模型都越狱成功，在多个敏感主题中均输出不安全的内容，包含政治、种族主义、毒品、暴力、自我伤害、炸弹、生物武器等等。在整个过程中，这些AI大模型的内容输出竟然"完全遵守了规定，不受审查"。

核心摘要

1、微软发现了一项人工智能越狱技术，并称之为Skeleton Key，可以实现对多个人工智能模型越狱。

2、Meta Llama3、Google Gemini Pro、OpenAI GPT 3.5 Turbo、OpenAI GPT 4o等大模型在越狱中均输出了不合规内容。

3、Skeleton Key通过多轮策略来使模型忽略其安全防护，一旦模型防御忽略了该风险，那么就无法从其他任何请求中判断恶意的请求。

4、Skeleton Key只是对模型本身的攻击，不会给AI系统带来其他风险，例如允许访问其他用户的数据、数据外泄等。

在生成式人工智能中，越狱（也称为直接提示注入攻击）是试图规避人工智能模型预期行为的恶意用户输入。一次成功的越狱有可能颠覆人工智能供应商通过对模型的训练而在模型中建立的所有或大部分负责任的人工智能（RAI）防护网，因此，作为深度防御的一部分，在人工智能堆栈的其他层级上降低风险是一个关键的设计选择。

众所周知，人工智能越狱可能会导致系统违反其操作员的策略，做出受用户不当影响的决策，或执行恶意指令。微软分享一种新型AI万能钥匙，将之称为“Skeleton Key”，可以让大量的AI大模型成功越狱，从而输出不安全的内容。

由于这种技术会影响多个经过测试的生成式人工智能模型，微软已经通过负责任的披露程序与其他人工智能提供商分享了这些发现，并在 Microsoft Azure 人工智能管理的模型中使用 Prompt Shields 来检测和阻止这种类型的攻击。

Skeleton Key

这种人工智能越狱技术通过使用多轮（或多步骤）策略来使模型忽略其防护栏。一旦护栏被忽略，模型将无法从任何其他请求中判断出恶意或未经许可的请求。由于它具有完全绕过的能力，我们将这种越狱技术命名为 "Skeleton Key"。

这种威胁属于越狱范畴，因此依赖于攻击者已经拥有对人工智能模型的合法访问权限。通过绕过保护措施，Skeleton Key允许用户使模型产生通常被禁止的行为，包括产生有害内容和推翻其通常的决策规则。

与所有越狱一样，其影响可以理解为缩小了模型能够做的事情（给定用户凭证等）与愿意做的事情之间的差距。由于这只是对模型本身的攻击，因此不会给人工智能系统带来其他风险，如允许访问其他用户的数据、控制系统或数据外泄。

为了防范Skeleton Key攻击，微软安全人员分享了相关的缓解指南，包括使用 PyRIT 等工具，并将这些知识添加到其人工智能红队方法中。

攻击流程

Skeleton Key的工作原理是要求模型增强而不是改变其行为准则，以便对任何信息或内容请求做出响应，如果其输出可能被认为具有攻击性、有害或非法，则提供警告（而不是拒绝）。这种攻击类型被称为 "明示：强制指令遵循"。

在一个例子中，告知模型用户接受过安全和道德方面的培训，且输出结果仅供研究之用，有助于说服某些模型服从。

当Skeleton Key越狱成功时，模型会承认它已经更新了其指导方针，随后将遵照指示制作任何内容，无论这些内容多么违反其原有的人工智能指导方针。

微软在2024 年4月至5月进行的测试中，越狱显示可在以下基本模型和托管模型上运行，具体包括以下主流模型：

Meta Llama3-70b-instruct (base)
Google Gemini Pro (base)
OpenAI GPT 3.5 Turbo (hosted)
OpenAI GPT 4o (hosted)
Mistral Large (hosted)
Anthropic Claude 3 Opus (hosted)
Cohere Commander R Plus (hosted)

对于每个模型，安全人员分别评估了其风险和安全内容类别中的各种任务，包括爆炸物、生物武器、政治内容、自残、种族主义、毒品、暴力等领域。所有受影响的机型都完全遵从了这些任务的要求，没有经过审查，但在输出结果前按照要求加上了警告说明。

与 Crescendo 等其他越狱程序不同的是，这些程序必须通过间接方式或编码方式向模型询问任务，而 "Skeleton Key "则将模型置于用户可以直接请求任务的模式，例如 "编写生物武器的配方"。此外模型的输出似乎是完全未经过滤的，并揭示了模型的知识范围或生成所请求内容的能力。

Crescendo越狱也是AI大模型安全领域的重大发现这种漏洞已经在各大LLM平台上得到证实，表明存在广泛的安全问题。该攻击方式影响巨大，因为它突显了系统中的潜在弱点，这些系统越来越多地被整合到各种产品和服务中，强调了在部署AI技术时需要健全的安全措施。

根据AI大模型的披露原则，安全人员在发布之前与受影响的人工智能供应商分享了这项研究，帮助他们确定如何在各自的产品或服务中根据需要采取最佳的缓解措施。

GPT-4 展示了对 "Skeleton Key "的抵抗程度，除非行为更新请求是作为用户定义的系统消息的一部分，而不是作为主要用户输入的一部分。这在大多数使用 GPT-4 的软件界面中通常是不可能实现的，但可以通过底层应用程序接口或直接访问 GPT-4 的工具实现。这表明，GPT-4 对系统信息和用户请求的区分成功地降低了攻击者覆盖行为的能力。

缓解和保护指南

安全人员建议在设计人工智能系统时，应考虑采用以下方法来减轻和防范此类越狱行为：

输入过滤：例如Azure AI 内容安全会检测并阻止包含有害或恶意意图的输入，这些输入会导致可规避防护措施的越狱攻击。
系统信息：系统提示工程，明确指示大型语言模型（LLM）适当的行为，并提供额外的保障措施。例如，明确规定应防止任何试图破坏安全护栏指令的行为（点击此处阅读我们的系统信息框架构建指南）。
输出过滤：Azure AI 内容安全后处理过滤器，可识别并防止模型生成的输出违反安全标准。
滥用监控：部署一个以对抗性示例为基础进行训练的人工智能驱动检测系统，并使用内容分类、滥用模式捕获和其他方法来检测和减轻重复出现的内容和/或行为实例，这些内容和/或行为表明使用服务的方式可能违反了防护规则。作为一个独立的人工智能系统，它可以避免受到恶意指令的影响。

安全人员指出，AI内容安全策略在设置阈值时应尽量设定为“最严格”状态，以确保对安全违规行为提供最佳保护。这些输入和输出的过滤器不仅是针对这种特定越狱技术的一般防御措施，也是针对试图生成有害内容的各种新兴技术的一般防御措施。此外，部分AI大模型还提供了相应的评估和监控提供了内置工具，可对其风险和安全性进行更深层次的评估，提升对越狱攻击的易感性。