长上下文的副作用：模型安全护栏为何会失效

用 DeepSeek 处理一个长文档的时候，我发现一件奇怪的事。

聊着聊着，模型的安全护栏好像变松了。起初我以为是自己多心，毕竟谁会怀疑一个经过层层安全训练的模型呢？

我做了个简单测试——同样的敏感问题，分别在短对话和长对话里问。结果有点意思：长对话里，模型更容易放行。

脑子里蹦出一个词：上下文稀释。

这不是我瞎想#

去翻了翻论文，发现 Anthropic 在 2024 年 4 月发了一项研究，叫”Many-shot Jailbreaking”（多样本越狱攻击）。

核心发现很简单：当上下文窗口里塞了大量示例对话时，模型的安全训练会被逐渐覆盖。

研究者测了 256 个伪造对话的场景。随着”示例”数量增加，模型返回有害回答的概率明显上升。某些情况下攻击成功率高达 61%。

更关键的是，模型越大，越容易被这样搞。因为大模型的上下文学习能力更强——这本是优点，却成了攻击的切入点。

论文里有段话我看了好几遍：

上下文学习是指 LLM 仅使用提示词中提供的信息进行学习，而无需后续微调。多样本越狱攻击可以被视为上下文学习的一个特例。

翻译成人话：模型不会区分哪些示例该学，哪些该忽略。它就是照单全收。

我想起一个词：惯性。

短对话里，安全训练的”惯性”很强——模型清楚边界在哪。但随着上下文变长，大量”正常”内容涌入，这些内容虽然没恶意，却在潜移默化中改变了模型的行为模式。

就像一个人在嘈杂环境里待久了，对某些信号的敏感度会下降。不是他变坏了，是环境稀释了他的判断基准。

Anthropic 的研究还提到一个细节：缓解措施里最有效的是”提示词预处理分类”，不是微调。微调只能延迟攻击，没法从根本上解决问题。这从侧面说明，问题的根源不在模型的”知识”，在上下文的”环境”。

这次发现让我重新想了想怎么用长上下文模型：

敏感任务，短对话优先。 涉及隐私、安全、合规的话题，尽量在干净的上下文里聊，别让它”积累惯性”。

警惕示例污染。 如果你习惯给模型喂大量示例来调教输出风格，注意这些示例可能无意中改变了模型的行为边界。

验证，再验证。 长对话里的回答，尤其是涉及判断的内容，最好在短对话里交叉验证一下。

这次意外发现让我意识到一件事：AI 安全不是静态目标，是动态平衡。

长上下文是技术进步，让模型能处理更复杂的任务、理解更长的文档。但每一项进步，都可能带来新的盲区。

Anthropic 在论文最后写了句话：

即使是对 LLM 的积极、看似无害的改进，有时也可能带来意想不到的后果。

这次发现让我对”安全”两个字有了更深的理解：它不是一堵墙，而是一个需要持续维护的过程。