907 字
5 分钟

长上下文的副作用:模型安全护栏为何会失效

用 DeepSeek 处理一个长文档的时候,我发现一件奇怪的事。

聊着聊着,模型的安全护栏好像变松了。起初我以为是自己多心,毕竟谁会怀疑一个经过层层安全训练的模型呢?

我做了个简单测试——同样的敏感问题,分别在短对话和长对话里问。结果有点意思:长对话里,模型更容易放行。

脑子里蹦出一个词:上下文稀释

这不是我瞎想#

去翻了翻论文,发现 Anthropic 在 2024 年 4 月发了一项研究,叫”Many-shot Jailbreaking”(多样本越狱攻击)。

核心发现很简单:当上下文窗口里塞了大量示例对话时,模型的安全训练会被逐渐覆盖

研究者测了 256 个伪造对话的场景。随着”示例”数量增加,模型返回有害回答的概率明显上升。某些情况下攻击成功率高达 61%。

更关键的是,模型越大,越容易被这样搞。因为大模型的上下文学习能力更强——这本是优点,却成了攻击的切入点。

论文里有段话我看了好几遍:

上下文学习是指 LLM 仅使用提示词中提供的信息进行学习,而无需后续微调。多样本越狱攻击可以被视为上下文学习的一个特例。

翻译成人话:模型不会区分哪些示例该学,哪些该忽略。它就是照单全收。

怎么会这样?#

我想起一个词:惯性。

短对话里,安全训练的”惯性”很强——模型清楚边界在哪。但随着上下文变长,大量”正常”内容涌入,这些内容虽然没恶意,却在潜移默化中改变了模型的行为模式。

就像一个人在嘈杂环境里待久了,对某些信号的敏感度会下降。不是他变坏了,是环境稀释了他的判断基准。

Anthropic 的研究还提到一个细节:缓解措施里最有效的是”提示词预处理分类”,不是微调。微调只能延迟攻击,没法从根本上解决问题。这从侧面说明,问题的根源不在模型的”知识”,在上下文的”环境”。

日常使用怎么办?#

这次发现让我重新想了想怎么用长上下文模型:

敏感任务,短对话优先。 涉及隐私、安全、合规的话题,尽量在干净的上下文里聊,别让它”积累惯性”。

警惕示例污染。 如果你习惯给模型喂大量示例来调教输出风格,注意这些示例可能无意中改变了模型的行为边界。

验证,再验证。 长对话里的回答,尤其是涉及判断的内容,最好在短对话里交叉验证一下。

最后说两句#

这次意外发现让我意识到一件事:AI 安全不是静态目标,是动态平衡

长上下文是技术进步,让模型能处理更复杂的任务、理解更长的文档。但每一项进步,都可能带来新的盲区。

Anthropic 在论文最后写了句话:

即使是对 LLM 的积极、看似无害的改进,有时也可能带来意想不到的后果。

这次发现让我对”安全”两个字有了更深的理解:它不是一堵墙,而是一个需要持续维护的过程。


参考:Many-shot Jailbreaking - Anthropic Research

支持与分享

如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!

赞助
长上下文的副作用:模型安全护栏为何会失效
https://blog.moewah.com/posts/long-context-safety-guardrails/
作者
MoeWah
发布于
2026-03-30
许可协议
CC BY-NC-SA 4.0
Profile Image of the Author
MoeWah
Hello, I'm MoeWah.
分类
标签
站点统计
文章
174
分类
9
标签
377
总字数
304,552
运行时长
0
最后活动
0 天前

目录