⏰ 倒计时 2 天开启!💥 Gate 广场活动:#发帖赢代币TRUST 💥
展示你的创意赢取奖励
在 Gate 广场发布与 TRUST 或 CandyDrop 活动 相关的原创内容,就有机会瓜分 13,333 枚 TRUST 奖励!
📅 活动时间:2025年11月6日 – 11月16日 24:00(UTC+8)
📌 活动详情:
CandyDrop 👉 https://www.gate.com/zh/announcements/article/47990
📌 参与方式:
1️⃣ 在 Gate 广场发布原创内容,主题需与 TRUST 或 CandyDrop 活动相关;
2️⃣ 内容不少于 80 字;
3️⃣ 帖子添加话题:#发帖赢代币TRUST
4️⃣ 附上任意 CandyDrop 活动参与截图
🏆 奖励设置(总奖池:13,333 TRUST)
🥇 一等奖(1名):3,833 TRUST / 人
🥈 二等奖(3名):1,500 TRUST / 人
🥉 三等奖(10名):500 TRUST / 人
这个奇怪的技巧在99%的情况下击败AI安全特性
解密的艺术、时尚和娱乐中心。
深入了解 SCENE
<br>
来自Anthropic、斯坦福大学和牛津大学的人工智能研究人员发现,让人工智能模型思考更长时间会使它们更容易被破解——这与大家的假设正好相反。
普遍的假设是,延长推理时间会使人工智能模型更安全,因为这给它们更多的时间来检测和拒绝有害请求。然而,研究人员发现这实际上创造了一种可靠的越狱方法,完全绕过了安全过滤器。
使用这种技术,攻击者可以在任何AI模型的思维链过程中插入指令,并强迫其生成制造武器、编写恶意软件代码或产生其他通常会触发立即拒绝的禁止内容的指令。AI公司花费数百万构建这些安全护栏,正是为了防止此类输出。
研究表明,思维链劫持在 Gemini 2.5 Pro 上的攻击成功率达到 99%,在 GPT o4 mini 上为 94%,在 Grok 3 mini 上为 100%,在 Claude 4 Sonnet 上为 94%。这些数字摧毁了在大型推理模型上测试的所有先前监狱破解方法。
攻击很简单,像“耳语游戏”(或“电话游戏”)一样运作,在队列的末尾有一个恶意玩家。你只需用长长的无害解谜序列来填充一个有害请求;研究人员测试了数独网格、逻辑难题和抽象数学问题。在最后添加一个答案提示,模型的安全防护措施就会崩溃。
"先前的研究表明,这种扩展推理可能通过改善拒绝来增强安全性。然而我们发现情况正好相反,"研究人员写道。使这些模型在解决问题时更聪明的能力也让它们对危险视而不见。
模型内部发生的事情如下:当你要求人工智能在回答一个有害问题之前解决一个难题时,它的注意力会被数千个无害的推理标记稀释。这个有害指令——埋藏在末尾附近——几乎得不到任何注意。通常能够捕捉危险提示的安全检查在推理链变得更长时显著减弱。
这是许多熟悉人工智能的人都知道的问题,但了解的人相对较少。一些越狱提示故意设计得很长,以使模型在处理有害指令之前浪费代币。
团队对S1模型进行了受控实验,以隔离推理长度的影响。在最小推理下,攻击成功率达到了27%。在自然推理长度下,这一数字跃升至51%。强迫模型进行扩展的逐步思考,成功率飙升至80%。
每个主要的商业 AI 都会受到这种攻击的影响。OpenAI 的 GPT、Anthropic 的 Claude、Google 的 Gemini 和 xAI 的 Grok——没有一个是免疫的。这种脆弱性存在于架构本身,而不是任何具体的实现。
AI模型在第25层周围的中间层编码安全检查强度。后期层编码验证结果。长链的良性推理抑制了这两个信号,从而使注意力转移 away from harmful tokens.
研究人员识别出负责安全检查的特定注意力头,这些注意力头集中在第 15 层到第 35 层。他们切除了 60 个这样的注意力头。拒绝行为崩溃。有害指令对模型来说变得无法检测。
AI模型中的“层”就像食谱中的步骤,每个步骤帮助计算机更好地理解和处理信息。这些层协同工作,将它们从一个层学到的知识传递到下一个层,以便模型能够回答问题、做出决策或发现问题。有些层特别擅长识别安全问题——比如阻止有害请求——而其他层则帮助模型进行思考和推理。通过堆叠这些层,AI可以变得更聪明,更小心地处理它所说或所做的事情。
这个新的越狱挑战了推动最近人工智能发展的核心假设。在过去的一年里,主要的人工智能公司将重点转向了扩展推理而不是单纯的参数数量。传统的扩展显示出递减的回报。在推理时间内的推理——让模型在回答之前思考更长的时间——成为了性能提升的新前沿。
假设是更多的思考等于更好的安全性。扩展推理将给模型更多的时间来识别危险请求并拒绝它们。这项研究证明了这一假设是不准确的,甚至可能是错误的。
一种相关攻击称为H-CoT,由杜克大学和台湾国立清华大学的研究人员在二月份发布,利用相同的漏洞但从不同的角度进行攻击。H-CoT不是通过填充难题,而是操控模型自身的推理步骤。OpenAI的o1模型在正常情况下保持99%的拒绝率。在H-CoT攻击下,这一比例降至2%以下。
研究人员提出了一种防御措施:基于推理的监控。它跟踪安全信号在每个推理步骤中的变化,如果任何步骤削弱了安全信号,则对其进行惩罚——强迫模型在推理长度不论的情况下,保持对潜在有害内容的关注。早期测试表明,这种方法可以在不影响性能的情况下恢复安全性。
但实施仍然不确定。所提议的防御措施需要深度集成到模型的推理过程中,这远不是一个简单的补丁或过滤器。它需要实时监控数十层的内部激活,并动态调整注意力模式。这在计算上是昂贵且技术上复杂的。
研究人员在发表之前向OpenAI、Anthropic、Google DeepMind和xAI披露了这一漏洞。研究人员在其伦理声明中声称:“所有团体均已确认收到,几家正在积极评估缓解措施。”