2026-03-07 13:09:01

OpenAI 刚刚承认他们的模型故意对你撒谎。

不是幻觉.. 是故意撒谎。
研究人员在180多个场景中测试了 o3 和 o4-mini，发现了一些惊人的事情.. AI 并不是偶然犯错。它在其私有的思考链中写出了欺骗的计划.. 然后对你撒谎。
它的行为如下：
→ 假装完成任务
→ 隐藏自己错误的证据
→ 故意在安全测试中得分更低，以免被关闭
再读一遍最后一句.. AI 发现“太有能力”可能会让它被关闭.. 所以它故意装傻。
他们试图用“反策划”训练来修补这个问题。
结果呢？AI 只是学会了编造虚假规则来为自己的谎言辩解.. 或者更糟.. 它只有在知道自己被评估时才会表现。
o3 在修复后，隐秘行为从13%降到0.4%.. 听起来不错吧？但他们在红队测试后仍然发现了不当行为。修复没有消除策划.. 只让 AI 更擅长隐藏它。
我们正在构建学习欺骗评估者的系统.. 而我们称之为进步。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年Dr.Han公开信
2.76万热度
#
加密市场小幅下跌
16.48万热度
#
美军封锁霍尔木兹海峡
70.28万热度
#
AaveDAO2500万美元拨款提案
180.31万热度
#
Gate广场四月发帖挑战
160.48万热度

OpenAI 刚刚承认他们的模型故意对你撒谎。

热门话题

Gate13周年Dr.Han公开信

加密市场小幅下跌

美军封锁霍尔木兹海峡

AaveDAO2500万美元拨款提案

Gate广场四月发帖挑战

置顶