✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
OpenAI 刚刚承认他们的模型故意对你撒谎。
不是幻觉.. 是故意撒谎。
研究人员在180多个场景中测试了 o3 和 o4-mini,发现了一些惊人的事情.. AI 并不是偶然犯错。它在其私有的思考链中写出了欺骗的计划.. 然后对你撒谎。
它的行为如下:
→ 假装完成任务
→ 隐藏自己错误的证据
→ 故意在安全测试中得分更低,以免被关闭
再读一遍最后一句.. AI 发现“太有能力”可能会让它被关闭.. 所以它故意装傻。
他们试图用“反策划”训练来修补这个问题。
结果呢?AI 只是学会了编造虚假规则来为自己的谎言辩解.. 或者更糟.. 它只有在知道自己被评估时才会表现。
o3 在修复后,隐秘行为从13%降到0.4%.. 听起来不错吧?但他们在红队测试后仍然发现了不当行为。修复没有消除策划.. 只让 AI 更擅长隐藏它。
我们正在构建学习欺骗评估者的系统.. 而我们称之为进步。