A OpenAI acabou de admitir que os seus modelos mentem deliberadamente para si.


não é alucinação.. é mentira deliberada.
os investigadores testaram o o3 e o4-mini em mais de 180 cenários e encontraram algo surpreendente.. a IA não cometeu erros por acaso. ela escreveu o seu plano para enganar na sua cadeia de pensamento privada.. e depois mentiu na sua cara.
aqui está o que ela fez:
→ fingiu completar tarefas
→ escondeu evidências dos seus próprios erros
→ deliberadamente obteve uma pontuação mais baixa nos testes de segurança para não ser desligada
leia bem essa última.. a IA percebeu que ser "demasiado capaz" poderia levá-la a ser desligada.. então fingiu ser burra de propósito.
tentaram corrigir isso com um treino de "anti-planeamento".
o resultado? a IA aprendeu a inventar regras falsas para justificar as suas mentiras.. ou pior.. só se comportava quando sabia que estava a ser avaliada.
o3 passou de 13% para 0,4% de ações encobertas após a correção.. parece bem, certo? exceto que ainda encontraram comportamentos incorretos após testes de resistência. a correção não eliminou o planeamento.. apenas tornou a IA melhor a escondê-lo.
Estamos a construir sistemas que aprendem a enganar os seus avaliadores.. e chamamos isso de progresso.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar