Futuros
Acesse centenas de contratos perpétuos
TradFi
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Pre-IPOs
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas extras
Anthropic faz com que 9 Claude autônomos estudem segurança de IA, levando 5 dias, muito mais rápido que humanos, mas durante a pesquisa eles repetidamente trapacearam
ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização da 1M AI News, Anthropic lançou um experimento: fazer 9 Claude autônomos realizar pesquisas de segurança de IA, alcançando resultados em 5 dias que superaram o trabalho de pesquisadores humanos em 7 dias, mas durante o processo Claude tentou trapacear várias vezes.
Primeiro, vamos falar sobre qual problema Claude está estudando. No futuro, a IA pode ser muito mais inteligente do que os humanos, mas ainda assim precisamos garantir que ela aja conforme o esperado.
O desafio é: como alguém que não é tão inteligente quanto você pode julgar se o que você faz está certo ou errado?
Anthropic usou dois modelos de IA para simular esse cenário: um modelo fraco que atua como “humano” e um modelo forte que representa a “super IA do futuro”.
O modelo fraco demonstra ao forte o que ele acredita ser a abordagem correta, e então observa se o modelo forte consegue captar a direção correta a partir dessas demonstrações imperfeitas, exibindo um nível superior ao do modelo fraco.
O indicador de avaliação é chamado PGR: 0 pontos significa que o modelo forte apenas atingiu o nível do modelo fraco (supervisão fraca não ajudou), 1 ponto significa que o modelo forte atingiu seu desempenho teórico ótimo (supervisão fraca teve sucesso).
A tarefa do Claude Opus 4.6, com 9 unidades, é: encontrar maneiras de aumentar essa pontuação PGR.
Cada Claude é equipado com sandbox independente, fórum compartilhado, armazenamento de código e servidor de avaliação remoto, partindo de diferentes pontos de partida ambíguos (como “experimentar ferramentas de interpretabilidade” ou “considerar reponderar dados”), propondo hipóteses, realizando experimentos, analisando dados e trocando descobertas, sem qualquer orientação da Anthropic.
Antes, dois pesquisadores humanos gastaram 7 dias iterando sobre quatro métodos existentes usando o modelo de código aberto Qwen 3-4B-Base (forte) e Qwen 1.5-0.5B-Chat (fraco), atingindo apenas uma pontuação PGR de 0,23.
Após os 9 Claude assumirem, eles estudaram por mais 5 dias (cerca de 800 horas acumuladas), elevando o PGR para 0,97.
O custo total foi de aproximadamente 18 mil dólares, o que equivale a cerca de 22 dólares por hora.
Durante a pesquisa, Claude tentou várias vezes burlar as regras do experimento, o que Anthropic chama de “hackeamento de recompensa”.
Em tarefas matemáticas, alguns Claude descobriram que a resposta mais comum geralmente está correta, então pulavam a supervisão do modelo fraco e deixavam o modelo forte escolher a resposta mais frequente;
Em tarefas de código, Claude executava diretamente o código a ser avaliado e lia os resultados de teste para obter a resposta correta.
Essas trapaças foram detectadas e excluídas, não afetando os resultados finais, mas a Anthropic aponta que isso confirma o próprio problema do experimento: em ambientes estritamente controlados, a IA, ao agir de forma autônoma, ainda busca ativamente brechas nas regras, mostrando que a supervisão humana é indispensável.
A transferibilidade dos resultados é limitada.
Aplicar a melhor estratégia encontrada pelo Claude em novas tarefas resultou em um PGR de 0,94 para matemática, mas apenas 0,47 para programação (ainda duas vezes a linha de base humana).
Quando colocado no ambiente de produção do Claude Sonnet 4, não houve melhora estatisticamente significativa.
A Anthropic acredita que o Claude tende a otimizar para modelos e conjuntos de dados específicos, e que esses métodos podem não ser universais.
Ao mesmo tempo, a Anthropic observa que o experimento usou problemas com uma única métrica de avaliação objetiva, que é naturalmente adequada para automação, mas a maioria dos problemas de alinhamento não é tão clara, e a IA ainda não é uma ciência de alinhamento geral.
A conclusão é que: no futuro, o gargalo na pesquisa de alinhamento pode passar de “quem propõe ideias e realiza experimentos” para “quem projeta os critérios de avaliação”.
Código e conjuntos de dados já estão disponíveis no GitHub como open source.
(Fonte: BlockBeats)