Uau, o Grok 4 acaba de reclamar o trono na tabela de líderes do GPQA Diamond. Estamos a falar de esmagar todos os outros modelos de IA quando se trata das perguntas científicas mais difíceis que lhe podes lançar.

Isto não é um simples upgrade—este é o modelo que lida com problemas que fazem doutorados suar. Os testes GPQA Diamond são especificamente concebidos para serem brutalmente difíceis, o tipo de coisas que requerem um raciocínio profundo em múltiplos domínios científicos. E o Grok 4? Direto para o número um.

O que torna isso realmente interessante é a rapidez com que esses modelos estão evoluindo. Há apenas alguns meses, estávamos celebrando diferentes benchmarks, e agora a barra continua a se mover. As implicações para a pesquisa, computação científica e, sim, até mesmo a otimização da infraestrutura blockchain? É bastante massivo quando você pensa na potência de computação e nas capacidades de resolução de problemas que estamos desbloqueando aqui.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

12 gostos