A OpenAI lançou o modelo de inferência mais forte do o3 e do o4-mini: pode pensar em imagens, selecionar ferramentas automaticamente e fazer avanços em matemática e desempenho de codificação

2025-04-17 04:49:33

A OpenAI anunciou hoje oficialmente os modelos de inferência o3 e o4-mini, realizando inferência de imagem e integração multi-ferramenta pela primeira vez, e a comunidade está otimista sobre seu potencial para promover "agentes de IA". (Sinopse: OpenAI secretamente constrói sua própria plataforma social, apontando para o X de Musk) (Suplemento de fundo: GPT-5 adiado!) OpenAI primeiro empurra o3, o4-mini, Sam Altman revelou: integração é mais difícil do que o esperado) A gigante da inteligência artificial OpenAI lançou oficialmente dois modelos de inferência de nova geração - o3 e o4-mini na madrugada de (17), enfatizando sua "inferência de imagem" e a capacidade de usar todas as ferramentas ChatGPT de forma autônoma, acionando IA global A comunidade de desenvolvedores está fervilhando, simbolizando outro passo fundamental para a "IA substituta" para a empresa. Matemática, codificação e outros avanços de desempenho O o3 está posicionado como o modelo de inferência mais forte da OpenAI até o momento, projetado para tarefas complexas de matemática, ciências, escrita de código e lógica gráfica, e alcança desempenho de última geração no SWE-bench Verified (benchmark de engenharia de software), com uma pontuação de 69,1%, à frente dos 62,3% de Claude 3,7 Sonnet. O O4-mini mantém um alto poder de raciocínio, levando em conta o custo e a velocidade, tornando-se uma primeira escolha leve para desenvolvedores. De acordo com os dados de teste da OpenAI, o desempenho do o4-mini na AIME (American Mathematics Competition) 2024 e 2025 é de 93,4% e 92,7%, respectivamente, superando a versão completa do o3 e tornando-se o modelo atual com a maior precisão; Marcar 2700 pontos em competições Codeforces e ficar entre os 200 melhores engenheiros do mundo. O3 e O4-mini continuam o método de treinamento orientado para inferência enfatizado pela série O, especialmente projetado como uma arquitetura modelo de "pensar mais antes de responder", para que a IA possa não apenas reagir rapidamente, mas também resolver problemas complexos e de várias etapas. Este desenho também representa que a OpenAI continua a caminhar no contexto técnico de "mais tempo de inferência = maior desempenho" e testa esta hipótese no processo de aprendizagem por reforço. Inferência de imagem pela primeira vez: IA pode "entender diagramas, esboços e PDFs" A atualização mais impressionante é que ambos os modelos têm recursos de inferência de imagem pela primeira vez. O o3 e o o4-mini podem compreender e analisar imagens, mesmo em baixa qualidade, como quadros brancos manuscritos, PDFs desfocados, esboços e gráficos estatísticos, e incorporar processos de raciocínio em várias etapas. Isso significa que a IA pode não apenas ler e responder a instruções de texto, mas também "pensar" a lógica e a associação por trás da imagem, movendo-se em direção a um verdadeiro sistema de agentes multimodais. Além de melhorar a compreensão visual, os modelos também podem operar em imagens, como rotação, dimensionamento ou processamento de deformação, tornando as imagens parte da cadeia de inferência e desbloqueando novas soluções para problemas intermodais. Integração multi-ferramenta: do "chat" à "resolução de tarefas" Ambos os modelos podem chamar autonomamente as ferramentas fornecidas pelo ChatGPT, incluindo pesquisa, execução de programas, DALL· Geração e análise de imagens para realizar o processo integrado desde a receção de instruções, captura de informação até ao raciocínio visual. Diferente da execução passiva anterior da lógica de uso de ferramentas, o O3 e o O4-mini têm capacidades de tomada de decisão autônomas, e podem escolher automaticamente se habilitam ferramentas como pesquisa, execução de programas ou geração de imagens de acordo com a natureza do problema, mostrando um fluxo de trabalho próximo ao de especialistas humanos. Esta forma flexível de aplicar políticas também permite que o modelo ajuste dinamicamente a ordem de processamento e o conteúdo com base na entrada, o que é um marco importante na mudança para a "IA substituta". A OpenAI também lançou a ferramenta de código aberto Codex CLI para desenvolvedores integrarem IA no terminal local para ajudar na escrita e depuração de código. O Codex CLI agora é de código aberto e um programa de subvenção de desenvolvimento de milhões de dólares está aberto. Preço e disponibilidade: o4-mini tem a vantagem de "alto CP" O preço da API do modelo o3 é de US$ 10 por milhão de tokens de entrada e US$ 40 de saída; Em comparação, o O4-MINI custa apenas US $ 1,10 e US $ 4,40, o que é ligeiramente inferior em desempenho, mas tem uma vantagem de custo esmagadora. Os usuários do ChatGPT Plus (US$ 20/mês), Pro (US$ 200/mês) e Team já estão disponíveis, e empresas e instituições educacionais estarão disponíveis em uma semana. A OpenAI demonstra claramente a direção de evolução da "IA de inferência" através do o3 e do o4-mini, não só melhorando as capacidades da linguagem, mas também integrando a compreensão da imagem e a operação da ferramenta pela primeira vez. Esses dois modelos não são apenas um único ponto de atualização, mas também uma transição importante do ChatGPT para a IA proxy. O futuro lançamento do o3-pro (que estará disponível para usuários Pro nas próximas semanas) e GPT-5, se esta rodada de avanços tecnológicos puder ser integrada, terá a oportunidade de definir a próxima geração de padrões de produtos de IA. Relatórios relacionados OpenAI fortalece GPT-4o para correr para o segundo lugar no ranking! Sam Altman: Melhor compreensão das pessoas e programas de escrita, a criatividade aumenta OpenAI anuncia: Open Agents SDK suporta MCP, conectando tudo em série para dar mais um passo importante OpenAI lança o modelo gráfico mais forte: gráficos de informação precisos, entrada multimodal, realista e difícil de distinguir, construído em GPT-4o 〈OpenAI lança o3 e o4-mini Os modelos de inferência mais fortes: pode pensar em imagens, selecionar automaticamente ferramentas, matemática, Este artigo foi publicado pela primeira vez no "Dynamic Trend - The Most Influential Blockchain News Media" da BlockTempo.

O3-3.04%

GPT-4.79%

Ver original

O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#BTC#
221k publicações
#PI#
186k publicações
#ETH#
140k publicações
4#GateioInto11#
79k publicações
5#ContentStar#
66k publicações
6#GT#
62k publicações
7#BOME#
60k publicações
8#DOGE#
57k publicações
9#MAGA#
52k publicações
10#SLERF#
51k publicações

Pino