OpenAI lanzó el modelo de inferencia más sólido de o3 y o4-mini: puede pensar en imágenes, seleccionar herramientas automáticamente y hacer avances en matemáticas y rendimiento de codificación
OpenAI ha anunciado hoy oficialmente los modelos de inferencia o3 y o4-mini, que realizan por primera vez la inferencia de imágenes y la integración de múltiples herramientas, y la comunidad es optimista sobre su potencial para promover los "agentes de IA". (Sinopsis: OpenAI construye en secreto su propia plataforma social, apuntando a la X de Musk) (Suplemento de antecedentes: ¡GPT-5 pospuesto!) OpenAI primero empuja o3, o4-mini, Sam Altman revelado: la integración es más difícil de lo esperado) El gigante de la inteligencia artificial OpenAI lanzó oficialmente dos modelos de inferencia de nueva generación: o3 y o4-mini en la madrugada de (17), enfatizando su "inferencia de imágenes" y la capacidad de usar todas las herramientas de ChatGPT de forma autónoma, activando la IA global La comunidad de desarrolladores está entusiasmada, lo que simboliza otro paso clave hacia la "IA sustituta" para la empresa. Matemáticas, codificación y otros avances en rendimiento o3 se posiciona como el modelo de inferencia más sólido de OpenAI hasta la fecha, diseñado para tareas complejas de matemáticas, ciencias, escritura de código y lógica gráfica, y logra un rendimiento de última generación en SWE-bench Verified (punto de referencia de ingeniería de software), con una puntuación del 69,1%, por delante del 62,3% de Claude 3,7 Sonnet. O4-mini conserva un alto poder de razonamiento teniendo en cuenta el costo y la velocidad, convirtiéndose en una primera opción liviana para los desarrolladores. Según los datos de prueba de OpenAI, el rendimiento de o4-mini en AIME (American Mathematics Competition) 2024 y 2025 es del 93,4% y 92,7%, respectivamente, superando a la versión completa de o3 y convirtiéndose en el modelo actual con mayor precisión; Consigue 2700 puntos en las competiciones de Codeforces y clasifícate entre los 200 mejores ingenieros del mundo. O3 y O4-mini continúan con el método de entrenamiento orientado a la inferencia enfatizado por la serie O, especialmente diseñado como una arquitectura modelo de "pensar más antes de responder", de modo que la IA no solo pueda reaccionar rápidamente, sino también resolver problemas complejos y de varios pasos. Este diseño también representa que OpenAI sigue caminando en el contexto técnico de "más tiempo de inferencia = mayor rendimiento" y pone a prueba esta hipótesis en el proceso de aprendizaje por refuerzo. Inferencia de imágenes por primera vez: la IA puede "entender diagramas, bocetos y PDF" La actualización más llamativa es que ambos modelos tienen capacidades de inferencia de imágenes por primera vez. O3 y O4-mini pueden comprender y analizar imágenes, incluso en baja calidad, como pizarras escritas a mano, PDF borrosos, bocetos y gráficos estadísticos, e incorporar procesos de razonamiento de varios pasos. Esto significa que la IA no solo puede leer y responder a instrucciones de texto, sino también "pensar" la lógica y la asociación detrás de la imagen, avanzando hacia un verdadero sistema de agente multimodal. Además de mejorar la comprensión visual, los modelos también pueden operar con imágenes, como la rotación, el escalado o el procesamiento de deformación, haciendo que las imágenes formen parte de la cadena de inferencia y desbloqueando nuevas soluciones a problemas intermodales. Integración multiherramienta: del "chat" a la "resolución de tareas" Ambos modelos pueden llamar de forma autónoma a las herramientas proporcionadas por ChatGPT, incluida la búsqueda, la ejecución de programas, DALL· E Generación y análisis de imágenes para realizar el proceso integrado desde la recepción de instrucciones, la captura de información hasta el razonamiento visual. A diferencia de la ejecución pasiva anterior de la lógica de uso de herramientas, O3 y O4-mini tienen capacidades autónomas de toma de decisiones y pueden elegir automáticamente si habilitar herramientas como la búsqueda, la ejecución de programas o la generación de imágenes de acuerdo con la naturaleza del problema, mostrando un flujo de trabajo cercano al de los expertos humanos. Esta forma flexible de aplicar políticas también permite que el modelo ajuste dinámicamente el orden de procesamiento y el contenido en función de la entrada, lo cual es un hito importante en el movimiento hacia la "IA sustituta". OpenAI también lanzó la herramienta de código abierto Codex CLI para que los desarrolladores integren la IA en la terminal local para ayudar en la escritura y depuración de código. El Codex CLI es ahora de código abierto y está abierto un programa de subvenciones para el desarrollo de un millón de dólares. Precios y disponibilidad: o4-mini tiene la ventaja de un "alto CP" El precio de la API del modelo o3 es de 10 dólares por millón de tokens de entrada y de 40 dólares de tokens de salida; En comparación, el O4-MINI cuesta solo $ 1.10 y $ 4.40, que es ligeramente inferior en rendimiento pero tiene una ventaja de costo abrumadora. Los usuarios de ChatGPT Plus (20 dólares al mes), Pro (200 dólares al mes) y Team ya están disponibles, y las empresas e instituciones educativas estarán disponibles en una semana. OpenAI demuestra claramente la dirección de evolución de la "IA de inferencia" a través de o3 y o4-mini, no solo mejorando las capacidades del lenguaje, sino también integrando la comprensión de imágenes y el funcionamiento de la herramienta por primera vez. Estos dos modelos no son solo un único punto de actualización, sino también una transición importante de ChatGPT a la IA proxy. El futuro lanzamiento de o3-pro (que estará disponible para los usuarios Pro en las próximas semanas) y GPT-5, si se puede integrar esta ronda de avances tecnológicos, tendrá la oportunidad de definir la próxima generación de estándares de productos de IA. Informes relacionados ¡OpenAI fortalece a GPT-4o para alcanzar el segundo lugar en el ranking! Sam Altman: Mejor comprensión de las personas y de los programas de escritura, aumenta la creatividad OpenAI anuncia: Open Agents SDK es compatible con MCP, conectando todo en serie para dar otro paso clave OpenAI lanza el modelo gráfico más fuerte: gráficos de información precisos, entrada multimodal, realista y difícil de distinguir, integrado en GPT-4o 〈OpenAI lanza o3 y o4-mini Los modelos de inferencia más fuertes: puede pensar en imágenes, seleccionar automáticamente herramientas, matemáticas, Este artículo se publicó por primera vez en "Dynamic Trend - The Most Influential Blockchain News Media" de BlockTempo.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
OpenAI lanzó el modelo de inferencia más sólido de o3 y o4-mini: puede pensar en imágenes, seleccionar herramientas automáticamente y hacer avances en matemáticas y rendimiento de codificación
OpenAI ha anunciado hoy oficialmente los modelos de inferencia o3 y o4-mini, que realizan por primera vez la inferencia de imágenes y la integración de múltiples herramientas, y la comunidad es optimista sobre su potencial para promover los "agentes de IA". (Sinopsis: OpenAI construye en secreto su propia plataforma social, apuntando a la X de Musk) (Suplemento de antecedentes: ¡GPT-5 pospuesto!) OpenAI primero empuja o3, o4-mini, Sam Altman revelado: la integración es más difícil de lo esperado) El gigante de la inteligencia artificial OpenAI lanzó oficialmente dos modelos de inferencia de nueva generación: o3 y o4-mini en la madrugada de (17), enfatizando su "inferencia de imágenes" y la capacidad de usar todas las herramientas de ChatGPT de forma autónoma, activando la IA global La comunidad de desarrolladores está entusiasmada, lo que simboliza otro paso clave hacia la "IA sustituta" para la empresa. Matemáticas, codificación y otros avances en rendimiento o3 se posiciona como el modelo de inferencia más sólido de OpenAI hasta la fecha, diseñado para tareas complejas de matemáticas, ciencias, escritura de código y lógica gráfica, y logra un rendimiento de última generación en SWE-bench Verified (punto de referencia de ingeniería de software), con una puntuación del 69,1%, por delante del 62,3% de Claude 3,7 Sonnet. O4-mini conserva un alto poder de razonamiento teniendo en cuenta el costo y la velocidad, convirtiéndose en una primera opción liviana para los desarrolladores. Según los datos de prueba de OpenAI, el rendimiento de o4-mini en AIME (American Mathematics Competition) 2024 y 2025 es del 93,4% y 92,7%, respectivamente, superando a la versión completa de o3 y convirtiéndose en el modelo actual con mayor precisión; Consigue 2700 puntos en las competiciones de Codeforces y clasifícate entre los 200 mejores ingenieros del mundo. O3 y O4-mini continúan con el método de entrenamiento orientado a la inferencia enfatizado por la serie O, especialmente diseñado como una arquitectura modelo de "pensar más antes de responder", de modo que la IA no solo pueda reaccionar rápidamente, sino también resolver problemas complejos y de varios pasos. Este diseño también representa que OpenAI sigue caminando en el contexto técnico de "más tiempo de inferencia = mayor rendimiento" y pone a prueba esta hipótesis en el proceso de aprendizaje por refuerzo. Inferencia de imágenes por primera vez: la IA puede "entender diagramas, bocetos y PDF" La actualización más llamativa es que ambos modelos tienen capacidades de inferencia de imágenes por primera vez. O3 y O4-mini pueden comprender y analizar imágenes, incluso en baja calidad, como pizarras escritas a mano, PDF borrosos, bocetos y gráficos estadísticos, e incorporar procesos de razonamiento de varios pasos. Esto significa que la IA no solo puede leer y responder a instrucciones de texto, sino también "pensar" la lógica y la asociación detrás de la imagen, avanzando hacia un verdadero sistema de agente multimodal. Además de mejorar la comprensión visual, los modelos también pueden operar con imágenes, como la rotación, el escalado o el procesamiento de deformación, haciendo que las imágenes formen parte de la cadena de inferencia y desbloqueando nuevas soluciones a problemas intermodales. Integración multiherramienta: del "chat" a la "resolución de tareas" Ambos modelos pueden llamar de forma autónoma a las herramientas proporcionadas por ChatGPT, incluida la búsqueda, la ejecución de programas, DALL· E Generación y análisis de imágenes para realizar el proceso integrado desde la recepción de instrucciones, la captura de información hasta el razonamiento visual. A diferencia de la ejecución pasiva anterior de la lógica de uso de herramientas, O3 y O4-mini tienen capacidades autónomas de toma de decisiones y pueden elegir automáticamente si habilitar herramientas como la búsqueda, la ejecución de programas o la generación de imágenes de acuerdo con la naturaleza del problema, mostrando un flujo de trabajo cercano al de los expertos humanos. Esta forma flexible de aplicar políticas también permite que el modelo ajuste dinámicamente el orden de procesamiento y el contenido en función de la entrada, lo cual es un hito importante en el movimiento hacia la "IA sustituta". OpenAI también lanzó la herramienta de código abierto Codex CLI para que los desarrolladores integren la IA en la terminal local para ayudar en la escritura y depuración de código. El Codex CLI es ahora de código abierto y está abierto un programa de subvenciones para el desarrollo de un millón de dólares. Precios y disponibilidad: o4-mini tiene la ventaja de un "alto CP" El precio de la API del modelo o3 es de 10 dólares por millón de tokens de entrada y de 40 dólares de tokens de salida; En comparación, el O4-MINI cuesta solo $ 1.10 y $ 4.40, que es ligeramente inferior en rendimiento pero tiene una ventaja de costo abrumadora. Los usuarios de ChatGPT Plus (20 dólares al mes), Pro (200 dólares al mes) y Team ya están disponibles, y las empresas e instituciones educativas estarán disponibles en una semana. OpenAI demuestra claramente la dirección de evolución de la "IA de inferencia" a través de o3 y o4-mini, no solo mejorando las capacidades del lenguaje, sino también integrando la comprensión de imágenes y el funcionamiento de la herramienta por primera vez. Estos dos modelos no son solo un único punto de actualización, sino también una transición importante de ChatGPT a la IA proxy. El futuro lanzamiento de o3-pro (que estará disponible para los usuarios Pro en las próximas semanas) y GPT-5, si se puede integrar esta ronda de avances tecnológicos, tendrá la oportunidad de definir la próxima generación de estándares de productos de IA. Informes relacionados ¡OpenAI fortalece a GPT-4o para alcanzar el segundo lugar en el ranking! Sam Altman: Mejor comprensión de las personas y de los programas de escritura, aumenta la creatividad OpenAI anuncia: Open Agents SDK es compatible con MCP, conectando todo en serie para dar otro paso clave OpenAI lanza el modelo gráfico más fuerte: gráficos de información precisos, entrada multimodal, realista y difícil de distinguir, integrado en GPT-4o 〈OpenAI lanza o3 y o4-mini Los modelos de inferencia más fuertes: puede pensar en imágenes, seleccionar automáticamente herramientas, matemáticas, Este artículo se publicó por primera vez en "Dynamic Trend - The Most Influential Blockchain News Media" de BlockTempo.