OpenAI выпустила самую сильную модель инференса o3 и o4-mini: может думать о картинках, автоматически выбирать инструменты и совершать прорывы в математике и производительности кодирования

2025-04-17 04:49:33

Сегодня OpenAI официально объявила о моделях инференса o3 и o4-mini, впервые реализующих инференс изображений и интеграцию с несколькими инструментами, и сообщество с оптимизмом смотрит на ее потенциал для продвижения «агентов ИИ». (Синопсис: OpenAI тайно строит свою собственную социальную платформу, указывая на X Маска) (Справочное дополнение: GPT-5 отложен!) OpenAI впервые продвигает o3, o4-mini, Сэм Альтман рассказал: интеграция сложнее, чем ожидалось) Гигант искусственного интеллекта OpenAI официально выпустил две модели инференса нового поколения - o3 и o4-mini ранним утром (17), подчеркнув свой «логический вывод изображений» и возможность автономно использовать все инструменты ChatGPT, запуская глобальный ИИ Сообщество разработчиков гудит, символизируя еще один ключевой шаг на пути к «суррогатному ИИ» для компании. Математика, кодирование и другие прорывы в производительности o3 позиционируется как самая сильная модель логического вывода OpenAI на сегодняшний день, предназначенная для сложных математических, научных, программных и графических логических задач, и достигает самой современной производительности в SWE-bench Verified (бенчмарк программной инженерии) с оценкой 69,1%, опережая Claude 3.7 Sonnet с 62,3%. O4-mini сохраняет высокую способность к рассуждению, принимая во внимание стоимость и скорость, что делает его легким выбором для разработчиков. Согласно тестовым данным OpenAI, производительность o4-mini в AIME (American Mathematics Competition) 2024 и 2025 составляет 93,4% и 92,7% соответственно, превзойдя полную версию o3 и став актуальной моделью с высочайшей точностью; Наберите 2700 очков в соревнованиях Codeforces и войдите в число 200 лучших инженеров мира. O3 и O4-mini продолжают метод обучения, ориентированный на логический вывод, на который делается акцент в серии O, специально разработанной как модельная архитектура «подумайте дольше, прежде чем ответить», чтобы ИИ мог не только быстро реагировать, но и решать сложные и многоступенчатые задачи. Этот дизайн также показывает, что OpenAI продолжает работать в техническом контексте «больше времени вывода = более высокая производительность» и проверяет эту гипотезу в процессе обучения с подкреплением. Инференс изображений впервые: ИИ может «понимать диаграммы, эскизы и PDF-файлы» Самое поразительное обновление заключается в том, что обе модели впервые имеют возможности вывода изображений. O3 и O4-mini могут понимать и анализировать изображения даже в низком качестве, такие как рукописные доски, размытые PDF-файлы, эскизы и статистические диаграммы, а также включать в себя многоступенчатые процессы рассуждения. Это означает, что ИИ может не только считывать текстовые инструкции и реагировать на них, но и «думать» логику и ассоциации, стоящие за изображением, двигаясь к настоящей мультимодальной агентной системе. В дополнение к улучшенному визуальному восприятию, модели также могут работать с изображениями, например, поворачивать, масштабировать или деформировать, делая изображения частью цепочки вывода и открывая новые решения кросс-модальных задач. Интеграция с несколькими инструментами: от «чата» к «решению задач» Обе модели могут автономно вызывать инструменты, предоставляемые ChatGPT, включая поиск, выполнение программ, DALL· E Генерация и анализ изображений для реализации интегрированного процесса от получения инструкций, сбора информации до визуального мышления. В отличие от предыдущего пассивного выполнения логики использования инструмента, O3 и O4-mini имеют возможности автономного принятия решений и могут автоматически выбирать, включать ли такие инструменты, как поиск, выполнение программы или генерация изображений, в зависимости от характера проблемы, демонстрируя рабочий процесс, близкий к рабочему процессу экспертов-людей. Такой гибкий способ применения политик также позволяет модели динамически корректировать порядок обработки и контент на основе входных данных, что является важной вехой на пути к «суррогатному ИИ». OpenAI также запустила инструмент с открытым исходным кодом Codex CLI, позволяющий разработчикам интегрировать ИИ в локальный терминал для помощи в написании и отладке кода. Интерфейс командной строки Codex теперь имеет открытый исходный код, и открыта программа грантов на разработку стоимостью в миллион долларов. Цены и доступность: o4-mini имеет преимущество «высокого CP» Цена API модели o3 составляет $10 за миллион входных токенов и $40 выходных токенов; Для сравнения, O4-MINI стоит всего $1.10 и $4.40, что немного уступает по производительности, но имеет подавляющее преимущество в цене. Пользователи ChatGPT Plus ($20/месяц), Pro ($200/месяц) и Team доступны уже сейчас, а предприятия и образовательные учреждения будут доступны через неделю. OpenAI наглядно демонстрирует направление эволюции «инференсного ИИ» через o3 и o4-mini, не только улучшая языковые возможности, но и впервые интегрируя понимание изображений и работу с инструментами. Эти две модели являются не просто единой точкой обновления, но и важным переходом от ChatGPT к прокси-ИИ. Будущий запуск o3-pro (который будет доступен пользователям Pro в ближайшие недели) и GPT-5, если этот раунд технологических прорывов удастся интегрировать, даст возможность определить следующее поколение стандартов продуктов ИИ. Материалы по теме OpenAI усиливает GPT-4o и устремляется на второе место в рейтинге! Сэм Альтман: Лучшее понимание людей и написание программ, повышение креативности OpenAI объявляет: Open Agents SDK поддерживает MCP, соединяя все последовательно, чтобы сделать еще один ключевой шаг OpenAI запускает самую сильную графовую модель: точная информационная графика, мультимодальный ввод, реалистичный и трудно различимый, встроенный в GPT-4o 〈OpenAI выпускает o3 и o4-mini Самые сильные модели логического вывода: может думать о картинках, автоматически выбирать инструменты, математика, Эта статья была впервые опубликована в BlockTempo "Dynamic Trend - The Most Influence Blockchain News Media".

O3-3.04%

GPT-4.79%

Посмотреть Оригинал

Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
#BTC#
220965 посты
#PI#
185180 посты
#ETH#
139841 посты
4#GateioInto11#
78385 посты
5#ContentStar#
65340 посты
6#GT#
61282 посты
7#BOME#
59844 посты
8#DOGE#
56116 посты
9#MAGA#
51739 посты
10#SLERF#
50346 посты

Закрепить

Карта сайта