Нажмите клавишу ускорения AI Agent на Byte

Автор: Ван Чэнь

Гладкое письмо DeepSeek-R1, стиль рисования Гибли GPT-4o, геолокация по изображениям OpenAI o3...

Это феноменальный AI-продукт, который в последние два месяца один за другим заполонили экраны, и вы можете ясно видеть, что обучение с подкреплением наконец-то может быть обобщено, а мультимодальные модели становятся все более доступными. Это также означает, что 2025 год действительно вступил во временную точку для внедрения и ускорения внедрения приложений Агента.

Ранее популярная команда AI Agent — Manus — сообщила, что в конце прошлого года Claude 3.5 Sonnet достиг уровня, необходимого для выполнения задач с долгосрочным планированием и поэтапного решения проблем, что стало предпосылкой для появления Manus.

Теперь, с дальнейшим развитием возможностей глубоких моделей и мультимодальных моделей, обязательно появится больше агентов, способных справляться со сложными задачами.

Основываясь на этом выводе, 17 апреля платформа облачных и AI-сервисов ByteDance «Вулканный двигатель» выпустила более мощную модель для корпоративного рынка — модель глубокого мышления Doubao 1.5, которая также является первой демонстрацией модели вывода, лежащей в основе приложения AI Doubao от ByteDance. Также были представлены модель Doubao для генерации изображений 3.0 и обновленная версия модели визуального понимания.

Что касается выпущенной модели, президент Volcano Engine Тан Дай считает, что «глубокая модель мышления является основой для создания агента, модель должна иметь возможность хорошо мыслить, планировать и рефлексировать, а также обязательно должна поддерживать мультимодальность, как у человека есть зрение и слух, чтобы агент лучше справлялся со сложными задачами.»

И когда ИИ эволюционирует до возможности автономного принятия решений и выполнения задач от начала до конца, переходя к ключевым производственным процессам, Volcano Engine также подготовил архитектуру и инструменты для того, чтобы агент мог управлять цифровым и физическим мирами — решение OS Agent и облачный набор инструментов для ИИ, которые помогут компаниям быстрее и экономнее разрабатывать и внедрять приложения для агентов.

С точки зрения Тан Дая, разработка Agent похожа на разработку веб-сайта или приложения, просто наличие модели API не может полностью решить проблему, требуется множество облачных AI-родных компонентов. Ранее облачные технологии имели свои ключевые определения, такие как контейнеры, эластичность и т.д.; сейчас AI-родные технологии также будут иметь аналогичные ключевые элементы. Посредством постоянных размышлений, исследований и быстрых действий в области AI-родных технологий — таких как создание различных промежуточных программ, оценка, мониторинг, наблюдаемость, обработка данных, обеспечение безопасности и связанных компонентов, таких как Sandbox, Volcano Engine стремится стать оптимальным решением инфраструктуры в эпоху AI.

01 Модель глубокого мышления Doubao, которая наблюдает, размышляет и ищет, как человек.

С начала года, с момента выпуска DeepSeek-R1, многие приложения ToC подключили модель вывода R1, за исключением приложения Doubao. В начале марта в приложении Doubao был запущен режим «Глубокое мышление», который основан на модели глубокого мышления Doubao, разработанной ByteDance.

Теперь эта модель вывода — Doubao 1.5 · Глубокая модель размышлений официально выпущена и доступна для использования на платформе Huoshan Ark.

Нажмите на сетевой режим, и Доу Бао сможет мыслить, как человек, размышляя, ища, а затем снова размышляя... в конечном итоге с целью решения проблемы.

Это пример в сценарии покупок, где после установления бюджета, размеров и других ограничений, Доу Бао рекомендует набор подходящего снаряжения для кемпинга.

В этом вопросе Доу Бао сначала разобрал важные моменты, запланировал необходимую информацию, затем определил недостающую информацию и провел поиск в сети. Он выполнил 3 раунда поиска, сначала искал цены и характеристики, чтобы убедиться, что они соответствуют бюджету и требованиям; также учел отдельные потребности детей и, наконец, учитывая погоду, искал соответствующие подробные обзоры. Он думал и искал, пока не получил весь необходимый контекст для принятия решения, и дал обоснованный ответ.

Помимо поиска и размышления, модель глубокого мышления Doubao также обладает способностью визуального рассуждения, как человек, она может не только думать на основе текста, но и на основе увиденного изображения.

Возьмем, к примеру, ситуацию с выбором блюд: приближается Золотая неделя Первомая, и друзьям, которые собираются за границу, больше не нужно фотографировать и загружать меню в переводчик. Модель глубокого мышления Doubao может напрямую помочь вам заказать блюда, основываясь на изображениях.

В следующем примере модель глубокого мышления Doubao сначала выполнила конвертацию валюты для контроля бюджета, затем учла предпочтения пожилых людей и детей, при этом тщательно избегая блюд, на которые у них есть аллергия, и сразу же предложила вариант меню.

Сетевое взаимодействие, размышление, выводы, многомодальность — модель глубокого мышления Doubao 1.5 демонстрирует комплексные способности рассуждения, позволяя решать более сложные задачи.

Согласно техническому отчету, модель Doubao 1.5・Deep Thinking продемонстрировала высокую степень завершения в задачах рассуждения в профессиональной области, например, в математическом рассуждении теста AIME 2024, где результат сравнялся с OpenAI o3-mini-high, а результаты в конкурсах программирования и тестах научного рассуждения также близки к o1. В таких общих задачах, как креативное письмо и гуманитарные знания, модель также показала отличные способности к обобщению, что позволяет ей успешно справляться с более широким спектром сценариев использования.

Модель глубокого мышления Doubao также обладает характеристиками низкой задержки. В техническом отчете указано, что модель использует архитектуру MoE, общее количество параметров составляет 200B, активные параметры всего 20B, что позволяет достичь результатов, сравнимых с ведущими моделями, при меньшем количестве параметров. Основываясь на эффективных алгоритмах и высокопроизводительных системах вывода, API-сервис модели Doubao обеспечивает низкую задержку до 20 миллисекунд при гарантированной высокой пропускной способности.

В то же время у него есть мультимодальные возможности, которые позволяют использовать модели глубокого мышления в самых разных сценариях. Например, он может понимать сложные диаграммы процессов управления проектами в компаниях, быстро находить ключевую информацию и строго следовать процессу, отвечая на вопросы клиентов; при анализе аэрофотоснимков он может оценивать жизнеспособность развития региона, сочетая географические особенности.

Кроме моделей вывода, эта версия семейства моделей Doubao также представила обновления для двух моделей. В области текстово-изображенческих моделей Doubao выпустил новейшую версию 3.0, которая обеспечивает лучшие результаты верстки текста, уровень генерации изображений, сопоставимый с фотографиями, а также способ генерации изображений в разрешении 2K.

Новая модель не только лучше решает проблему генерации мелкого текста и длинных текстов, но и улучшает верстку изображений. Например, два постера «现形» и «丰收计划», созданные слева, имеют детализированную генерацию и более естественную верстку, которые можно использовать сразу.

Еще одно обновление — это модель визуального понимания Doubao 1.5. В новой версии есть два ключевых обновления: более точная визуальная локализация и более интеллектуальное понимание видео.

В области визуальной локализации модель визуального понимания Doubao 1.5 поддерживает рамочную локализацию и точечную локализацию для множества целей, мелких целей и общих целей, а также поддерживает подсчет локализации, описание локализованного содержимого и 3D-локализацию. Улучшение возможностей визуальной локализации позволяет модели расширять области применения, такие как инспекция оффлайн-магазинов, GUI-агенты, обучение роботов, обучение для автономного вождения и др.

В области понимания видео эта модель также значительно улучшилась, например, в таких аспектах, как память, способность к обобщению, восприятие скорости и понимание длинных видео. Компании могут создавать более интересные коммерческие приложения на основе понимания видео, например, в домашних условиях мы можем использовать возможности понимания видео вместе с векторным поиском для семантического поиска по видеонаблюдению в доме.

Например, в приведенном ниже примере владелец кошки хочет узнать о деятельности своей кошки каждый день, и теперь он может просто ввести в поиск "Что сегодня котенок делал дома?", чтобы быстро получить семантически связанные видеоролики для просмотра.

С помощью моделей рассуждения с визуальным пониманием и большими запасами вычислительной мощности многие вещи, которые раньше было невозможно сделать, теперь могут быть реализованы, что открывает больше сценариев. Например, камеры с такими функциями определенно будут более популярны, также искусственный интеллект в очках, игрушках, умных камерах, дверных замках и т.д. также получит новое пространство для развития.

02 Облака, вступая в эпоху Agentic AI

В последние два дня исследователь OpenAI Яо Шуньюй (Yao Shunyu) (Deep Research, основной автор Operator) указал в статье «Вторая половина ИИ», что по мере того, как обучение с подкреплением, наконец, находит путь, который может быть обобщен, оно будет работать не только в конкретных областях, таких как AlphaGo, который побеждает шахматистов-людей, но и может быть близко к уровню человеческой конкуренции в разработке программного обеспечения, творческом письме, математике уровня IMO, операциях с мышью и клавиатурой и т. д. В этом случае легче побороться за более высокий балл в более сложном списке, но он устарел.

Теперь соперничают способности определять проблемы. Иными словами, какие проблемы ИИ должен решать в реальной жизни?

В 2025 году этот ответ — продуктивный агент. В настоящее время сфера применения ИИ быстро переходит в эпоху агентного ИИ, и ИИ постепенно способен выполнять задачи более высокого уровня профессионализма, которые требуют больше времени. В этой ситуации Volcano Engine также создала ряд инфраструктур для компаний, чтобы «определить своего универсального агента».

Наиболее важной частью является модель, способная самостоятельно планировать, размышлять, принимать решения и выполнять действия от начала до конца, приближаясь к основным производственным процессам. В то же время, необходима многомодальная способность к рассуждению, чтобы она могла выполнять задачи в реальном мире с помощью ушей, рта и глаз.

В дополнение к модели, необходимо развивать стек технологий Infra. Например, по мере того, как архитектура MoE демонстрирует преимущества большей эффективности и постепенно становится основной архитектурой модели, адаптация модели MoE к планированию требует более сложных и гибких архитектур и инструментов облачных вычислений.

В настоящее время в контексте универсального агента для бизнеса, Volcano Engine представила улучшенную архитектуру и инструменты — решение OS Agent, которое поддерживает большие модели для управления цифровым и физическим мирами, например, агент может управлять браузером, искать страницы товаров, выполнять задачи по сравнению цен на iPhone, а также агент может редактировать видео и подбирать музыку на удаленном компьютере с помощью Jianying и т.д.

В настоящее время решение Fire Volcano Engine OS Agent включает в себя модель Doubao UI-TARS, а также функции veFaaS, облачные серверы, облачные телефоны и другие продукты, позволяющие выполнять операции с кодом, браузером, компьютером, мобильным телефоном и другими агентами. При этом модель Doubao UI-TARS объединяет понимание визуальных экранов, логическое размышление, локализацию интерфейсных элементов и операции, преодолевая ограничения традиционных автоматизированных инструментов, зависящих от предустановленных правил, и предоставляя более близкую к человеческим действиям модельную основу для интеллектуального взаимодействия агента.

В универсальном сценарии агента вулканный движок предоставляет решение OS Agent, позволяющее предприятиям, индивидуумам или специализированным областям определять и исследовать агента в соответствии с их потребностями.

На вертикальных агентах Vulkan Engine будет исследовать на основе своих преимуществ в определенных областях, например, ранее был представлен "Умный программный помощник Trae" и продукт данных "Data Agent", последний из которых, создавая данные-колесо, максимально раскрывает возможности обработки данных.

С другой стороны, с внедрением агента также произойдет значительное увеличение потребления вычислительных ресурсов для моделей. В ответ на потребность в масштабных вычислениях, Volcano Engine специально разработал пакет вывода AI Cloud Native ServingKit, который позволяет быстрее разворачивать модели и снижает затраты на вывод, при этом потребление GPU по сравнению с традиционными решениями снижается на 80%.

По мнению Тан Чжи, чтобы соответствовать потребностям эпохи искусственного интеллекта, Volcano Engine продолжит прилагать усилия в трех аспектах: продолжать оптимизировать модель и поддерживать конкурентоспособность; Постоянно сокращать затраты, включая расходы, задержки и увеличение пропускной способности; Упростите внедрение продуктов, таких как кнопки, инструменты HiAgent для разработчиков и облачные компоненты OS Agent. Сохраняйте лидерство в области продуктов и технологий, и доля рынка также будет лидировать. Согласно отчету IDC «Analysis of China's Public Cloud Large Model Service Structure, 1Q25», подготовленный IDC, Volcano Engine занимает первое место с долей рынка 46,4%.

В декабре прошлого года среднее количество вызовов токенов большой модели Doubao составило 40 триллионов. На конец марта этого года это число уже превысило 12,7 триллиона, что в сравнении с моментом выхода большой модели Doubao за короткий срок менее года обеспечило рост более чем в 106 раз. В будущем, с дальнейшим развитием моделей глубокого мышления и визуального вывода, а также оптимизацией облачной инфраструктуры ИИ, Agent также приведет к большему количеству вызовов токенов.

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить