Кнопка прискорення AI Agent Byte

Автор: Вань Чен

Гарний стиль письма DeepSeek-R1, стиль малюнка Гіблі GPT-4o, географічна прив'язка зображень OpenAI o3...

Це явищний AI продукт, який протягом останніх двох місяців постійно з'являвся на екранах, ви можете чітко побачити: підкріплене навчання нарешті може узагальнювати, а мультимодальні моделі стають все більш доступними. Це також означає, що 2025 рік дійсно стане моментом впровадження додатків Agent та прискорення їх впровадження.

Раніше популярна команда AI Agent — Manus розкрила, що наприкінці минулого року Claude 3.5 Sonnet досягнув рівня, необхідного для виконання завдань довгострокового планування та поступового вирішення проблем, що стало передумовою для виникнення Manus.

Зараз, з подальшим розвитком можливостей глибоких моделей мислення та мультимодальних моделей, безумовно, з'явиться більше агентів, здатних виконувати складні завдання.

Ґрунтуючись на цьому рішенні, 17 квітня хмарна та штучна сервісна платформа ByteDance «Volcano Engine» випустила сильнішу модель для корпоративного ринку – Doubao 1.5 Deep Thinking Model, яка також є першою появою моделі логічного висновку, що лежить в основі програми штучного інтелекту Doubao App від ByteDance. Разом із запуском Bean Bag Bunsheng Diagram Model 3.0 та оновленої версії Visual Comprehension Model.

Щодо моделі, що була випущена цього разу, президент вулканічного двигуна Тан Дай вважає, що «модель глибокого мислення є основою для побудови Агентів, модель повинна мати можливість добре мислити, планувати та рефлексувати, а також обов'язково підтримувати мультимодальність, як і людина має зір і слух, щоб Агент міг краще справлятися з комплексними завданнями.»

А коли ШІ еволюціонує в автономне прийняття рішень і виконання завдань в режимі end-to-end, переходячи до основних виробничих процесів, вулканічний двигун також підготував архітектуру та інструменти для управління цифровим та фізичним світом — рішення OS Agent та набір інструментів AI cloud-native inference, що допомагає підприємствам швидше та економніше будувати і впроваджувати програми Agent.

На думку Тан Чена, розробка агента схожа на розробку веб-сайту або додатку, тільки API моделі не може повністю вирішити проблему, і потрібно багато хмарних компонентів штучного інтелекту в хмарі. У минулому cloud native мав свої основні визначення, такі як контейнери, еластичність тощо; Тепер хмарний штучний інтелект матиме аналогічні ключові елементи. Volcano Engine прагне стати оптимальним рішенням для інфраструктури в епоху штучного інтелекту завдяки безперервному мисленню, дослідженню та швидким діям на хмарі штучного інтелекту, наприклад, різноманітному проміжному програмному забезпеченні навколо моделі, оцінці, моніторингу, спостережливості, обробці даних, забезпеченні безпеки та пов'язаних компонентах, таких як пісочниці.

01 Модель глибокого мислення бобів, як людина, дивлячись, думаючи та шукаючи.

З початку року, з моменту випуску DeepSeek-R1, багато ToC додатків інтегрували модель висновку R1, за винятком додатку Doubao. На початку березня в додатку Doubao запустили режим «Глибоке мислення», за яким стоїть розроблена ByteDance модель глибокого мислення Doubao.

Тепер ця модель висновку — бобова 1.5 · глибока модель роздумів офіційно випущена, її можна випробувати та використовувати на платформі Вулкан Арк.

Натисніть режим підключення до мережі, і бобові пакети зможуть думати над проблемами так, як це роблять люди: подумати, пошукати, а потім знову подумати... врешті-решт з метою вирішення проблеми.

Це приклад у сцені покупок, де після встановлення бюджету, розміру та інших обмежень, Доу Бао рекомендує комплект відповідного кемпінгового обладнання.

У цьому питанні Доу Бао спочатку розбив науваги, спланував необхідну інформацію, потім визначив відсутню інформацію та провів пошук в Інтернеті. Тут він здійснив 3 раунди пошуку, спочатку шукаючи ціну та характеристики, щоб впевнитися, що це відповідає бюджету та вимогам; також врахував окремі потреби дітей, а нарешті, врахувавши погоду, шукав відповідні детальні огляди. Думав і шукав, поки не отримав усю необхідну контекстну інформацію для ухвалення рішення, надавши обґрунтовану відповідь.

Окрім здатності шукати й думати одночасно, модель глибокого навчання Doubao також має можливість візуального міркування, як людина, вона може думати не лише на основі тексту, а й на основі побачених зображень.

Наприклад, у сцені з замовленням їжі, золотий тиждень п’яти днів наближається, і друзям, які їдуть за кордон, більше не потрібно робити фотографії та завантажувати їх у програму перекладу для перекладу меню, модель глибокого навчання Doubao може безпосередньо допомогти вам замовити їжу на основі зображення.

У наведеному прикладі модель глибокого мислення Doubao спочатку здійснила обмін валют, щоб контролювати бюджет, потім врахувала вподобання літніх людей та дітей, одночасно уважно уникнувши страв, на які у них є алергія, і безпосередньо надала варіанти меню.

Інтернет, мислення, міркування, мультимодальність, Доу Бао 1.5・модель глибокого мислення демонструє комплексні здібності до міркування, здатна вирішувати ще більш складні проблеми.

Згідно з технічним звітом, модель глибокого мислення Doubao 1.5 має високий ступінь виконання завдань на висновок у професійній сфері, наприклад, зрівнявшись з o3-mini-високим балом OpenAI в тесті математичного міркування AIME 2024, а бали в конкурсі з програмування та тесті на наукове мислення також близькі до o1. З точки зору загальних завдань, таких як творче письмо та тести на знання гуманітарних наук, модель також демонструє чудову здатність до узагальнення та може бути використана в ширшому діапазоні сценаріїв використання.

Модель глибокого мислення Doubao також має характеристики низької затримки. У його технічному звіті зазначено, що модель використовує архітектуру MoE, загальна кількість параметрів становить 200B, активованих параметрів лише 20B, що забезпечує ефект, порівнянний з провідними моделями, за допомогою меншої кількості параметрів. На основі ефективних алгоритмів і високопродуктивних систем висновків, API-сервіс моделі Doubao забезпечує високу пропускну здатність при затримці до 20 мілісекунд.

Водночас, він також має мультимодальні можливості, може використовувати модель глибокого мислення в різних сценах, наприклад, він може розуміти складні діаграми процесів управління підприємством, швидко знаходити ключову інформацію і, завдяки потужній здатності слідувати інструкціям, строго відповідати на питання клієнтів відповідно до діаграми; під час аналізу аерофотознімків може поєднувати ландшафтні характеристики для оцінки життєздатності розвитку регіону.

Окрім моделі висновків, цього разу сімейство великих моделей Doubao також представило оновлення для двох моделей. У сфері моделі текст-в-зображення Doubao випустив останню версію 3.0, яка здатна забезпечити кращу якість верстки тексту, зображення з рівнем реалістичності, що нагадує фотографії, а також спосіб генерації зображень у 2K якості.

Нова модель не лише добре вирішує проблему генерації малих і довгих текстів, але й покращує верстку зображень. Наприклад, зліва згенеровані плакати «现形» та «丰收计划» мають детальну генерацію, а верстка виглядає досить природно, їх можна використовувати відразу.

Інше оновлення - це модель візуального сприйняття Doubao 1.5. У новій версії є два ключових оновлення: більш точне візуальне позиціонування та більш інтелектуальне розуміння відео.

У сфері візуальної локалізації, модель візуального розуміння Doubao 1.5 підтримує рамкову локалізацію та точкову локалізацію для декількох цілей, малих цілей та загальних цілей, а також підтримує підрахунок локалізації, опис вмісту локалізації та 3D локалізацію тощо. Підвищення можливостей візуальної локалізації може дозволити моделі розширити сфери застосування, такі як сцени перевірки в офлайн-магазинах, GUI агент, навчання роботів, навчання автономного водіння тощо.

З точки зору здатності до сприйняття відео, модель також була значно покращена, наприклад, здатність до запам'ятовування, здатність до розуміння резюме, здатність до сприйняття швидкості, довге розуміння відео тощо. Наприклад, у домашньому сценарії ми можемо виконати семантичний пошук на відео з камер спостереження вдома на основі можливостей розуміння відео та векторного пошуку.

Наприклад, у наведеному нижче прикладі людина, яка має кота, хоче дізнатися про те, чим кіт займається протягом дня, і тепер, просто ввівши запит «Що сьогодні кіт робив вдома?» можна швидко отримати відеофрагменти, що відповідають запиту, для перегляду.

За допомогою моделей логічного висновку з візуальним розумінням і великими резервами можливостей висновків тепер можна реалізувати багато речей, які раніше не можна було зробити, і можна розблокувати більше сценаріїв, наприклад, камери з такими функціями будуть більш популярними, а окуляри зі штучним інтелектом, іграшки зі штучним інтелектом, розумні камери, дверні замки тощо також матимуть новий простір для розвитку.

02 Хмара, входження в епоху Agentic AI

За останні два дні дослідник OpenAI Яо Шуньюй (Deep Research, основний автор книги «Оператор») зазначив у статті «Друга половина штучного інтелекту», що в міру того, як навчання з підкріпленням нарешті знаходить шлях, який можна узагальнити, воно працюватиме не тільки в конкретних галузях, таких як AlphaGo, яка перемагає шахістів-людей, але може бути близьким до рівня людської конкуренції в розробці програмного забезпечення, творчому письмі, математиці на рівні IMO, операціях з мишею та клавіатурою тощо. У цьому випадку простіше поборотися за вищий бал у складнішому списку, але він застарів.

Зараз змагаються здібності визначати проблеми. Іншими словами, які проблеми штучний інтелект має вирішувати в реальному житті?

У 2025 році відповідь – агент продуктивності. В даний час сценарії застосування ШІ стрімко вступають в еру Agentic AI, і ШІ може поступово виконувати завдання з високим ступенем професіоналізму і тривалим часом. У цьому контексті Volcano Engine також надає набір інфраструктури для підприємств, щоб вони могли «визначати свої власні генеричні агенти».

Найважливішим є модель, яка здатна самостійно планувати, рефлексувати, приймати рішення та виконувати їх від початку до кінця, звертаючись до основних виробничих процесів. Одночасно, вона повинна мати багатомодальні можливості розуміння, щоб у реальному світі виконувати завдання за допомогою вух, рота та очей.

По-перше, технологічний стек Infra також потребує постійної еволюції. Наприклад, оскільки архітектура MoE демонструє більш ефективні переваги, вона поступово стає основною архітектурою моделей. У зв'язку з цим, адаптація розподілу для моделей MoE потребує більш складної та гнучкої архітектури та інструментів хмарних обчислень.

Зараз у сцені корпоративного універсального агента, вулканічний двигун представив кращу архітектуру та інструменти — рішення OS Agent, яке підтримує великі моделі для управління цифровим та фізичним світом, наприклад, агент може керувати браузером, шукати товарні сторінки, виконувати завдання порівняння цін на iPhone, навіть агент може редагувати відео, накладати музику тощо на віддаленому комп'ютері за допомогою Jianying.

Наразі рішення Fire Mountain Engine OS Agent включає модель Doubao UI-TARS, а також функціональні послуги veFaaS, хмарні сервери, хмарні телефони та інші продукти, що реалізують операції з кодом, браузерами, комп'ютерами, телефонами та іншими агентами. Серед них модель Doubao UI-TARS об'єднує розуміння візуальних елементів екрану, логічне мислення, локалізацію елементів інтерфейсу та операції, долаючи обмеження традиційних автоматизованих інструментів, які залежать від попередньо заданих правил, забезпечуючи інтелектуальну взаємодію агентів, що ближча до людської операції.

У сценарії універсального типу агентів, вулканічний двигун дозволяє підприємствам, особам або певним сферам визначати та досліджувати агентів відповідно до потреб за допомогою цього рішення OS Agent.

У вертикальних агентів вулканічний двигун буде досліджувати на основі своїх сильних сторін, наприклад, раніше запущений «Інтелектуальний програмний помічник Trae» та дані продукт «Data Agent», останній через створення даних фліпперу максимально реалізує можливості обробки даних.

З іншого боку, з проникненням Agent також буде спостерігатися більша витрата на моделювання. З огляду на величезні потреби в моделюванні, вулканічний двигун спеціально розробив пакет для моделювання AI Cloud Native ServingKit, що дозволяє швидше розгортати моделі та знижувати витрати на моделювання, споживання GPU зменшується на 80% у порівнянні з традиційними рішеннями.

На думку Тана, для задоволення потреб ери ШІ, Volcano Engine продовжить зосереджуватися на трьох напрямках: постійна оптимізація моделей для збереження конкурентоспроможності; зниження витрат, включаючи витрати, затримки та підвищення пропускної спроможності; зробити продукти більш доступними для впровадження, наприклад, такі як кнопки, інструменти HiAgent для розробників та хмарні нативні компоненти OS Agent тощо. Зберігаючи провідні позиції в продуктах і технологіях, ринкова частка також буде провідною. Раніше IDC опублікувала звіт "Аналіз ринкової ситуації у сфері послуг великих моделей у публічному хмарному сегменті Китаю, 1Q25", який показав, що Volcano Engine займає перше місце з часткою ринку 46,4%.

У грудні минулого року середня щоденна кількість викликів токенів великої моделі Doubao становила 40 трильйонів. Станом на кінець березня цього року ця цифра вже перевищила 12,7 трильйона, що в порівнянні з моментом випуску великої моделі Doubao за короткий період менше ніж за рік досягло понад 106-кратного швидкого зростання. У майбутньому, з подальшим вдосконаленням моделі глибокого мислення, візуального розуміння та оптимізацією AI-хмарної інфраструктури, Agent також сприятиме збільшенню кількості викликів токенів.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити