バイトプレス AIエージェントアクセラレータキー

2025-04-23 03:39:39

著者: Wan Chen

DeepSeek-R1の優れた文章、GPT-4oのジブリスタイル、OpenAI o3の地理的位置......

これは過去2か月間、次々と話題になっている現象的なAI製品です。強化学習がついに一般化できることが明らかになり、多モーダルモデルもますます利用可能になっています。これは、2025年が本当にエージェントアプリケーションの実用化、加速的な実用化のタイミングに入ることを意味します。

以前大人気だったAIエージェント——Manusチームは、昨年末にClaude 3.5 Sonnetが長期計画タスクや問題を段階的に解決する能力においてエージェントに必要なレベルに達したことを明らかにしました。これはManusの誕生の前提です。

今、深い思考モデルとマルチモーダルモデルの能力がさらに成熟するにつれて、複雑なタスクを処理できるエージェントがもっと増えるに違いありません。

この判断に基づいて、4月17日にバイトダンス傘下のクラウドおよびAIサービスプラットフォーム「火山エンジン」が企業市場向けにより強力なモデル——豆包1.5・深い思考モデルを発表しました。これはバイトダンス傘下のAIアプリ豆包Appの背後にある推論モデルの初公開でもあります。合わせて、豆包・文生図モデル3.0およびアップグレード版の視覚理解モデルも発表されました。

今回発表されたモデルについて、火山エンジンの社長であるタン・ダイは、「深層思考モデルはエージェントを構築するための基盤であり、モデルは思考、計画、反省をうまく行う能力を持つべきであり、また多様なモードをサポートする必要があります。人間が視覚と聴覚を持つように、エージェントは複雑なタスクをより良く処理できるようになります。」

AI がエンドツーエンドの自律的な意思決定と実行能力を進化させ、コア生産プロセスに向かうとき、ボルケーノエンジンもエージェントがデジタル世界と物理世界を操作するためのアーキテクチャとツールを準備しました——OS エージェントソリューションと AI クラウドネイティブ推論スイートは、企業がエージェントアプリケーションをより早く、より省力的に構築し、展開するのを支援します。

潭待によれば、エージェントの開発はウェブサイトやアプリの開発と同じようなものであり、モデルAPIだけでは問題を完全に解決することはできず、多くのクラウド上のAIクラウドネイティブコンポーネントが必要です。過去には、クラウドネイティブにはコンテナや弾力性などのコア定義がありましたが、現在ではAIクラウドネイティブにも同様の重要な要素が存在します。AIクラウドネイティブに関する継続的な思考、探求、迅速な行動を通じて——例えば、モデルを中心にしたさまざまなミドルウェア、評価、監視、可観測性、データ処理、安全保障、Sandboxなどの関連コンポーネントを構築することを通じて、火山エンジンはAI時代のインフラストラクチャの最適解となることを目指しています。

01 豆包ディープシンキングモデルは、人のように見て考え、検索します。

年初に DeepSeek-R1 がリリースされて以来、多くの ToC アプリが R1 推論モデルに接続されていますが、豆包アプリは除外されています。3 月初めに豆包アプリで開始された「深度思考」モードの背後には、字節跳動が独自に開発した豆包深度思考モデルがあります。

現在、この推論モデル——豆包 1.5 · 深度思考モデルが正式にリリースされ、火山方舟プラットフォームで体験および呼び出すことができます。

ネットワークモードをクリックすると、豆包は人間が問題を考えるときのように、考え、検索し、再び考え……最終的に問題解決を目的とします。

これはショッピングシーンの一例で、予算やサイズなどの制約条件を考慮して、豆包に適切なキャンプ用品のセットを推奨させるものです。

この問題において、豆包はまず注意事項を分解し、必要な情報を計画しました。そして、欠けている情報を判断し、ネット検索を行いました。ここで、彼は3回検索を行い、最初に価格と性能を調べて、予算とニーズに合っていることを確認しました。また、子供の個別のニーズも考慮し、最後に天候を考慮して関連する詳細な評価を検索しました。考えながら検索し、意思決定に必要なすべてのコンテキストを取得するまで続け、推論に基づく回答を提供しました。

検索しながら考えるだけでなく、豆包の深層思考モデルは視覚的推論能力も備えており、人間のように文字に基づいて考えるだけでなく、見た映像に基づいても考えることができる。

食べ物を注文するシーンを例にとると、メーデーのゴールデンウィークが近づいており、海外旅行の友人は写真を撮って翻訳ソフトウェアにアップロードしてメニューを翻訳する必要がなく、ビーンバッグの深い思考モデルは、写真に従って直接食べ物を注文するのに役立ちます。

以下の例では、豆包深度思考モデルはまず予算を管理するために為替レートの換算を行い、その後高齢者や子供の好みを考慮し、アレルギーのある料理を注意深く避けて、直接メニュー案を提示しました。

ネットワーク、思考、推論、マルチモーダル、豆包 1.5・深層思考モデルは、包括的推論能力を示しており、より複雑な問題を解決することができます。

技術報告によると、豆包 1.5・深度思考モデルは専門分野の推論タスクで高い達成度を示しており、例えば数学推論のAIME 2024テストではOpenAI o3-mini-highと同スコアを達成し、プログラミングコンペや科学推論テストの成績もo1に近いです。創造的なライティングや人文知識の質問応答などの一般的なタスクでも、モデルは優れた一般化能力を示し、より広範な使用シーンに対応できることが分かります。

豆包の深層思考モデルは低遅延の特性も備えており、その技術報告によると、このモデルはMoEアーキテクチャを採用しており、総パラメータは200B、活性化パラメータはわずか20Bです。少ないパラメータでトップモデルに匹敵する効果を実現しています。効率的なアルゴリズムと高性能な推論システムに基づき、豆包モデルAPIサービスは高い同時処理を保証しつつ、遅延は20ミリ秒にまで低下しています。

同時に、それは多モーダル能力を持ち、深い思考モデルをさまざまなシーンに適用できます。たとえば、複雑な企業プロジェクト管理フローチャートを理解し、重要な情報を迅速に特定し、強力な指示遵守能力を持って、フローチャートに厳密に従って顧客の質問に答えます。また、航空写真を分析する際には、地形の特徴を組み合わせて地域開発の実現可能性を判断することができます。

推論モデルに加えて、今回の豆包大モデルファミリーは2つのモデルのアップデートも提供しました。文生図モデルに関しては、豆包は最新の3.0アップグレードバージョンを発表しました。このバージョンは、より優れたテキストのレイアウト表現、実写レベルの画像生成効果、および2Kの高解像度画像生成方式を実現します。

新しいモデルは、小さな文字や長いテキストの生成の問題をうまく解決するだけでなく、画像のレイアウトも改善しました。例えば、一番左側に生成された「現形」と「豊収計画」の2つのポスターは、細部の生成が非常に精密で、レイアウトも自然で、すぐに使用できます。

もう一つのアップグレードは、豆パッケージ 1.5 ビジュアル理解モデルです。新しいバージョンには、2つの重要なアップデートがあります。視覚的な位置決めがより正確になり、ビデオの理解がよりスマートになりました。

視覚定位に関して、豆包 1.5 視覚理解モデルは複数のターゲット、小さなターゲット、一般的なターゲットのボックス定位とポイント定位をサポートし、定位カウント、定位内容の説明、さらには 3D 定位などをサポートしています。視覚定位能力の向上により、モデルはさらなるアプリケーションシーンを拡張することが可能となります。例えば、オフライン店舗の巡回シーン、GUI エージェント、ロボット訓練、自動運転訓練などです。

動画理解能力において、このモデルは大幅に向上しており、例えば記憶能力、要約理解能力、速度知覚能力、長時間動画理解などが含まれます。企業は動画理解を基に、より面白い商業アプリケーションを構築できます。例えば家庭のシーンでは、動画理解能力とベクトル検索を組み合わせて、家の監視動画に対して意味検索を行うことができます。

例えば、以下の例では、猫を飼っている人が猫の毎日の活動状況を知りたいと考えています。今、「今日は子猫が家で何をしていたのか？」と直接検索することで、ユーザーが見るための意味的に関連するビデオクリップが迅速に返されます。

視覚的理解を持つ推論モデルと大規模な推論能力の蓄積を借りて、以前はできなかった多くのことが現在は実現可能となり、より多くのシーンを解放することができます。例えば、このような機能を持つカメラは必ずより人気が出るでしょうし、AIメガネ、AIおもちゃ、スマートカメラ、ドアロックなども新たな発展の余地があります。

02 クラウド、エージェンティックAI時代に入る

過去2日間で、OpenAIの研究者である姚俊宇氏(Deep Research、Operatorのコア著者)は、記事「AIの後半」で、強化学習がようやく一般化できる道を見つけると、人間のチェスプレーヤーを打ち負かすAlphaGoなどの特定の分野で機能するだけでなく、ソフトウェアエンジニアリング、クリエイティブライティング、IMOレベルの数学、マウスとキーボードの操作など、人間の競争のレベルに近づく可能性があると指摘しました。この場合、より複雑なリストでより高いスコアを競うのは簡単ですが、時代遅れです。

今競い合っているのは、問題を定義する能力です。言い換えれば、AIは現実の生活でどのような問題を解決する必要があるのでしょうか？

2025年、この答えは生産性エージェントです。現在、AIの応用シーンは急速にエージェンティックAI時代に突入しており、AIは徐々に専門性が高く、時間のかかる完全なタスクを完了できるようになっています。このような状況下で、火山エンジンは企業が「自分の汎用エージェントを定義する」ための一連のインフラを構築しました。

最も重要なのはモデルであり、自主的に計画し、反省し、エンドツーエンドで自主的に意思決定と実行を行い、コア生産プロセスに向かうことです。同時に、リアルワールドで耳、口、目を使って共同でタスクを完了できるようにするために、マルチモーダル推論能力も必要です。

モデルの外側では、Infra技術スタックも進化し続ける必要があります。例えば、MoEアーキテクチャがより効率的な利点を示すにつれて、次第にモデルの主流アーキテクチャとなり、それに伴いMoEモデルに適応するスケジューリングには、より複雑で柔軟なクラウドコンピューティングアーキテクチャとツールが必要となります。

現在、企業向けの一般的なエージェントのシナリオにおいて、火山エンジンはより良いアーキテクチャとツールを提供しました——OSエージェントソリューションは、大規模モデルをサポートし、デジタルおよび物理的な世界を操作します。例えば、エージェントがブラウザを操作して商品ページを検索し、iPhoneの価格比較タスクを実行したり、エージェントがリモートコンピュータ上で剪映を使用してビデオ編集や音楽の追加を行うことができます。

現在、火山エンジン OS Agent ソリューションには、豆包 UI-TARS モデル、veFaaS 関数サービス、クラウドサーバー、クラウドフォンなどの製品が含まれており、コード、ブラウザ、コンピュータ、携帯電話、および他のエージェントの操作を実現しています。その中で、豆包 UI-TARS モデルは、画面の視覚理解、論理推論、インターフェース要素の位置特定と操作を統合し、従来の自動化ツールが依存している予め設定されたルールの限界を突破し、エージェントのインテリジェントなインタラクションに人間の操作に近いモデル基盤を提供しています。

汎用型エージェントシナリオでは、火山エンジンがこのOSエージェントソリューションを通じて、企業内部、個人、または特定の分野において、必要に応じてエージェントの定義と探索を行えるようにしています。

垂直型エージェントにおいて、火山エンジンは自身の強みを活かして探求を行います。例えば、以前にリリースされた「スマートプログラミングアシスタント Trae」やデータ製品「Data Agent」があります。後者はデータフライホイールを構築することで、データ処理能力を最大限に引き出しています。

一方で、エージェントの浸透に伴い、モデル推論の消費も大幅に増加します。大規模な推論需要に対処するために、火山エンジンはAIクラウドネイティブServingKit推論スイートを特別に構築し、モデルの展開をより迅速にし、推論コストを低く抑え、GPUの消費は従来のソリューションと比較して80%削減されます。

Tan Zhi氏の見解では、AI時代のニーズを満たすために、Volcano Engineは3つの側面で努力を続ける。経費、遅延、スループットの向上などのコストを継続的に削減します。ボタン、開発者向けのHiAgentツール、クラウドネイティブ・コンポーネントOSエージェントなどの製品の実装を容易にします。製品とテクノロジーのリーダーシップを維持し、市場シェアもリードします。 IDCの「中国のパブリッククラウド大規模モデルサービス市場構造の分析、25年第1四半期」によると、Volcano Engineは46.4%の市場シェアで第1位にランクされました。

昨年12月、Doubaoモデルの1日の平均トークンコール量は4兆でした。今年3月末時点で、この数は12兆7,000億を超えており、ビーンバッグモデルが最初にリリースされたときの106倍以上の速さです。将来的には、ディープシンキングモデル、ビジュアル推論、AIクラウドインフラストラクチャの最適化がさらに成熟するにつれて、Agentはより多くのトークンコールを駆動します。