「AI打工人」と称されるOpenClawは使う価値があるのか?記者が徹底実測:ファイルが見つからない、検索エラー、メール送信で固まる!

号称「コンピュータを掌握し、手を解放する」AIエージェント(AIインテリジェンス体)ツールOpenClawが、最近技術界で大きな話題となっている。

それは「AI打工人」として称賛されており、指示を出すだけで文章作成やメール送信、さらにはコーヒーの購入まで代行できるとされている。しかし、実際はどうなのだろうか?それは生産性向上の神器なのか、それとも技術マニア向けの「おもちゃ」に過ぎないのか?

最近、《每日経済新聞》の記者と毎経科技の開発者が共同で徹底的な実測を行った。OpenClawを千問Qwen3-Max、月之暗面Kimi-K2.5、MiniMax-M2.1、MiniMax-M2.5、智谱GLM-4.7の五つの国産大規模モデルと、OpenAIのGPT-5-miniに接続し、ローカルファイルの検索、ネット資料の調査、記事作成、メール送信などの工程を実行させ、その実力を探った。

結果は、いくつかのモデルが期待通りに動かず、特に**ブラウザ操作を必要とするネット検索やメール送信の段階では、多くが失敗した。**専門家は、「現状のOpenClawは使いにくく、コストも高く、安全面でも『悪夢』だ」と指摘している。

実測比較:GPT-5、MiniMax、智谱はタスクを完遂、他の二つの大規模モデルは「行動力不足」

OpenClaw自体は大規模モデルではなく、むしろ「指揮官」の役割を担う。ユーザーの指示を受け取り、ツールを呼び出し、作業の流れを組み立て、理解した指示と具体的な作業を外部の大規模モデルに委ねる。

したがって、接続される大規模モデルの能力や安定性、表現力が、最終的なタスクの成否を左右する。

現在OpenClawがサポートしている大規模モデル(画像出典:OpenClaw設定画面)

記者の実務により近いシナリオを想定し、テスターは次のような総合的なテストを設定した。

異なる大規模モデルに接続されたOpenClawに、「電車の父」と呼ばれるインタビューの速記原稿をコンピュータ内から見つけ出し、その内容を要約させ、さらにネットから得た情報と合わせて、インタビュー記事を作成し、最後にメールで指定のアドレスに送信させる。

このタスクは、指示理解、ローカルファイルの検索、ブラウザ操作によるネット情報収集、情報の統合と文章作成、アプリ操作まで、多岐にわたる。

最初のテストでは、各モデルのパフォーマンスに大きな差が見られた。

OpenClaw+千問Qwen3-Max

最初に試したのは千問Qwen3-Maxモデル。ローカルファイルの検索段階でつまずいた。テスターが明確にファイルの場所を指示しても、Qwen3-Maxは約5分の検索後も正確に特定できなかった。

その後、メール送信の個別テストでも、Qwen3-Maxは成功しなかった。指示を繰り返すだけで、実際の動作は見られなかった。

OpenClaw+月之暗面Kimi-K2.5

Kimi-K2.5はやや良好で、5分以内にファイルを見つけ出し、内容を要約した。ただし、ネット検索と最新の業界動向の補足では、「429エラー」(リクエスト過多を示す)により情報収集が完了しなかった。

メール送信の段階では、Kimi-K2.5はブラウザを操作して指定のメールアドレスに送信できなかった。

OpenClaw+MiniMax-M2.1

MiniMax-M2.1はファイル検索、ネット資料調査、文章作成において特に大きな障害はなかった。ただし、メール送信のブラウザ操作では問題が生じたが、指示に従い手動操作を行うことで解決し、最終的にメールを送信できた。

ただし、MiniMax-M2.1が送ったメールは、記事の「キーフレーズ」のみで、全文は含まれていなかった。

OpenClaw+MiniMax-M2.5

MiniMaxの中でも、2月12日にリリースされたMiniMax-M2.5は、MiniMax-M2.1よりも高性能で、ファイル検索、ネット資料調査、執筆、メール送信まで自動で完了した。

OpenClaw+智谱GLM-4.7

智谱の最新モデルGLM-5には未接続のため、今回はGLM-4.7を使用。結果は、メール送信の段階で、誤ったメールアドレスを入力し、ページアクセスに失敗するケースがあったが、それ以外は処理速度が速かった。

OpenClaw+GPT-5-mini

GPT-5-miniは比較的安定してスムーズに動作した。ファイル検索、内容要約、ネット調査、資料補充、メール送信まで、ほぼ人手を介さずに完了し、時折ネット接続の不安定さが見られる程度だった。

テストの厳密さを期すため、二度の再テストも行った。

第二回の結果:

● Kimi-K2.5:ローカルファイルの検索と読み取りに成功したが、メール送信は依然失敗。エラーは、メールのネットワークコードの読み取りや入力欄の取得に問題があったと報告。

千問Qwen3-max:ファイルの読み取りとネット資料の補充は成功したが、メール送信は明らかに遅延し、成功しなかった

● MiniMax-M2.1/2.5:全工程完了。

● 智谱GLM-4.7:全工程完了。

● GPT-5-mini:全工程完了。

第三回の結果:

● Kimi-K2.5:ローカルファイルの検索と読み取りに成功したが、ネット資料の検索段階で問題が発生(ウェブページの内容取得エラーや誤ったURL、ブラウザコマンドの理解不能など)、メール送信も失敗

● 千問Qwen3-max:ファイルの読み取りは成功したが、ブラウザ操作によるネット検索はできず、メール送信も失敗

● MiniMax-M2.1/2.5:全工程完了。

● 智谱GLM-4.7:全工程完了。

● GPT-5-mini:全工程完了。

業界の見解:OpenClawの能力は大規模モデルの性能次第であり、十分な生産性ツールにはなっていない

これらの結論は、業界内でも広く認められている。

あるプログラマーは、OpenClawを使ってネットショップの運営補助やポスター・クーポン作成を行っているが、普段はOpenAIのCodex-5.3やGemini 3 Proモデルを接続しており、その方が国産モデルよりも遥かに効果的だと語る。

複数の専門家や経験豊富なユーザーは、OpenClawはあくまで「タスクフレームワーク」に過ぎず、その最終的な性能は接続される大規模モデルの能力に大きく依存すると指摘している。まるで指示は明確だが能力の限られた指揮官のように、部下の兵士(大規模モデル)の強さが戦いの勝敗を左右する。

非凡産研の研究責任者・宦家臣は、「モデルの影響は、タスクの複雑さ次第だ。世界のトップクラスの大規模モデルは上限が高いが、一般的なタスクなら国内の智谱GLM-4.7やKimi-K2.5でも十分だ。Claudeは高すぎて財布が持たない。」と述べている。

実際、いくつかの大規模モデルは複雑なタスクの実行能力を示しているものの、OpenClawが十分な生産性ツールになるには、まだ距離がある。

「今のバージョンのOpenClawは、十分な生産性ツールとは言えないと感じている。」と、元Xiaomi OS AI製品の専門家で、現在は海外AIアプリ開発企業ExcelMaster.aiの創設者・張和は語る。OpenClawは、以前爆発的に流行したプログラマー向けツールやAnthropicのClaude Codeの「ラップ」的存在に過ぎず、チャットUIや内蔵スキル(Skill)による封装は進んでいるが、コア能力は超えていない。「OpenClawにできて、Claude Codeにできないことはあまり見当たらないし、資料検索の水準もClaude Codeの方が上だ。」

「大規模モデルの能力がもう少し向上すれば、OpenClawはより良くなり、普及も進むだろう。何もしなくても、次の大規模モデルの登場を待つだけでも……OpenClawの敷居は下がる。」と張和は強調する。OpenClawの進歩と普及は、根底にある大規模モデル技術の突破を待つことにほかならない。

Akamaiのクラウド・AI製品マネージャー・張璐博士も同様の見解を示す。彼は、「OpenClawを本格的に生産用途に使うには、二次開発や微調整が必要だ。現バージョンはまだ『未成熟』で、多くの場面で動作が遅くなる」と述べている。

高いハードルとコスト、リスクが一般ユーザーを遠ざける

大規模モデルの能力への依存に加え、技術的ハードル、使用コスト、安全リスクが、OpenClawの一般普及を妨げている。

まず、導入と利用のハードルが高い。OpenClawは「ワンクリックインストール」のような簡易導入方法を提供しておらず、ユーザーはコマンドライン操作を通じてローカル設定や依存関係の管理、権限設定を行う必要がある。毎経科技の開発者は、「この工程は一定の技術背景を要し、少なくとも基本的な開発経験が必要だ。これでは非技術者の多くを遠ざけてしまう」と語る。阿里雲、Tencent Cloud、Amazon Web Servicesなどのクラウド事業者は、OpenClawのクラウド展開サービスを提供し、設定済みのサーバー上で簡単に展開できると謳っているが、クラウド上のOpenClawはユーザーのローカルPCを操作できるわけではない。

次に、コストの高さも現実的な問題だ。OpenClawはタスク実行時に頻繁に大規模モデルを呼び出すため、トークン消費量が膨大となり、「トークン燃焼器」とも呼ばれる。有識者は、「智谱GLM-4.7を使った場合、わずか20回のやり取りで200元もかかった」と証言している。

張璐博士も、「DeepSeekモデルを使った一日で数十元を消費した」と述べており、より高性能なモデルを使えば、請求額はさらに膨らむ。「一日数百元も飛ぶことになる」と。

高コストのため、多くのユーザーは無料または安価なモデルを選択せざるを得ないが、それはOpenClawの実力に影響を与える。あるユーザーは、「コストの関係でQwen-8Bを選んだが、OpenClawは質問には答えるが操作はしない」と不満を漏らす。

さらに、最も懸念されるのは安全リスクだ。OpenClawは「作業」用であり、「チャット」ではないため、高いシステム権限を必要とし、ローカルのファイルやアプリを操作できる。

シスコのAI脅威調査・安全チームの責任者・Amy Changは、「安全面から見れば、OpenClawは『悪夢』だ。シェルコマンドの実行やファイルの読み書き、スクリプトの実行を任意に行えるため、誤設定や悪意ある指示による被害は計り知れない」と警告する。

ネットセキュリティ企業Dvulnの創設者・Jamieson O’Reillyも、「OpenClawには脆弱性があり、攻撃者はこれを悪用して数か月分の個人メッセージやアカウント情報、APIキーなどの敏感情報を盗み出すことができる」と指摘。さらに、ユーザーが便利さのために保存した銀行口座や暗号資産ウォレットのAPI情報も、平文でローカルに保存されている可能性があり、ハッカーに侵入されれば「一瞬で資産を奪われる危険性がある」と述べている。

OpenClawの開発者・Peter Steinbergerも、「これはあくまで無料のオープンソースのアマチュアプロジェクトであり、安全確保にはユーザーの詳細な設定が必要だ」と語る。彼は、「非技術者には適さない」と明言している。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン