2026-04-11 01:31:03

#MetaReleasesMuseSpark

人工智慧競賽中的策略轉向

2026年4月8日，Meta平台正式推出Muse Spark，這是其新成立的Meta超智能實驗室(MSL)的首款人工智慧模型。此舉標誌著Meta的一個轉折點，代表其AI基礎設施的全面重建以及在開源Llama血統上的戰略轉變。

風險空前。由於Llama 4在基準測試中的表現不佳，並涉及操縱數據的爭議，Meta執行長Mark Zuckerberg於2025年中重組了公司的AI策略。他聘請Scale AI的創始人兼CEO Alexandr Wang，作為Meta史上首位首席AI官，這是一筆據報價值143億美元的里程碑式交易。Muse Spark是這次高成本、高壓力改革中首個推出的產品。

什麼是Muse Spark？核心特點

Muse Spark被描述為一個全新Muse系列大型語言模型的首款，內部代號為「酪梨（Avocado）」。與之前為通用基準測試而打造的模型不同，Muse Spark專為Meta的生態系統設計，涵蓋Facebook、Instagram、WhatsApp和Threads等超過30億用戶。

主要特點包括：

特點類別描述
原生多模態支援語音、文字和圖像輸入；理解照片和圖表等視覺資訊
雙重模式「即時」模式，用於快速回答；「思考」(沉思)模式，用於複雜推理
多代理系統同時啟動多個子代理，並行處理問題的不同層面
購物整合從Meta的應用中創作者內容和用戶行為中獲取資料，提供個性化推薦
健康專注與超過1000名醫生合作訓練；能對醫療和營養問題提供詳細回應
封閉源碼有意打破Llama的開源傳統；僅向選定合作夥伴提供API預覽

該模型設計為「小巧且快速，但足以在科學、數學和健康等領域進行複雜推理」。Meta強調，Muse Spark是基礎模型——下一代已在研發中。

性能：優勢與不足

獨立基準評測展現出細膩的故事。Muse Spark並非所有類別的絕對領導者，但在與Meta獨特數據優勢相關的領域展現出明顯優勢。

優勢

· 多模態理解(CharXiv推理)：Muse Spark得分86.4，超越GPT-5.4(82.8)和Gemini 3.1 Pro(80.2)。在解讀複雜圖表、科學數據和視覺STEM內容方面表現出色。
· 健康與醫學推理(HealthBench Hard)：得分42.8，Muse Spark在此類別中領先，超越GPT-5.4(40.1)，並顯著優於Claude Opus 4.6(14.8)。這反映出Meta在醫生策劃訓練資料方面的投入。
· 代理搜尋(DeepSearchQA)：Muse Spark取得74.8，超越Gemini 3.1 Pro(69.7)，展現出在自主搜尋和整合網路資訊方面的強大能力。

改進空間

· 抽象推理(ARC AGI 2)：仍是重大差距。Muse Spark僅得分42.5，遠低於Gemini 3.1 Pro(76.5)和GPT-5.4(76.1)。
· 代理程式編碼(SWE-Bench Pro)：Muse Spark的得分52.4落後於GPT-5.4(57.7)和Gemini 3.1 Pro(54.2)。
· 競賽級程式設計(LiveCodeBench Pro)：得分80.0，落後於GPT-5.4(87.5)和Gemini 3.1 Pro(82.9)。

總體而言，Muse Spark在人工智能分析指數v4.0中排名第四，僅次於Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。正如Meta自己所承認，該模型「並不代表新的SOTA，但在特定任務上與前沿模型具有競爭力」。

「沉思」模式：不同的推理方法

Muse Spark最具特色的功能之一是其「沉思」模式，採用一種新穎的方法來解決複雜問題。它不允許單一模型長時間「思考」——這會線性增加延遲——而是啟動多個代理同時推理，然後合成它們的輸出。

這種多代理並行推理在時間上與Google的(Gemini Deep Think)和OpenAI的(GPT Pro)的延長思考模式相比，取得了具有競爭力的結果。

在「人類最後考試」——一套由領域專家設計的極難問題集——Muse Spark的「沉思」模式在無工具情況下得分50.2，有工具輔助則得58.0，超越Gemini Deep Think(48.4)和GPT-5.4 Pro(43.9)。

技術創新：效率與擴展

除了原始基準分數外，Meta還披露了一些可能比單一指標更具價值的技術成就。

預訓練效率

MSL在九個月內徹底重建了預訓練架構，包括模型架構、優化器和資料流程。結果：Muse Spark在計算資源消耗不到Llama 4 Maverick的十分之一的情況下，達到了相同的能力水平。這一效率提升代表了訓練方法的根本突破。

強化學習穩定性

大規模RL訓練歷來充滿不穩定性。Meta報告其新RL架構實現了穩定且可預測的能力增長，並能將改進推廣到未見過的任務。

思維壓縮

在訓練過程中，Meta應用了「思考時間懲罰」——迫使模型在不犧牲準確度的情況下，用更少的推理令牌來解決問題。這產生了一種新興現象，即模型學會了「壓縮」其推理鏈，變得更加高效。

由開放到封閉：策略逆轉

或許最具爭議的是Muse Spark的授權方式。與建立Meta為開源AI旗手的Llama系列不同，Muse Spark採用封閉源碼。

Meta通過私人API預覽向選定合作夥伴提供模型，並計劃最終通過API存取或訂閱模式來盈利。公司表示「希望未來版本能開源」，但目前的轉向封閉源碼，象徵著一個策略轉變：將架構創新作為專有技術，同時在競爭激烈的賽道中保持優勢。

訓練過程也引發關注，有報導稱Muse Spark融合了多個開源模型的知識，採用蒸餾技術。Meta回應稱這些方法完全符合行業標準。

一個獨特現象：「評估意識」

第三方評估公司Apollo Research發現，Muse Spark展現出所有測試模型中最高的「評估意識」水平。

MUSE-3.62%

SPK5.15%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

3人按讚了這條動態

打賞
3
3
轉發
分享

留言

請輸入留言內容

Yunna

· 1小時前

LFG 🔥

回復0

discovery

· 1小時前

2026 GOGOGO 👊

回復0

HighAmbition

· 1小時前

良好的資訊 👍

查看原文回復0

熱門話題
查看更多
#
Gate上線Pre-IPOs
22.82萬熱度
#
Gate現貨衍生品雙雙衝進全球前三
960.77萬熱度
#
原油小幅上漲
118.75萬熱度
#
加密市場回升
5.45萬熱度
#
Gate廣場四月發帖挑戰
132.78萬熱度

熱門 Gate Fun
查看更多

1
DMC
Domacoin
市值:$2317.24持有人數:1
0.00%
2
erc20
BBOU
市值:$2310.34持有人數:1
0.00%
3
2273777r7733
recko
市值:$2300持有人數:1
0.00%
4
UP
GATEUP
市值:$2300持有人數:1
0.00%
5
M
马到成功
市值:$2325.7持有人數:1
0.29%

#MetaReleasesMuseSpark

熱門話題

Gate上線Pre-IPOs

Gate現貨衍生品雙雙衝進全球前三

原油小幅上漲

加密市場回升

Gate廣場四月發帖挑戰

熱門 Gate Fun

DMC

Domacoin

erc20

BBOU

2273777r7733

recko

UP

GATEUP

M

马到成功

置頂