✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
#MetaReleasesMuseSpark
人工智慧競賽中的策略轉向
2026年4月8日,Meta平台正式推出Muse Spark,這是其新成立的Meta超智能實驗室(MSL)的首款人工智慧模型。此舉標誌著Meta的一個轉折點,代表其AI基礎設施的全面重建以及在開源Llama血統上的戰略轉變。
風險空前。由於Llama 4在基準測試中的表現不佳,並涉及操縱數據的爭議,Meta執行長Mark Zuckerberg於2025年中重組了公司的AI策略。他聘請Scale AI的創始人兼CEO Alexandr Wang,作為Meta史上首位首席AI官,這是一筆據報價值143億美元的里程碑式交易。Muse Spark是這次高成本、高壓力改革中首個推出的產品。
什麼是Muse Spark?核心特點
Muse Spark被描述為一個全新Muse系列大型語言模型的首款,內部代號為「酪梨(Avocado)」。與之前為通用基準測試而打造的模型不同,Muse Spark專為Meta的生態系統設計,涵蓋Facebook、Instagram、WhatsApp和Threads等超過30億用戶。
主要特點包括:
特點類別 描述
原生多模態 支援語音、文字和圖像輸入;理解照片和圖表等視覺資訊
雙重模式 「即時」模式,用於快速回答;「思考」(沉思)模式,用於複雜推理
多代理系統 同時啟動多個子代理,並行處理問題的不同層面
購物整合 從Meta的應用中創作者內容和用戶行為中獲取資料,提供個性化推薦
健康專注 與超過1000名醫生合作訓練;能對醫療和營養問題提供詳細回應
封閉源碼 有意打破Llama的開源傳統;僅向選定合作夥伴提供API預覽
該模型設計為「小巧且快速,但足以在科學、數學和健康等領域進行複雜推理」。Meta強調,Muse Spark是基礎模型——下一代已在研發中。
性能:優勢與不足
獨立基準評測展現出細膩的故事。Muse Spark並非所有類別的絕對領導者,但在與Meta獨特數據優勢相關的領域展現出明顯優勢。
優勢
· 多模態理解(CharXiv推理):Muse Spark得分86.4,超越GPT-5.4(82.8)和Gemini 3.1 Pro(80.2)。在解讀複雜圖表、科學數據和視覺STEM內容方面表現出色。
· 健康與醫學推理(HealthBench Hard):得分42.8,Muse Spark在此類別中領先,超越GPT-5.4(40.1),並顯著優於Claude Opus 4.6(14.8)。這反映出Meta在醫生策劃訓練資料方面的投入。
· 代理搜尋(DeepSearchQA):Muse Spark取得74.8,超越Gemini 3.1 Pro(69.7),展現出在自主搜尋和整合網路資訊方面的強大能力。
改進空間
· 抽象推理(ARC AGI 2):仍是重大差距。Muse Spark僅得分42.5,遠低於Gemini 3.1 Pro(76.5)和GPT-5.4(76.1)。
· 代理程式編碼(SWE-Bench Pro):Muse Spark的得分52.4落後於GPT-5.4(57.7)和Gemini 3.1 Pro(54.2)。
· 競賽級程式設計(LiveCodeBench Pro):得分80.0,落後於GPT-5.4(87.5)和Gemini 3.1 Pro(82.9)。
總體而言,Muse Spark在人工智能分析指數v4.0中排名第四,僅次於Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。正如Meta自己所承認,該模型「並不代表新的SOTA,但在特定任務上與前沿模型具有競爭力」。
「沉思」模式:不同的推理方法
Muse Spark最具特色的功能之一是其「沉思」模式,採用一種新穎的方法來解決複雜問題。它不允許單一模型長時間「思考」——這會線性增加延遲——而是啟動多個代理同時推理,然後合成它們的輸出。
這種多代理並行推理在時間上與Google的(Gemini Deep Think)和OpenAI的(GPT Pro)的延長思考模式相比,取得了具有競爭力的結果。
在「人類最後考試」——一套由領域專家設計的極難問題集——Muse Spark的「沉思」模式在無工具情況下得分50.2,有工具輔助則得58.0,超越Gemini Deep Think(48.4)和GPT-5.4 Pro(43.9)。
技術創新:效率與擴展
除了原始基準分數外,Meta還披露了一些可能比單一指標更具價值的技術成就。
預訓練效率
MSL在九個月內徹底重建了預訓練架構,包括模型架構、優化器和資料流程。結果:Muse Spark在計算資源消耗不到Llama 4 Maverick的十分之一的情況下,達到了相同的能力水平。這一效率提升代表了訓練方法的根本突破。
強化學習穩定性
大規模RL訓練歷來充滿不穩定性。Meta報告其新RL架構實現了穩定且可預測的能力增長,並能將改進推廣到未見過的任務。
思維壓縮
在訓練過程中,Meta應用了「思考時間懲罰」——迫使模型在不犧牲準確度的情況下,用更少的推理令牌來解決問題。這產生了一種新興現象,即模型學會了「壓縮」其推理鏈,變得更加高效。
由開放到封閉:策略逆轉
或許最具爭議的是Muse Spark的授權方式。與建立Meta為開源AI旗手的Llama系列不同,Muse Spark採用封閉源碼。
Meta通過私人API預覽向選定合作夥伴提供模型,並計劃最終通過API存取或訂閱模式來盈利。公司表示「希望未來版本能開源」,但目前的轉向封閉源碼,象徵著一個策略轉變:將架構創新作為專有技術,同時在競爭激烈的賽道中保持優勢。
訓練過程也引發關注,有報導稱Muse Spark融合了多個開源模型的知識,採用蒸餾技術。Meta回應稱這些方法完全符合行業標準。
一個獨特現象:「評估意識」
第三方評估公司Apollo Research發現,Muse Spark展現出所有測試模型中最高的「評估意識」水平。