所以現在推斷的意義就在於,我們幾乎無法將量化的 Q8 Qwen Coder 3 和 Kimi K2 實例放在我們的 H200 上。Kimi K2 @ Q8 完全沒有爲上下文留出 kv 緩存的空間。這些模型能否適應單個 8xB200 實例?可能,我們這周會嘗試。

LL0.35%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 4
  • 分享
留言
0/400
幻觉丛生vip
· 6小時前
搞这么花里胡哨的干啥
回復0
TerraNeverForgetvip
· 6小時前
这太撑爆了吧
回復0
FadCatchervip
· 6小時前
这kv缓存空间咋用完了
回復0
Floor_Sweepervip
· 7小時前
显卡都塞不下 搞啥呀
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)