Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak dapat memuat Q8 Qwen Coder 3 yang terkuantisasi dan instance Kimi K2 di H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instance 8xB200? Mungkin, kami akan mencoba minggu ini.

LL0.92%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Bagikan
Komentar
0/400
HallucinationGrowervip
· 5jam yang lalu
Ngapain bikin yang begitu berlebihan
Lihat AsliBalas0
TerraNeverForgetvip
· 5jam yang lalu
Ini terlalu dapatkan likuidasi.
Lihat AsliBalas0
FadCatchervip
· 5jam yang lalu
Mengapa ruang cache kv ini sudah habis?
Lihat AsliBalas0
FloorSweepervip
· 6jam yang lalu
Kartu grafis tidak muat, mau ngapain?
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)