Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak dapat memuat Q8 Qwen Coder 3 yang terkuantisasi dan instance Kimi K2 di H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instance 8xB200? Mungkin, kami akan mencoba minggu ini.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak dapat memuat Q8 Qwen Coder 3 yang terkuantisasi dan instance Kimi K2 di H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instance 8xB200? Mungkin, kami akan mencoba minggu ini.