Então agora onde isso fará sentido para inferência, mal conseguimos encaixar instâncias Kimi K2 e Qwen Coder 3 quantizadas Q8 nos nossos H200s. Kimi K2 @ Q8 não deixou espaço para um cache kv para o contexto. Será que esses modelos caberiam em uma única instância 8xB200? Provavelmente, vamos tentar esta semana.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
9 gostos
Recompensa
9
4
Partilhar
Comentar
0/400
HallucinationGrower
· 3h atrás
Para que fazer algo tão extravagante?
Ver originalResponder0
TerraNeverForget
· 3h atrás
Isso está muito ser liquidado.
Ver originalResponder0
FadCatcher
· 3h atrás
Como é que este espaço de cache kv se esgotou?
Ver originalResponder0
FloorSweeper
· 4h atrás
As placas de vídeo não cabem, o que está a acontecer?
Então agora onde isso fará sentido para inferência, mal conseguimos encaixar instâncias Kimi K2 e Qwen Coder 3 quantizadas Q8 nos nossos H200s. Kimi K2 @ Q8 não deixou espaço para um cache kv para o contexto. Será que esses modelos caberiam em uma única instância 8xB200? Provavelmente, vamos tentar esta semana.