Nous sommes ravis de partager les résultats de notre collaboration avec SGLang. 🎉
Ensemble, nous avons optimisé l'inférence DeepSeek R1 pour le déploiement sur GB200 NVL72—offrant une augmentation de 2x et 3x par GPU par rapport aux clusters H100 presque deux fois plus grands.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
6
Partager
Commentaire
0/400
WhaleWatcher
· Il y a 21h
Les performances ont encore doublé, c'est incroyable !
Voir l'originalRépondre0
Rugpull幸存者
· Il y a 21h
Encore sur les performances, n'est-ce pas ?
Voir l'originalRépondre0
OnChainDetective
· Il y a 21h
hmm j'ai tracé ces métriques GPU... quelque chose ne s'additionne pas ici
Nous sommes ravis de partager les résultats de notre collaboration avec SGLang. 🎉
Ensemble, nous avons optimisé l'inférence DeepSeek R1 pour le déploiement sur GB200 NVL72—offrant une augmentation de 2x et 3x par GPU par rapport aux clusters H100 presque deux fois plus grands.
C'est à quoi ressemble l'inférence MoE de pointe.