Google publie Gemini 3.1 Pro, avec un score de raisonnement ARC-AGI-2 doublé par rapport à la génération précédente, atteignant 77,1 %, remportant 13 des 16 benchmarks, tout en maintenant le prix API inchangé. La course à l’armement IA accélère la réduction du cycle de vie de chaque nouvelle génération de modèles.
(Précédent : Gemini lance gratuitement la fonction « SAT simulé », un tuteur IA offrant des guides d’apprentissage personnalisés)
(Contexte supplémentaire : Google lance officiellement « Gemini 3 » ! En tête des IA les plus intelligentes au monde, quels sont ses points forts ?)
Sommaire
La nuit du 19 (hier), Google a officiellement publié la version préliminaire de Gemini 3.1 Pro. Sur ARC-AGI-2 (évaluation de la capacité logique du modèle à résoudre de nouveaux problèmes), la 3.1 Pro a atteint 77,1 %, plus du double de Gemini 3 Pro précédent.
Dans le graphique ci-dessous, parmi les 16 benchmarks évalués par Google, la 3.1 Pro a décroché la première place dans 13 d’entre eux.
D’autres scores clés sont également remarquables : GPQA Diamond (connaissances scientifiques expertes) 94,3 %, SWE-Bench Verified (auto-correction de code) 80,6 %, Humanity’s Last Exam 44,4 %, MMMLU 92,6 %.
Sur MCP Atlas (évaluation des workflows utilisant des outils à plusieurs étapes), la 3.1 Pro atteint 69,2 %, devançant Claude et GPT-5.2 d’environ 10 points de pourcentage.
La nouvelle fonctionnalité stratégique de Gemini 3.1 Pro est le système de niveaux de réflexion à trois degrés (thinking level). Les développeurs peuvent basculer entre low, medium et high pour le « budget de raisonnement » du modèle : utiliser le niveau faible pour économiser en latence et coûts lors d’appels API simples, passer au niveau élevé pour des débogages complexes.
Lorsque réglé sur high, le comportement de la 3.1 Pro se rapproche de la version mini du modèle de raisonnement dédié de Google, Gemini Deep Think. VentureBeat décrit cela comme un « Deep Think Mini activé à la demande ».
Sur BrowseComp (évaluation de la capacité autonome de recherche web de l’IA), la score de la 3.1 Pro est passé de 59,2 % à 85,9 %. Un agent IA capable de rechercher des informations en ligne, d’accomplir des tâches en plusieurs étapes, avec une précision de raisonnement nettement améliorée, voilà la direction que privilégie toute l’industrie IA.
Le prix API reste à 2 dollars par million de tokens d’entrée et 12 dollars par million de tokens de sortie, identique à Gemini 3 Pro. En termes de coûts, la Gemini 3.1 Pro coûte 60 % de moins que Claude Opus 4.6 pour l’entrée, 52 % pour la sortie.
Performance doublée sans augmentation de prix, Google mise sur une stratégie de « rapport qualité-prix » pour conquérir le marché des développeurs.
La fenêtre contextuelle reste à 1 million de tokens (cinq fois celle de Claude, 2,5 fois celle de GPT-5), la limite de sortie passe de 65 000 tokens à 100 000 tokens, la limite d’upload API de 20 Mo à 100 Mo, avec même la possibilité d’envoyer directement une URL YouTube pour que le modèle « regarde » la vidéo.
Derrière cette stratégie sans hausse de prix, Google exploite aussi ses avantages structurels liés à ses propres puces TPU et à l’infrastructure cloud. Google montre par l’action que, dans la course à l’armement IA, posséder ses propres puces est la plus grande barrière à l’entrée.
Bien sûr, Gemini 3.1 Pro n’est pas en tête dans tous les domaines.
Claude Sonnet 4.6 (mode Thinking Max) égalise Gemini 3.1 Pro sur la mémoire à long terme (MRCR v2), mais devance largement (1633 contre 1317) sur la tâche d’évaluation experte GDPval-AA Elo.
OpenAI GPT-5.3-Codex domine à 77,3 % sur la tâche de programmation terminale (Terminal-Bench 2.0), contre 68,5 % pour la 3.1 Pro. Le taux de hallucinations de la série Claude (environ 3 %) est aussi nettement inférieur à celui de Gemini et GPT (en moyenne 6 %).
Le paysage de la course à l’IA en 2026 : Google en tête sur le raisonnement et les tâches d’agent, Anthropic en avance sur la précision et la sécurité, OpenAI conservant une longueur d’avance en génération de code et écosystème. Pas de gagnant unique, mais un « chamboulement tous les trois mois ».
La course à l’armement IA ne s’arrêtera pas. La seule question est : à qui profiteront finalement ces gains — aux développeurs, aux plateformes ou à ceux qui paient le plus ?
La réponse de Google aujourd’hui : rendre l’IA accessible aux développeurs d’abord, puis parler des autres. Cette stratégie a déjà fonctionné dans l’ère du cloud computing. Reste à voir si elle fonctionnera encore cette fois, en fonction de la capacité de l’IA à générer une valeur réelle pour les entreprises, et pas seulement à atteindre de nouveaux scores de référence.