Il y a des moments dans la tech où un chiffre suffit à tout résumer. 77,1 %. C’est le score que vient d’obtenir Gemini 3.1 Pro de Google sur ARC-AGI 2, le benchmark de référence pour évaluer la capacité d’un modèle à résoudre des problèmes logiques inédits. Des problèmes qu’il n’a jamais rencontrés pendant son entraînement. Des problèmes conçus précisément pour déjouer la simple mémorisation.
Pour comprendre ce que ce score représente vraiment, il faut le mettre en face de ses concurrents directs. Claude Opus 4.6, le dernier modèle d’Anthropic, plafonne à 68,8 %. ChatGPT 5.2 d’OpenAI stagne à 52,9 %. Et Gemini 3 Pro lui-même, sorti trois mois plus tôt, ne dépassait pas 31,1 %. En un trimestre, Google a plus que doublé les capacités de raisonnement de son modèle phare. Ce n’est pas une évolution. C’est une rupture.
Ce que cache vraiment le passage à la version 3.1
À première vue, un incrément de 0.1 ne semble pas impressionnant. Dans l’industrie logicielle classique, c’est souvent synonyme de correctifs mineurs, de stabilité améliorée, rien de révolutionnaire. Mais Google a rompu avec ses propres habitudes ici. Habituellement, les mises à jour se font par paliers de 0,5 ou d’une version entière, avec des cycles de développement espacés.
Le fait de publier une version intermédiaire aussi rapidement après Gemini 3 Pro n’est pas un hasard. C’est un signal stratégique fort, une réponse directe à l’intensification de la guerre entre laboratoires d’intelligence artificielle. La semaine précédant ce lancement, Google avait déjà mis à jour Gemini 3 Deep Think, son modèle de raisonnement avancé, celui-là même qui avait réalisé des découvertes significatives en médecine. Et c’est précisément cette intelligence améliorée de Deep Think qui a été injectée dans 3.1 Pro.
Google l’a formulé clairement dans son annonce officielle : “Nous publions aujourd’hui l’intelligence de base améliorée qui rend ces percées possibles.” Traduction concrète : les avancées autrefois réservées au modèle de recherche sont maintenant accessibles au grand public, dans le modèle que vous pouvez utiliser au quotidien dès aujourd’hui.
Des performances qui redéfinissent les standards
Un raisonnement profondément amélioré
Le premier changement majeur concerne la gestion des thinking tokens, ces étapes de réflexion interne que le modèle effectue avant de produire une réponse. L’équipe de Google l’a résumé en trois mots : plus fort, plus rapide, plus efficace. Ce n’est pas du marketing. Sur SWE-bench, le benchmark qui évalue la capacité à résoudre de vrais problèmes de code dans des conditions réelles, Gemini 3.1 Pro atteint 81,6 %.
Sur le GPQA Diamond, qui teste des connaissances scientifiques de niveau doctoral en chimie, physique et biologie, il grimpe à 94,3 %. Ces chiffres placent le modèle dans une catégorie à part. Pour un développeur ou un chercheur, cela signifie des résultats corrects au premier essai, moins d’itérations, moins de tokens consommés, donc des coûts réduits et un flux de travail plus rapide.
La génération de SVG animé, une surprise inattendue
La capacité qui a vraiment électrisé la communauté tech ne vient pas des benchmarks académiques. Elle vient d’une fonctionnalité que peu anticipaient : la génération native de SVG animé. Un SVG animé, c’est une image vectorielle qui bouge, entièrement construite avec du code. Contrairement à une vidéo, elle reste parfaitement nette quelle que soit la résolution d’affichage, et le fichier pèse une fraction du poids d’une animation équivalente.
Gemini 3.1 Pro peut désormais générer ces animations directement à partir d’une simple description textuelle. John Duff, responsable de Gemini chez Google, a partagé des démonstrations sur X : un pélican faisant du vélo, une grenouille sur un grand lit, une girafe au volant d’une mini voiture. Le niveau de détail et de fluidité a stupéfié les observateurs. Pour le web design, la communication digitale ou la création de contenu éducatif, les implications sont immenses. On peut désormais créer des visuels animés légers, scalables et professionnels sans maîtriser After Effects ni payer un motion designer.
Le coup de maître sur le terrain des prix
Un rapport performance-prix sans précédent
C’est peut-être là que se joue la vraie bataille stratégique. Gemini 3.1 Pro est disponible au même tarif que son prédécesseur : 2 dollars par million de tokens en entrée, 12 dollars en sortie. Pendant ce temps, Claude Opus 4.6 facture 5 dollars en entrée et 25 dollars en sortie. ChatGPT 5.2 propose 1,75 dollar en entrée mais remonte à 14 dollars en sortie.
Selon Artificial Analysis, organisme indépendant d’évaluation reconnu dans le secteur, Gemini 3.1 Pro occupe désormais la première place de leur index d’intelligence globale, tout en coûtant environ deux fois moins cher que ses concurrents les plus performants. C’est un positionnement qui force OpenAI et Anthropic à reconsidérer leur stratégie tarifaire. La pression ne vient plus seulement des capacités techniques, elle vient aussi du portefeuille.
Une disponibilité déployée sur tous les fronts
Google a également misé sur une distribution massive et immédiate. Voici où Gemini 3.1 Pro est accessible dès maintenant :
- Application Gemini pour les abonnés Google AI Pro et Ultra
- Notebook LM, l’outil d’analyse de documents
- AI Studio pour les développeurs qui souhaitent tester et intégrer le modèle
- Vertex AI pour les déploiements en entreprise
- Gemini CLI pour les utilisateurs en ligne de commande
- Android Studio pour le développement mobile
- GitHub Copilot, l’intégration qui a particulièrement retenu l’attention
Cette dernière intégration mérite une attention particulière. Les premiers retours de développeurs indiquent que le modèle excelle dans les boucles d’édition et de test, qu’il utilise les outils avec plus de précision et qu’il résout les problèmes complexes avec moins d’appels d’outils que ses concurrents. Moins d’appels, c’est un workflow plus fluide, une latence réduite et une facture API allégée. Pour les équipes qui codent en continu, ce détail change tout.
Ce que Gemini 3.1 Pro ne fait pas mieux que tout le monde
Rester honnête sur les limites
Un article sérieux se doit de ne pas céder à l’enthousiasme aveugle. Gemini 3.1 Pro est exceptionnel sur certains axes, mais il ne domine pas absolument toutes les dimensions.
Sur Chatbot Arena, la plateforme où des milliers d’utilisateurs votent pour leur modèle préféré en évaluation aveugle, Claude Opus 4.6 reste devant en qualité d’écriture et en code. Les évaluations conduites par des experts humains sur des tâches très spécialisées donnent également l’avantage à Claude. Et sur les benchmarks de codage ultra-spécialisé comme Terminal Bench 2.0, c’est ChatGPT 5.3 Codex qui mène avec 77,3 % contre 68,5 % pour Gemini.
Il faut aussi noter que le modèle est encore en preview, pas en disponibilité générale. Certains utilisateurs ont rapporté des temps de réponse très longs au lancement, parfois supérieurs à une minute et demie pour une simple requête. Ce sont des problèmes classiques de montée en charge au moment d’un déploiement massif, mais ils méritent d’être mentionnés pour contextualiser l’expérience réelle des premiers utilisateurs.
Ce que ce lancement dit de l’état de la course à l’IA
Trois mois pour doubler. C’est le nouveau rythme.
Ce qui est peut-être le plus vertigineux dans cette actualité, ce n’est pas le chiffre en lui-même. C’est la vitesse à laquelle il a été atteint. En trois mois, Google a multiplié par plus de deux les capacités de raisonnement de son modèle, sans augmenter le prix, tout en élargissant sa distribution à pratiquement toutes les plateformes de développement existantes.
La fenêtre de contexte reste à 1 million de tokens, ce qui permet d’analyser des bases de code entières ou des archives documentaires volumineuses en une seule requête. Le modèle gère nativement le texte, les images, l’audio et la vidéo. Ce multimodal natif est désormais le standard minimum de l’industrie, pas une fonctionnalité premium.
On ne parle plus d’évolution incrémentale. On est entré dans une phase d’accélération compétitive où chaque laboratoire pousse les autres à aller plus vite, plus loin et moins cher. OpenAI répond, Anthropic contre-attaque, Google relance. C’est ce cycle, répété en quelques semaines à peine, qui explique pourquoi les modèles disponibles aujourd’hui sont fondamentalement plus capables que ceux d’il y a six mois. Et pour les utilisateurs, c’est une excellente nouvelle.
FAQ — Gemini 3.1 Pro et IA avancée
Gemini 3.1 Pro est-il vraiment meilleur que ChatGPT et Claude sur tous les benchmarks ?
Non. Il domine nettement sur ARC-AGI 2 et sur plusieurs benchmarks de raisonnement et de science, mais Claude Opus 4.6 reste en tête sur les évaluations humaines en écriture et en code, et ChatGPT 5.3 Codex devance Gemini sur certains tests de programmation spécialisée.
Comment accéder à Gemini 3.1 Pro sans être développeur ?
Le modèle est disponible directement dans l’application Gemini pour les abonnés Google AI Pro ou Ultra. Notebook LM y donne également accès pour l’analyse de documents, sans nécessiter de compétences techniques particulières.
Pourquoi le score ARC-AGI 2 est-il considéré comme important ?
Parce qu’il mesure la capacité à raisonner sur des problèmes inédits, jamais vus pendant l’entraînement. C’est un indicateur de flexibilité intellectuelle réelle, pas de simple mémorisation. Un score élevé suggère une capacité de généralisation plus proche du raisonnement humain.
La génération de SVG animé est-elle accessible aux non-développeurs ?
Oui. Il suffit de décrire en langage naturel l’animation souhaitée. Le modèle génère le code SVG correspondant, que l’on peut intégrer directement dans un site web ou utiliser dans un outil graphique compatible.