J'ai testé GPT, Claude, Gemini… les benchmarks mentent un peu

La prochaine fois que tu vois un tableau GPT vs Claude vs Gemini avec des scores sur 100 — tu peux l'ignorer. Pas parce que c'est faux. Parce que ça ne dit pas ce que tu veux savoir.

Le problème MMLU

MMLU c'est le benchmark le plus cité dans l'industrie. 57 domaines académiques, 16 000 questions à choix multiples. Le modèle répond, on compte les bonnes réponses.

Le truc c'est que tous les modèles frontier sont maintenant au-dessus de 88%. GPT-4o à 88,7%, les meilleurs en 2025-2026 frôlent les 93%. À ce niveau-là, la différence entre deux modèles n'est plus significative — il faudrait 500 exemples minimum pour commencer à distinguer les résultats de façon fiable. Les tableaux comparatifs qu'on voit en ligne ne montrent plus rien.

C'est pour ça que MMLU-Pro a été créé. 10 options de réponse au lieu de 4, focus sur le raisonnement plutôt que la mémorisation. Et là, les scores s'effondrent :

GPT-4o : 88,7% → 72,6%
Claude 3 Sonnet : 81,5% → 55,1%
Llama 3 70B : 82,0% → 56,2%

La différence entre Sonnet et GPT-4o passe de 7 à 17 points. Le vrai niveau commence à apparaître.

La mémorisation déguisée en intelligence

Personne ne sait exactement ce que les modèles ont vu pendant leur entraînement. Les questions MMLU circulent depuis 2021. Il y a de fortes chances que certains modèles aient vu ces questions — ou des questions très proches.

Le modèle ne raisonne pas, il reconnaît. Et ça donne des scores qui ne reflètent pas la capacité à généraliser.

La preuve : soumets ces modèles à des problèmes de maths d'Olympiade 2025 — questions qu'ils n'ont pas pu mémoriser. Les scores chutent en dessous de 5%. Des modèles à 90%+ sur MMLU échouent sur 95% de problèmes qu'ils n'ont jamais vus.

Un exemple concret : le droit

Des outils IA spécialisés pour avocats ont été testés sur des cas réels. Résultat : Lexis+ AI a halluciné 17% du temps. Westlaw monte à 34% d'hallucinations — en citant des documents réels qui ne contiennent pas ce qu'il prétend.

Ces outils ont probablement d'excellents scores sur leurs benchmarks de spécialité. En pratique, un avocat qui fait confiance à ces réponses sans vérifier se retrouve un tiers du temps avec une référence inventée.

Ce qui est réellement utile à savoir

La seule évaluation qui vaut quelque chose, c'est de tester un modèle sur tes propres données, pour ton propre usage.

Ce qu'on sait de façon solide : GPT-4o tient mieux sur le raisonnement en chaîne. Claude est plus cohérent sur les instructions longues et le contexte étendu. Gemini a l'avantage de l'intégration Google si tu travailles déjà dans cet écosystème. Mistral open-weight consomme 10 fois moins d'énergie pour des résultats comparables sur des tâches simples.

Mais ça, c'est à vérifier sur ce que toi tu veux en faire.

La prochaine fois que tu lis "Model X obtient 91,3% sur MMLU" — demande-toi juste : est-ce que ça ressemble à ce que je vais lui demander de faire ?

Presque jamais.