SOOHAK : Les limites des modèles d'IA en mathématiques révélées

5 min de lecture · The Decoder · Jonathan Kemper · 17 mai 2026 IA générative 9/10 Élevé

SOOHAK, un nouveau benchmark créé par 64 mathématiciens, évalue les modèles d'IA sur des problèmes de niveau recherche et leur capacité à identifier les tâches insolubles. Les résultats montrent que même les meilleurs modèles, comme Gemini 3 Pro, ont des scores faibles sur les problèmes complexes.

« No model clears the 50 percent mark here. » — The Decoder

Que faut-il retenir ?

SOOHAK comprend 439 tâches originales, dont 340 problèmes de niveau recherche et 99 problèmes intentionnellement erronés.
Gemini 3 Pro a obtenu le score le plus élevé sur les problèmes complexes avec 30%, suivi de GPT-5 à 26%.
Aucun modèle n'a pu résoudre 124 des problèmes complexes du benchmark.
Les modèles open-weight comme Kimi-2.5 et Qwen3-235B ont des scores inférieurs à 15% sur les problèmes complexes.

Pourquoi cette nouvelle compte-t-elle ?

Ce benchmark met en lumière les limites actuelles des modèles d'IA en mathématiques, notamment leur incapacité à gérer des problèmes de niveau recherche et à identifier les tâches insolubles. Cela souligne la nécessité de développer de nouvelles méthodes pour améliorer ces modèles, ce qui pourrait avoir un impact significatif sur les applications pratiques de l'IA dans divers domaines.

30% de réussite pour Gemini 3 Pro sur les problèmes complexes

Public concerné : développeurs, entreprises

Quels sont les principaux enseignements du benchmark SOOHAK ?

SOOHAK révèle que les modèles d'IA ont des difficultés à résoudre des problèmes de niveau recherche et à identifier les tâches insolubles, avec des scores souvent inférieurs à 50% sur ces défis.

Voir l'article original → Lire en français

🔧 Outils mentionnés

Claude Gemini

← Retour aux actualités

Accueil

Outils

Annuaire

Apprendre