SOOHAK : Les limites des modèles d'IA en mathématiques révélées
SOOHAK, un nouveau benchmark créé par 64 mathématiciens, évalue les modèles d'IA sur des problèmes de niveau recherche et leur capacité à identifier les tâches insolubles. Les résultats montrent que même les meilleurs modèles, comme Gemini 3 Pro, ont des scores faibles sur les problèmes complexes.
« No model clears the 50 percent mark here. » — The Decoder
Que faut-il retenir ?
- SOOHAK comprend 439 tâches originales, dont 340 problèmes de niveau recherche et 99 problèmes intentionnellement erronés.
- Gemini 3 Pro a obtenu le score le plus élevé sur les problèmes complexes avec 30%, suivi de GPT-5 à 26%.
- Aucun modèle n'a pu résoudre 124 des problèmes complexes du benchmark.
- Les modèles open-weight comme Kimi-2.5 et Qwen3-235B ont des scores inférieurs à 15% sur les problèmes complexes.
Pourquoi cette nouvelle compte-t-elle ?
Ce benchmark met en lumière les limites actuelles des modèles d'IA en mathématiques, notamment leur incapacité à gérer des problèmes de niveau recherche et à identifier les tâches insolubles. Cela souligne la nécessité de développer de nouvelles méthodes pour améliorer ces modèles, ce qui pourrait avoir un impact significatif sur les applications pratiques de l'IA dans divers domaines.
30% de réussite pour Gemini 3 Pro sur les problèmes complexes
Public concerné : développeurs, entreprises
Quels sont les principaux enseignements du benchmark SOOHAK ?
SOOHAK révèle que les modèles d'IA ont des difficultés à résoudre des problèmes de niveau recherche et à identifier les tâches insolubles, avec des scores souvent inférieurs à 50% sur ces défis.
Commentaires (0)
💡 Aucun lien externe ni code HTML accepté. Soyez respectueux. Les commentaires sont modérés avant publication.
Aucun commentaire pour le moment. Soyez le premier !