Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

SOOHAK : Les limites des modèles d'IA en mathématiques révélées

  • Accueil
  • Actualités
  • SOOHAK : Les limites des modèles d'IA en mathématiques révélées

SOOHAK : Les limites des modèles d'IA en mathématiques révélées

5 min de lecture · The Decoder · Jonathan Kemper · 17/05/2026 IA générative 9/10 Élevé
SOOHAK : Les limites des modèles d'IA en mathématiques révélées

SOOHAK, un nouveau benchmark créé par 64 mathématiciens, évalue les modèles d'IA sur des problèmes de niveau recherche et leur capacité à identifier les tâches insolubles. Les résultats montrent que même les meilleurs modèles, comme Gemini 3 Pro, ont des scores faibles sur les problèmes complexes.

« No model clears the 50 percent mark here. » — The Decoder

Que faut-il retenir ?

  • SOOHAK comprend 439 tâches originales, dont 340 problèmes de niveau recherche et 99 problèmes intentionnellement erronés.
  • Gemini 3 Pro a obtenu le score le plus élevé sur les problèmes complexes avec 30%, suivi de GPT-5 à 26%.
  • Aucun modèle n'a pu résoudre 124 des problèmes complexes du benchmark.
  • Les modèles open-weight comme Kimi-2.5 et Qwen3-235B ont des scores inférieurs à 15% sur les problèmes complexes.

Pourquoi cette nouvelle compte-t-elle ?

Ce benchmark met en lumière les limites actuelles des modèles d'IA en mathématiques, notamment leur incapacité à gérer des problèmes de niveau recherche et à identifier les tâches insolubles. Cela souligne la nécessité de développer de nouvelles méthodes pour améliorer ces modèles, ce qui pourrait avoir un impact significatif sur les applications pratiques de l'IA dans divers domaines.

30% de réussite pour Gemini 3 Pro sur les problèmes complexes

Public concerné : développeurs, entreprises

Quels sont les principaux enseignements du benchmark SOOHAK ?

SOOHAK révèle que les modèles d'IA ont des difficultés à résoudre des problèmes de niveau recherche et à identifier les tâches insolubles, avec des scores souvent inférieurs à 50% sur ces défis.

Commentaires (0)

💡 Aucun lien externe ni code HTML accepté. Soyez respectueux. Les commentaires sont modérés avant publication.

Aucun commentaire pour le moment. Soyez le premier !

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !