Pourquoi les grands modèles linguistiques apprennent mieux
Une étude menée par Anthropic, Stanford et d'autres institutions explique pourquoi les grands modèles linguistiques apprennent des tâches que les petits modèles échouent à maîtriser. Les modèles larges, comme OLMo, réussissent à ancrer des tâches rares (0,25% des données) une fois les tâches fréquentes maîtrisées.
« Only the larger OLMo models learn the rarely interspersed tasks reliably, as can be seen from the orange-colored fields at the bottom right of both tasks. » — The Decoder
Que faut-il retenir ?
- Les petits modèles entrent dans une boucle 'apprendre-et-oublier' pour les tâches rares.
- Les modèles larges (ex: 1 milliard de paramètres) maintiennent le signal des tâches rares entre les observations.
- Seuls les grands modèles OLMo (jusqu'à 4 milliards de paramètres) apprennent les règles derrière les tâches rares.
- L'étude a utilisé des tâches artificielles avec des fréquences variant de 1 000 instances par lot à une instance tous les dix lots.
Pourquoi cette nouvelle compte-t-elle ?
Cette étude remet en question l'approche classique de scalabilité des modèles linguistiques. Elle montre que l'augmentation de la fréquence des tâches rares dans les données peut être plus efficace que simplement agrandir les modèles. Cela impacte directement les stratégies d'entraînement en IA générative.
0,25% des données d'entraînement pour les tâches rares
Public concerné : développeurs, entreprises
Pourquoi les grands modèles linguistiques apprennent-ils mieux les tâches rares ?
Les grands modèles maîtrisent d'abord les tâches fréquentes, libérant ensuite de la capacité pour les tâches rares. Les petits modèles oublient les tâches rares entre les entraînements, selon l'étude d'Anthropic et Stanford.