Gemma 4 : Le modèle multimodal open source de Google DeepMind

5 min de lecture · Hugging Face Blog · 1 avr. 2026 IA générative 9/10 Élevé

Google DeepMind lance Gemma 4, une famille de modèles multimodaux open source disponibles sur Hugging Face. Ces modèles supportent texte, image et audio, avec des tailles adaptées à l'utilisation sur appareils.

Que faut-il retenir ?

Gemma 4 supporte les entrées texte, image et audio, avec des améliorations spécifiques pour l'encodage d'images.
Le modèle Gemma 4 E2B a 2.3B de paramètres effectifs et une fenêtre de contexte de 128k.
Le modèle Gemma 4 31B atteint un score LMArena estimé de 1452 pour le texte.
Gemma 4 utilise des architectures innovantes comme les Per-Layer Embeddings et le Shared KV Cache.

Pourquoi cette nouvelle compte-t-elle ?

Gemma 4 représente une avancée significative dans les modèles multimodaux, offrant des performances élevées et une compatibilité étendue. Les professionnels peuvent l'utiliser pour des applications variées, de la génération de texte à l'analyse d'images et d'audio, avec une efficacité optimisée pour les appareils.

Public concerné : développeurs, entreprises

Quelles sont les principales caractéristiques de Gemma 4 ?

Gemma 4 supporte les entrées texte, image et audio, avec des améliorations spécifiques pour l'encodage d'images et des architectures innovantes comme les Per-Layer Embeddings et le Shared KV Cache.

Voir l'article original → Lire en français

🔧 Outils mentionnés

Mistral

← Retour aux actualités

Accueil

Outils

Annuaire

Apprendre