Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

Gemma 4 : Le modèle multimodal open source de Google DeepMind

Gemma 4 : Le modèle multimodal open source de Google DeepMind

5 min de lecture · Hugging Face Blog · 01/04/2026 IA générative 9/10 Élevé
Gemma 4 : Le modèle multimodal open source de Google DeepMind

Google DeepMind lance Gemma 4, une famille de modèles multimodaux open source disponibles sur Hugging Face. Ces modèles supportent texte, image et audio, avec des tailles adaptées à l'utilisation sur appareils.

Que faut-il retenir ?

  • Gemma 4 supporte les entrées texte, image et audio, avec des améliorations spécifiques pour l'encodage d'images.
  • Le modèle Gemma 4 E2B a 2.3B de paramètres effectifs et une fenêtre de contexte de 128k.
  • Le modèle Gemma 4 31B atteint un score LMArena estimé de 1452 pour le texte.
  • Gemma 4 utilise des architectures innovantes comme les Per-Layer Embeddings et le Shared KV Cache.

Pourquoi cette nouvelle compte-t-elle ?

Gemma 4 représente une avancée significative dans les modèles multimodaux, offrant des performances élevées et une compatibilité étendue. Les professionnels peuvent l'utiliser pour des applications variées, de la génération de texte à l'analyse d'images et d'audio, avec une efficacité optimisée pour les appareils.

Public concerné : développeurs, entreprises

Quelles sont les principales caractéristiques de Gemma 4 ?

Gemma 4 supporte les entrées texte, image et audio, avec des améliorations spécifiques pour l'encodage d'images et des architectures innovantes comme les Per-Layer Embeddings et le Shared KV Cache.

Commentaires (0)

💡 Aucun lien externe ni code HTML accepté. Soyez respectueux. Les commentaires sont modérés avant publication.

Aucun commentaire pour le moment. Soyez le premier !

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !