Combien de RAM faut-il pour faire tourner Gemma 4 26B A4B ?

Environ 24 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 15.3 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Gemma 4 26B A4B peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de Gemma 4 26B A4B télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de Gemma 4 26B A4B sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Gemma 4 26B A4B requiert environ 302 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 38 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner Gemma 4 26B A4B ?

Gemma 4 26B A4B de Google demande environ 24 GB de RAM avec la quantisation 4 bits recommandée (15.3 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~151 tok/s sur un Apple M-series Max.

Lecture des signaux matériels…

Notes pratiques

Gemma 4 26B A4B est la proposition mixture-of-experts de Google, et toute l'astuce tient dans le nom : le modèle compte 25.2B de paramètres au total mais n'en active que 3.8B par token. Autrement dit, il génère à la vitesse d'un petit modèle tout en réclamant la mémoire de l'ensemble. En quantification 4 bits, il pèse environ 15.3 GB, et il faut au moins 24 GB de RAM pour le charger confortablement. Cela exclut une carte de 12 GB comme la RTX 3060, où il ne tient tout simplement pas, et vous oriente vers un GPU de 24 GB ou une machine Apple Silicon dotée d'une mémoire unifiée généreuse.

À l'usage quotidien, l'architecture MoE paie. Sur une RTX 4090, il tourne à environ 372 tokens par seconde, bien au-delà du point où le flux défile plus vite que vous ne lisez, et un M-series Max tient encore autour de 151 tok/s. En CPU seul sur DDR5, on retombe à environ 22 tok/s, utilisable pour du traitement par lots mais pas pour du chat interactif. La fenêtre de contexte est généreuse, à 256K, mais voyez-la comme un plafond : à 128K de contexte, l'empreinte mémoire totale grimpe à environ 43.4 GB ; sur une configuration de 24 GB, gardez donc un contexte de travail modeste, à moins de passer à la version q2 de 10.6 GB.

Face à Mistral Small 3.1 24B, un modèle de vision dense de taille comparable, Gemma 4 paraît globalement plus rapide par token grâce au routage parcimonieux, même si les modèles denses de cette catégorie peuvent garder l'avantage sur le raisonnement le plus exigeant en un seul passage. Son atout marquant, c'est ce rapport vitesse/capacité, doublé d'un vrai support de la vision et du code dans un seul package. La licence est Apache 2.0 : vous pouvez l'utiliser commercialement et en production sans restrictions propres au fournisseur, ce qui est rare à cette taille et joue clairement en sa faveur. Récupérez-le avec ollama sous le nom gemma4:26b.

Caractéristiques

Paramètres25.2B (3.8B actifs)

Fenêtre de contexte256K tokens

ÉditeurGoogle

LicenceApache 2.0

Sortie2026-04

Idéal pourChat, Code, Raisonnement, Vision

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	10.6 GB	16 GB	Perte sensible
Q4_K_MRecommandée	4.85	15.3 GB	24 GB	Recommandée
Q5_K_M	5.65	17.8 GB	24 GB	Élevée
Q8_0	8.5	26.8 GB	48 GB	Quasi originale
F16	16	50.4 GB	96 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~0.9 GB	~16.2 GB
8K tokens	~1.8 GB	~17.1 GB
32K tokens	~7.0 GB	~22.3 GB
128K tokens	~28.1 GB	~43.4 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	Ne tient pas dans la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~372 tok/s
Apple M-series (base)	100 GB/s	~37 tok/s
Apple M-series Pro	270 GB/s	~100 tok/s
Apple M-series Max	410 GB/s	~151 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~22 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run gemma4:26b

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

Dépôt GitHub officiel

Code source, releases et issues de Google.