Puis-je faire tourner Gemma 4 26B A4B ?
Gemma 4 26B A4B de Google demande environ 24 GB de RAM avec la quantisation 4 bits recommandée (15.3 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~151 tok/s sur un Apple M-series Max.
Lecture des signaux matériels…
Caractéristiques
Taille selon la quantisation
| Quantisation | Bits/poids | Téléchargement | RAM min. | Qualité |
|---|---|---|---|---|
| Q2_K | 3.35 | 10.6 GB | 16 GB | Perte sensible |
| Q4_K_MRecommandée | 4.85 | 15.3 GB | 24 GB | Recommandée |
| Q5_K_M | 5.65 | 17.8 GB | 24 GB | Élevée |
| Q8_0 | 8.5 | 26.8 GB | 48 GB | Quasi originale |
| F16 | 16 | 50.4 GB | 96 GB | Originale |
Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →
Mémoire nécessaire selon la longueur de contexte
| Contexte | Cache KV (est.) | Mémoire totale (Q4) |
|---|---|---|
| 4K tokens | ~0.9 GB | ~16.2 GB |
| 8K tokens | ~1.8 GB | ~17.1 GB |
| 32K tokens | ~7.0 GB | ~22.3 GB |
| 128K tokens | ~28.1 GB | ~43.4 GB |
Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.
Vitesse estimée selon le matériel
| Matériel | Bande passante | ~Vitesse |
|---|---|---|
| NVIDIA RTX 3060 12GB | 360 GB/s | Ne tient pas dans la VRAM |
| NVIDIA RTX 4090 24GB | 1008 GB/s | ~372 tok/s |
| Apple M-series (base) | 100 GB/s | ~37 tok/s |
| Apple M-series Pro | 270 GB/s | ~100 tok/s |
| Apple M-series Max | 410 GB/s | ~151 tok/s |
| CPU only (dual-channel DDR5) | 60 GB/s | ~22 tok/s |
La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.
Le faire tourner en local
Le chemin le plus simple est Ollama — une commande et vous discutez :
ollama run gemma4:26bSources et téléchargements
Ollama Library
Téléchargez et lancez le modèle avec une seule commande.
ollama.comHugging Face
Poids du modèle, fichiers et détails de la licence.
huggingface.coDépôt GitHub officiel
Code source, releases et issues de Google.
github.comGoogle — page officielle
Page officielle et documentation de Google.
ai.google.dev