Puis-je faire tourner Gemma 4 E2B ?
Gemma 4 E2B de Google demande environ 6 GB de RAM avec la quantisation 4 bits recommandée (3.1 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~219 tok/s sur un NVIDIA RTX 3060 12GB.
Lecture des signaux matériels…
Caractéristiques
Taille selon la quantisation
| Quantisation | Bits/poids | Téléchargement | RAM min. | Qualité |
|---|---|---|---|---|
| Q2_K | 3.35 | 2.1 GB | 6 GB | Perte sensible |
| Q4_K_MRecommandée | 4.85 | 3.1 GB | 6 GB | Recommandée |
| Q5_K_M | 5.65 | 3.6 GB | 6 GB | Élevée |
| Q8_0 | 8.5 | 5.4 GB | 12 GB | Quasi originale |
| F16 | 16 | 10.2 GB | 16 GB | Originale |
Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →
Mémoire nécessaire selon la longueur de contexte
| Contexte | Cache KV (est.) | Mémoire totale (Q4) |
|---|---|---|
| 4K tokens | ~0.4 GB | ~3.5 GB |
| 8K tokens | ~0.9 GB | ~4.0 GB |
| 32K tokens | ~3.4 GB | ~6.5 GB |
| 128K tokens | ~13.7 GB | ~16.8 GB |
Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.
Vitesse estimée selon le matériel
| Matériel | Bande passante | ~Vitesse |
|---|---|---|
| NVIDIA RTX 3060 12GB | 360 GB/s | ~219 tok/s |
| NVIDIA RTX 4090 24GB | 1008 GB/s | ~614 tok/s |
| Apple M-series (base) | 100 GB/s | ~61 tok/s |
| Apple M-series Pro | 270 GB/s | ~165 tok/s |
| Apple M-series Max | 410 GB/s | ~250 tok/s |
| CPU only (dual-channel DDR5) | 60 GB/s | ~37 tok/s |
La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.
Le faire tourner en local
Le chemin le plus simple est Ollama — une commande et vous discutez :
ollama run gemma4:e2bSources et téléchargements
Ollama Library
Téléchargez et lancez le modèle avec une seule commande.
ollama.comHugging Face
Poids du modèle, fichiers et détails de la licence.
huggingface.coDépôt GitHub officiel
Code source, releases et issues de Google.
github.comGoogle — page officielle
Page officielle et documentation de Google.
ai.google.dev