Wie viel RAM brauche ich für Gemma 4 E2B?

Rund 6 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 3.1 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Gemma 4 E2B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Gemma 4 E2B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Gemma 4 E2B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Gemma 4 E2B braucht rund 61 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 8 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Gemma 4 E2B lokal ausführen?

Gemma 4 E2B von Google benötigt bei der empfohlenen 4-Bit-Quantisierung rund 6 GB RAM (3.1 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~219 tok/s auf einem NVIDIA RTX 3060 12GB.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Gemma 4 E2B ist Googles kleines Mixture-of-Experts-Modell, und das Spannende steckt in der Rechnung: Es bringt insgesamt 5.1B Parameter mit, aktiviert aber nur rund 2.3B pro Token. Dadurch läuft es so schnell wie ein deutlich kleineres Modell, braucht aber trotzdem Speicher für das gesamte Gewicht. Eine 4-Bit-Quantisierung landet bei etwa 3.1 GB, und für die kompletten Gewichte solltest du mindestens rund 6 GB RAM einplanen. Das passt locker auf eine Einsteiger-GPU mit 8 GB oder jeden Apple-Silicon-Mac, und es beherrscht sowohl Chat als auch Vision – du kannst ihm also Bilder geben, nicht nur Text.

Im Alltag zahlt sich der Trick mit den aktiven Parametern beim reinen Durchsatz aus. Auf einer RTX 3060 12GB schafft es bei 4 Bit rund 219 Tokens pro Sekunde, eine RTX 4090 treibt das über 600; ein M-Series Max liegt bei etwa 250. Die Antworten strömen weit schneller, als du lesen kannst. Der Haken ist der 128K-Kontext: Füllst du ihn, klettert der Gesamtspeicher auf rund 16.8 GB – weit über die 6 GB, die du bei kurzem Kontext brauchst. Auf einer kleinen Karte solltest du den Arbeitskontext auf ein paar tausend Tokens begrenzen, sonst wächst der KV-Cache über das Modell selbst hinaus.

Innerhalb der eigenen Familie ist Gemma 3 4B die dichte Alternative, falls du dich nicht mit dem MoE-Speicherbedarf herumschlagen möchtest, und Qwen 3 4B hat beim mehrstufigen Reasoning meist die Nase vorn, da genau das sein erklärter Schwerpunkt ist. Die Stärke von Gemma 4 E2B ist das Verhältnis von Geschwindigkeit zu Fähigkeit plus natives Vision in einem so leichten Paket – das ist in dieser Größe selten. Es steht unter Apache 2.0, du kannst es also – anders als unter Googles älteren Gemma-Bedingungen – kommerziell in der Produktion einsetzen, ganz ohne spezielle Lizenz zum Durchlesen. Hol es dir mit ollama run gemma4:e2b und du bist startklar.

Technische Daten

Parameter5.1B (2.3B aktiv)

Kontextfenster128K Token

AnbieterGoogle

LizenzApache 2.0

Veröffentlicht2026-04

Am besten fürChat, Bilderkennung

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	2.1 GB	6 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	3.1 GB	6 GB	Empfohlen
Q5_K_M	5.65	3.6 GB	6 GB	Hoch
Q8_0	8.5	5.4 GB	12 GB	Nahezu Original
F16	16	10.2 GB	16 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~0.4 GB	~3.5 GB
8K Token	~0.9 GB	~4.0 GB
32K Token	~3.4 GB	~6.5 GB
128K Token	~13.7 GB	~16.8 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	~219 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~614 tok/s
Apple M-series (base)	100 GB/s	~61 tok/s
Apple M-series Pro	270 GB/s	~165 tok/s
Apple M-series Max	410 GB/s	~250 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~37 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run gemma4:e2b

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Offizielles GitHub-Repository

Quellcode, Releases und Issues von Google.