Wie viel RAM brauche ich für Gemma 4 E4B?

Rund 8 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 4.9 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Gemma 4 E4B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Gemma 4 E4B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Gemma 4 E4B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Gemma 4 E4B braucht rund 96 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 12 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Gemma 4 E4B lokal ausführen?

Gemma 4 E4B von Google benötigt bei der empfohlenen 4-Bit-Quantisierung rund 8 GB RAM (4.9 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~112 tok/s auf einem NVIDIA RTX 3060 12GB.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Gemma 4 E4B ist Googles kleines Mixture-of-Experts-Modell und eine gute Wahl, wenn du einen lokalen Assistenten willst, der zusätzlich Bilder liest. Der Clou bei einem MoE: Pro Token feuern nur rund 4.5B der 8B Parameter, sodass es mit dem Tempo eines deutlich kleineren Modells läuft, du aber trotzdem Platz für das komplette Modell im Speicher brauchst. In 4-Bit landet es bei etwa 4.9 GB und passt damit locker auf eine 12-GB-Karte wie die RTX 3060 und fügt sich ebenso problemlos in den Unified Memory eines 8-GB-Macs mit Apple Silicon ein. Plane den vollen Speicherbedarf ein, nicht nur den aktiven Anteil.

Im Alltag fühlt es sich flott an. Auf einer RTX 3060 kannst du in 4-Bit mit rund 112 Tokens pro Sekunde rechnen, und eine High-End-Karte wie die RTX 4090 drückt das auf über 300 tok/s, schneller als du je lesen kannst. Auf Apple Silicon liegt ein M-Max bei etwa 128 tok/s, und selbst die CPU auf DDR5 schafft grob 19 tok/s, wenn du etwas Geduld mitbringst. Das 128K-Kontextfenster ist real, aber teuer: Füllst du es ganz, klettert der Gesamtspeicher auf etwa 21.7 GB, also weit über das, was die Gewichte allein vermuten lassen. Halte den Arbeitskontext auf kleinerer Hardware bei ein paar Tausend Tokens, dann bleibst du im grünen Bereich.

Gegenüber Gemma 3 4B, dem leichteren Geschwistermodell der Familie, liefert E4B in der Regel die bessere Ausgabe bei ähnlich kleinem aktivem Footprint, und beide beherrschen Vision. Damit ist es die bessere Standardwahl, sofern dir nicht wirklich der Speicher ausgeht. Seine herausragende Eigenschaft ist genau diese MoE-Balance aus Tempo und Qualität: Chat und Bildverständnis bei der Latenz eines kleinen Modells. Und die Lizenz ist der einfache Teil. Apache 2.0 bedeutet, dass du es frei nutzen kannst, auch kommerziell und im Produktivbetrieb, ohne anbieterspezifische Auflagen. Das macht es zu einem der unkomplizierteren lokalen Modelle, um damit tatsächlich etwas auszuliefern.

Technische Daten

Parameter8B (4.5B aktiv)

Kontextfenster128K Token

AnbieterGoogle

LizenzApache 2.0

Veröffentlicht2026-04

Am besten fürChat, Bilderkennung

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	3.4 GB	6 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	4.9 GB	8 GB	Empfohlen
Q5_K_M	5.65	5.7 GB	12 GB	Hoch
Q8_0	8.5	8.5 GB	16 GB	Nahezu Original
F16	16	16.0 GB	24 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~0.5 GB	~5.4 GB
8K Token	~1.0 GB	~5.9 GB
32K Token	~4.2 GB	~9.1 GB
128K Token	~16.8 GB	~21.7 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	~112 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~314 tok/s
Apple M-series (base)	100 GB/s	~31 tok/s
Apple M-series Pro	270 GB/s	~84 tok/s
Apple M-series Max	410 GB/s	~128 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~19 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run gemma4:e4b

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Offizielles GitHub-Repository

Quellcode, Releases und Issues von Google.