Wie viel RAM brauche ich für Gemma 4 31B?

Rund 32 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 18.6 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Gemma 4 31B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Gemma 4 31B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Gemma 4 31B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Gemma 4 31B braucht rund 368 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 46 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Gemma 4 31B lokal ausführen?

Gemma 4 31B von Google benötigt bei der empfohlenen 4-Bit-Quantisierung rund 32 GB RAM (18.6 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~19 tok/s auf einem Apple M-series Max.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Gemma 4 31B ist Googles mittelgroßes Open-Weight-Modell mit 30,7B Parametern, ausgelegt auf Chat, Coding, Reasoning und Vision in einem Paket. Das ist kein Modell für unterwegs auf dem Laptop. Bei 4-Bit-Quantisierung wiegt es rund 18,6 GB, und du brauchst mindestens 32 GB RAM, um es überhaupt zu laden – eine 12-GB-Karte wie die RTX 3060 reicht schlicht nicht aus. Sein realistisches Zuhause ist eine 24-GB-GPU wie die RTX 4090 oder ein Apple-Silicon-Mac mit reichlich Unified Memory. Wer einen fähigen Allrounder will und die Hardware hat, ist hier in der Klasse, in der lokale Modelle wirklich brauchbar werden.

Im Alltag ist es eher angenehm als rasant. Auf einer RTX 4090 kannst du mit etwa 46 Token pro Sekunde bei 4-Bit rechnen – schnell genug, um beim Streaming mitzulesen; auf einem Apple M Max pendelt es sich näher bei 19 Token pro Sekunde ein, immer noch passend für interaktives Arbeiten. Reines CPU-Inferencing auf DDR5 fällt auf grob 3 Token pro Sekunde ab, was nur etwas für Geduldige ist. Das 256K-Kontextfenster ist großzügig, aber teuer: Schon Richtung 128K schluckt es rund 49,3 GB Gesamtspeicher. Behandle das volle Fenster also als Obergrenze und halte den Arbeitskontext schlank, sofern du keine Reserven übrig hast.

Gegen Qwen 3 30B-A3B, einen fast identischen Verwandten mit 30,5B, ist der Unterschied architektonisch: Qwens Mixture-of-Experts-Design läuft pro Token tendenziell leichter, während Gemma 4 31B ein dichtes Modell ist, das bei jedem Durchlauf sein volles Gewicht nutzt und bei Vision und breiter Instruktionsbefolgung in der Regel souveräner wirkt. Wer etwas deutlich Kleineres sucht, greift mit Gemma 3 4B zur leichteren Variante. Das Besondere hier ist die Breite: ein Modell für Chat, Code, Reasoning und Bilder, unter einer sauberen Apache-2.0-Lizenz, die du kommerziell und im Produktivbetrieb ohne anbieterspezifische Einschränkungen einsetzen kannst.

Technische Daten

Parameter30.7B

Kontextfenster256K Token

AnbieterGoogle

LizenzApache 2.0

Veröffentlicht2026-04

Am besten fürChat, Programmieren, Logisches Denken, Bilderkennung

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	12.9 GB	24 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	18.6 GB	32 GB	Empfohlen
Q5_K_M	5.65	21.7 GB	32 GB	Hoch
Q8_0	8.5	32.6 GB	48 GB	Nahezu Original
F16	16	61.4 GB	96 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~1.0 GB	~19.6 GB
8K Token	~1.9 GB	~20.5 GB
32K Token	~7.7 GB	~26.3 GB
128K Token	~30.7 GB	~49.3 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	Passt nicht in den VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~46 tok/s
Apple M-series (base)	100 GB/s	~5 tok/s
Apple M-series Pro	270 GB/s	~12 tok/s
Apple M-series Max	410 GB/s	~19 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run gemma4:31b

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Offizielles GitHub-Repository

Quellcode, Releases und Issues von Google.