Wie viel RAM brauche ich für Gemma 3 12B?

Rund 12 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 7.4 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Gemma 3 12B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Gemma 3 12B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Gemma 3 12B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Gemma 3 12B braucht rund 146 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 18 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Gemma 3 12B lokal ausführen?

Gemma 3 12B von Google benötigt bei der empfohlenen 4-Bit-Quantisierung rund 12 GB RAM (7.4 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~41 tok/s auf einem NVIDIA RTX 3060 12GB.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Gemma 3 12B ist Googles mittelgroßes Open-Weight-Modell und trifft genau die richtige Nische für alle, die mehr Leistung als von den üblichen 7-8B-Chatmodellen wollen, ohne gleich zu etwas greifen zu müssen, das eine Workstation voraussetzt. Mit 4-Bit-Quantisierung liegt es bei rund 7.4 GB, passt damit mit etwas Spielraum auf eine 12-GB-Karte wie die RTX 3060 und läuft auf einem Apple-Silicon-Mac mit 16 GB oder mehr bequem im Unified Memory. Die Untergrenze liegt bei 12 GB RAM, um es überhaupt zu laden. Es beherrscht außerdem Vision, du kannst ihm also Bilder zusammen mit Text geben - etwas, das die meisten Modelle dieser Größe nicht können.

Im Alltag fühlt es sich auf Consumer-Hardware reaktionsschnell an. Auf einer RTX 3060 12GB erreichst du mit 4-Bit etwa 41 tok/s, schneller als du lesen kannst, und ein Apple M Max bringt es auf rund 47 tok/s. Eine 4090 fliegt mit etwa 116 tok/s, falls du eine hast. Der Haken ist das 128K-Kontextfenster: Es ist tatsächlich vorhanden, aber es zu füllen ist teuer. Bei vollen 128K brauchen Modell plus KV-Cache insgesamt rund 27.7 GB, weit mehr als eine 12-GB-Karte fasst. Halte den Arbeitskontext also moderat, sofern du keine 24-GB-GPU oder reichlich Unified Memory hast.

Gegenüber Mistral Nemo 12B, der naheliegenden Alternative gleicher Größe, hat Gemma 3 12B in der Regel die Nase vorn bei Instruction-Following und multimodalen Aufgaben, da Nemo reines Text-Modell ist - wobei Nemo bei reinem Long-Context-Chat tendenziell die leichtere Wahl bleibt. Wenn du kleiner bleiben willst, reduziert Gemma 3 4B den Footprint und behält dabei Vision. Die Stärke von Gemma 3 12B ist, ein leistungsfähiges Vision-und-Chat-Modell zu sein, das immer noch auf einer einzelnen Mittelklasse-GPU läuft. Eine Einschränkung: Es kommt unter Googles Gemma-Lizenz, die zwar Open-Weight ist, aber anbieterspezifische Bedingungen enthält. Lies sie vor jedem kommerziellen Einsatz durch, statt anzunehmen, es sei schlicht Open Source.

Technische Daten

Parameter12.2B

Kontextfenster128K Token

AnbieterGoogle

LizenzGemma

Veröffentlicht2025-03

Am besten fürChat, Bilderkennung

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	5.1 GB	8 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	7.4 GB	12 GB	Empfohlen
Q5_K_M	5.65	8.6 GB	16 GB	Hoch
Q8_0	8.5	13.0 GB	24 GB	Nahezu Original
F16	16	24.4 GB	32 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~0.6 GB	~8.0 GB
8K Token	~1.3 GB	~8.7 GB
32K Token	~5.1 GB	~12.5 GB
128K Token	~20.3 GB	~27.7 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	~41 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~116 tok/s
Apple M-series (base)	100 GB/s	~11 tok/s
Apple M-series Pro	270 GB/s	~31 tok/s
Apple M-series Max	410 GB/s	~47 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~7 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run gemma3:12b

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Offizielles GitHub-Repository

Quellcode, Releases und Issues von Google.