Wie viel RAM brauche ich für GPT-OSS 20B?

Rund 24 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 12.7 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft GPT-OSS 20B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von GPT-OSS 20B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich GPT-OSS 20B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von GPT-OSS 20B braucht rund 251 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 31 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich GPT-OSS 20B lokal ausführen?

GPT-OSS 20B von OpenAI benötigt bei der empfohlenen 4-Bit-Quantisierung rund 24 GB RAM (12.7 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~160 tok/s auf einem Apple M-series Max.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

GPT-OSS 20B ist OpenAIs Open-Weight-Reasoning-Modell, und das Wichtigste vorab: Es ist ein Mixture-of-Experts. Von seinen insgesamt 20.9B Parametern werden pro Token nur 3.6B aktiviert. Dadurch läuft es deutlich schneller als ein dichtes 20B-Modell, trotzdem musst du das gesamte Modell im Speicher halten. Bei einer 4-Bit-Quantisierung landet es bei rund 12.7 GB, und die praktische Untergrenze liegt bei etwa 24 GB RAM. Auf eine 12-GB-Karte wie die RTX 3060 passt es nicht, realistisch brauchst du also eine 24-GB-GPU wie die 4090 oder einen Apple-Silicon-Mac mit reichlich Unified Memory.

Im Alltag fühlt es sich für seine Größe flott an, genau das ist der MoE-Vorteil. Auf einer RTX 4090 kannst du mit rund 393 Tokens pro Sekunde rechnen, auf einem M-Series-Max-Chip mit ungefähr 160 tok/s, beides klar über Lesegeschwindigkeit. Reines CPU-Inferencing auf DDR5 fällt auf etwa 23 tok/s ab, brauchbar für Batch-Jobs, aber nicht für interaktiven Chat. Das 128K-Kontextfenster ist großzügig, aber genau das frisst still und leise Speicher: Füllst du es voll aus, klettert der Gesamtverbrauch auf rund 38.5 GB, sobald der KV-Cache geladen ist. Halte den Arbeitskontext moderat, sofern du nicht genug Reserve hast, oder greif zum q2-Build bei rund 8.8 GB.

Es ist für Chat und Reasoning gebaut, nicht für Programmierung, daher leistet dir für Coding-Aufgaben etwas wie Codestral 22B in der Regel bessere Dienste, und Mistral Small 3.1 24B ist die Wahl, wenn du zusätzlich Vision brauchst. Seine herausragende Eigenschaft ist die Reasoning-Qualität bei nur 3.6B aktiven Parametern, und wenn du mehr Spielraum willst, skaliert das größere Geschwistermodell GPT-OSS 120B dasselbe Rezept nach oben. Die Lizenz ist Apache 2.0, das Modell ist also wirklich frei nutzbar, auch kommerziell und in der Produktion, ohne anbieterspezifische Auflagen.

Technische Daten

Parameter20.9B (3.6B aktiv)

Kontextfenster128K Token

AnbieterOpenAI

LizenzApache 2.0

Veröffentlicht2025-08

Am besten fürChat, Logisches Denken

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	8.8 GB	16 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	12.7 GB	24 GB	Empfohlen
Q5_K_M	5.65	14.8 GB	24 GB	Hoch
Q8_0	8.5	22.2 GB	32 GB	Nahezu Original
F16	16	41.8 GB	64 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~0.8 GB	~13.5 GB
8K Token	~1.6 GB	~14.3 GB
32K Token	~6.5 GB	~19.2 GB
128K Token	~25.8 GB	~38.5 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	Passt nicht in den VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~393 tok/s
Apple M-series (base)	100 GB/s	~39 tok/s
Apple M-series Pro	270 GB/s	~105 tok/s
Apple M-series Max	410 GB/s	~160 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~23 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run gpt-oss:20b

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Offizielles GitHub-Repository

Quellcode, Releases und Issues von OpenAI.