Wie viel RAM brauche ich für Granite 4.0 H Small?

Rund 32 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 19.4 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Granite 4.0 H Small auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Granite 4.0 H Small sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Granite 4.0 H Small auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Granite 4.0 H Small braucht rund 384 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 48 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Granite 4.0 H Small lokal ausführen?

Granite 4.0 H Small von IBM benötigt bei der empfohlenen 4-Bit-Quantisierung rund 32 GB RAM (19.4 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~64 tok/s auf einem Apple M-series Max.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Granite 4.0 H Small ist IBMs Mixture-of-Experts-Modell: 32B Parameter auf dem Papier, aber pro Token sind nur etwa 9B aktiv. Genau diese Aufteilung macht den Unterschied. Für seine Größe läuft es schnell, weil jedes Token nur einen Bruchteil der Gewichte berührt, doch du musst trotzdem das komplette Modell im Speicher halten. Plane deshalb mit den 32 GB Mindestbedarf statt mit der Zahl der aktiven Parameter. Bei 4-Bit-Quantisierung landet es bei rund 19,4 GB, was eine 12-GB-Karte wie die RTX 3060 komplett ausschließt und dich stattdessen zu einer 24-GB-GPU oder einem Apple-Silicon-Mac mit reichlich Unified Memory führt. Es zielt auf Chat- und Coding-Aufgaben ab, nicht auf gemütliches Ausprobieren auf dem Laptop.

Auf einer RTX 4090 läuft es mit etwa 157 Tokens pro Sekunde, was deutlich über Lesegeschwindigkeit liegt und es für interaktive Coding-Sessions angenehm macht. Auf einem M-Max bewegst du dich bei rund 64 tok/s, immer noch komfortabel, und reine CPU auf DDR5 fällt auf etwa 9 tok/s ab, brauchbar für Batch-Jobs, aber nicht für Live-Chat. Der 128K-Kontext ist echt, aber teuer: Füllst du ihn aus, steigt der Gesamtspeicher auf rund 50,7 GB, sodass du auf einer 24-GB-Karte nicht annähernd am Limit arbeiten kannst. Halte den Arbeitskontext moderat, es sei denn, du hast einen 64-GB-Mac übrig.

Gegenüber Qwen 3 32B, einem dichten Modell ähnlicher Gesamtgröße, wirkt Granite dank des MoE-Designs in der Regel genügsamer bei der Hardware, auch wenn Qwen 3 bei anspruchsvollerem Reasoning meist die Nase vorn hat, da es bei jedem Token alle Parameter aktiviert. Wenn du etwas Kleineres und Einfacheres möchtest, passt das dichte Granite 3.3 8B leichter auf bescheidene GPUs. Die herausragende Eigenschaft von Granite 4.0 H Small ist, dass es ein wirklich schnelles Modell der 32B-Klasse ist, das du tatsächlich selbst hosten kannst, und es kommt unter Apache 2.0, sodass du es ohne Lizenzsorgen frei kommerziell nutzen darfst.

Technische Daten

Parameter32B (9B aktiv)

Kontextfenster128K Token

AnbieterIBM

LizenzApache 2.0

Veröffentlicht2025-10

Am besten fürChat, Programmieren

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	13.4 GB	24 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	19.4 GB	32 GB	Empfohlen
Q5_K_M	5.65	22.6 GB	32 GB	Hoch
Q8_0	8.5	34.0 GB	48 GB	Nahezu Original
F16	16	64.0 GB	96 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~1.0 GB	~20.4 GB
8K Token	~2.0 GB	~21.4 GB
32K Token	~7.8 GB	~27.2 GB
128K Token	~31.3 GB	~50.7 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	Passt nicht in den VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~157 tok/s
Apple M-series (base)	100 GB/s	~16 tok/s
Apple M-series Pro	270 GB/s	~42 tok/s
Apple M-series Max	410 GB/s	~64 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~9 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run granite4:32b-a9b-h

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Offizielles GitHub-Repository

Quellcode, Releases und Issues von IBM.