So berechnen wir LLM-Hardware-Anforderungen
Jede Zahl auf diesen Seiten stammt aus den Formeln unten — keine versteckte Magie, keine abgeschriebenen Datenblätter. Es sind Näherungen, und wir erklären ihre Grenzen.
Download-Größe nach Quantisierung
size_GB = params_B × bits_per_weight ÷ 8Die Dateigröße eines Modells ist Parameterzahl × Bits pro Gewicht ÷ 8. Die Bits-pro-Gewicht-Werte enthalten den Overhead des GGUF-Formats — Q4_K_M hat zum Beispiel effektiv 4,85 Bits, ein 8B-Modell ist also 8 × 4,85 ÷ 8 ≈ 4,9 GB groß. Echte GGUF-Builds weichen um wenige Prozent ab.
Minimaler System-RAM
min_RAM = size_GB × 1.25 + 1.5 → next standard tierWir nehmen die Q4_K_M-Größe im Speicher, addieren 25 % Laufzeit-Overhead (Aktivierungen, Puffer) plus 1,5 GB für das Betriebssystem und runden dann auf die nächste Standard-Speichergröße auf (8, 12, 16, 24, 32 GB und so weiter). Dieser gerundete Wert ist der „Min. RAM“ in jeder Tabelle.
KV-Cache nach Kontextlänge
kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45Der KV-Cache wächst linear mit der Kontextlänge. Wir verankern die Rechnung bei Llama 3.1 8B mit Grouped-Query-Attention — 32 Layer × 8 KV-Heads × 128 Head-Dimension × 2 (K und V) × 2 Bytes ≈ 131 kB pro Token — und skalieren sublinear mit der Parameterzahl (Potenz 0,45), weil Tiefe und KV-Breite langsamer wachsen als die Gesamtparameter. Deshalb kann ein Modell, das bei 4K Kontext passt, bei 32K an die Speichergrenze stoßen.
Geschwindigkeits-Schätzungen (tok/s)
tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GBDie Token-Generierung ist durch die Speicherbandbreite begrenzt: Für jedes Token werden alle aktiven Gewichte einmal gelesen. Also tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4, wobei 0,85 ein empirischer Effizienzfaktor gegenüber einem reinen Kopier-Benchmark ist. Bei Mixture-of-Experts-Modellen zählen nur die aktiven Parameter — deshalb kann ein 30B-MoE schneller sein als ein dichtes 8B-Modell.
Der Bandbreiten-Benchmark im Browser
Der optionale Benchmark misst die effektive GPU-Speicherbandbreite mit wiederholten großen WebGPU-Buffer-zu-Buffer-Kopien und dauert etwa 1–2 Sekunden. Er läuft vollständig in Ihrem Browser; nichts wird hochgeladen und nichts gespeichert. Auf Apple Silicon verfeinert die gemessene Bandbreite zusätzlich die Schätzung der Chip-Klasse (Basis / Pro / Max / Ultra).
Bekannte Grenzen
Dies sind Planungsschätzungen, keine Benchmarks Ihres konkreten Rechners. Die reale Geschwindigkeit variiert mit der Runtime (llama.cpp, MLX, vLLM), Kontextlänge, Batch-Größe und Temperatur des Geräts. Die Passungs-Urteile gehen vom empfohlenen Q4_K_M-Build und einem weitgehend unbelasteten Rechner aus — bei einem Grenzfall sollten Sie Apps schließen oder eine Quantisierungsstufe heruntergehen.
Effektive Bits pro Gewicht
| Quantisierung | Bits/Gewicht | Qualität |
|---|---|---|
| Q2_K | 3.35 | Spürbarer Verlust |
| Q4_K_M | 4.85 | Empfohlen |
| Q5_K_M | 5.65 | Hoch |
| Q8_0 | 8.5 | Nahezu Original |
| F16 | 16 | Original |
Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11