Wie viel RAM brauche ich für Qwen3 Coder Next 80B-A3B?

Rund 64 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 48.5 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Qwen3 Coder Next 80B-A3B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Qwen3 Coder Next 80B-A3B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Qwen3 Coder Next 80B-A3B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Qwen3 Coder Next 80B-A3B braucht rund 960 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 120 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Qwen3 Coder Next 80B-A3B lokal ausführen?

Qwen3 Coder Next 80B-A3B von Alibaba benötigt bei der empfohlenen 4-Bit-Quantisierung rund 64 GB RAM (48.5 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~192 tok/s auf einem Apple M-series Max.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Qwen3 Coder Next 80B-A3B ist ein Coding-Spezialist mit Mixture-of-Experts-Architektur, und genau diese Architektur ist der entscheidende Punkt. Das Modell hat 80B Parameter insgesamt, aktiviert pro Token aber nur 3B, läuft also deutlich schneller, als seine Größe vermuten lässt, braucht aber trotzdem Speicher für das vollständige Modell. In 4-Bit landet es bei rund 48.5 GB, womit jede Consumer-GPU ausscheidet: Es passt nicht auf eine 24-GB-RTX-4090, geschweige denn auf eine 12-GB-3060. Sein realistisches Zuhause ist ein Apple-Silicon-Mac mit reichlich Unified Memory oder eine Workstation mit 64 GB oder mehr System-RAM. Plane mit dem Minimum von 64 GB, nicht mit den aktiven 3B.

Im Alltag zahlt sich das MoE-Design aus. Auf einem Apple M Max liefert es etwa 192 tok/s, was sich bei Code-Vervollständigung und Refactoring praktisch sofort anfühlt, und selbst reine CPU-Inferenz auf DDR5 schafft rund 28 tok/s — langsam, aber für ein Modell dieser Größe wirklich brauchbar. Das 256K-Kontextfenster ist das Aushängeschild für die Arbeit über ganze Repositories hinweg, doch der Haken ist der Speicher: Bei 128K Kontext steigt der Gesamtbedarf auf etwa 95.8 GB. Behalte das im Hinterkopf, bevor du eine riesige Codebasis lädst, denn nicht die Gewichte, sondern der KV-Cache treibt dich auf einer 64-GB-Maschine über die Grenze.

Gegenüber den dichten Alternativen seiner Gewichtsklasse wie Llama 3.1 70B tauscht dieses Modell tendenziell rohe Breite gegen Coding-Fokus und Geschwindigkeit: Durch das MoE-Routing antwortet es schneller als ein dichtes 70B-Modell und spezialisiert sich auf Code statt auf allgemeinen Chat — wofür die kleineren Qwen 3 Chat-Varianten besser passen. Seine herausragende Eigenschaft ist dieses Verhältnis von Geschwindigkeit zu Größe: nahezu sofortige Generierung aus einem Modell der 80B-Klasse. Der praktische Bonus ist die Lizenz: Apache 2.0, sodass du es frei in kommerziellen und Produktionsprojekten einsetzen kannst, ohne dich vorher durch anbieterspezifische Einschränkungen lesen zu müssen.

Technische Daten

Parameter80B (3B aktiv)

Kontextfenster256K Token

AnbieterAlibaba

LizenzApache 2.0

Veröffentlicht2026-02

Am besten fürProgrammieren

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	33.5 GB	48 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	48.5 GB	64 GB	Empfohlen
Q5_K_M	5.65	56.5 GB	96 GB	Hoch
Q8_0	8.5	85.0 GB	128 GB	Nahezu Original
F16	16	160.0 GB	256 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~1.5 GB	~50.0 GB
8K Token	~3.0 GB	~51.5 GB
32K Token	~11.8 GB	~60.3 GB
128K Token	~47.3 GB	~95.8 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	Passt nicht in den VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Passt nicht in den VRAM
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run qwen3-coder-next

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Alibaba — offizielle Seite

Offizielle Seite und Dokumentation von Alibaba.