Question 1

Wie viel RAM brauche ich für Qwen3-Next 80B-A3B?

Accepted Answer

Rund 64 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 48.5 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Question 2

Läuft Qwen3-Next 80B-A3B auch ohne dedizierte GPU?

Accepted Answer

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Question 3

Welche Quantisierung von Qwen3-Next 80B-A3B sollte ich herunterladen?

Accepted Answer

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Question 4

Kann ich Qwen3-Next 80B-A3B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Accepted Answer

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Qwen3-Next 80B-A3B braucht rund 960 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 120 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Question 5

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Accepted Answer

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	33.5 GB	48 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	48.5 GB	64 GB	Empfohlen
Q5_K_M	5.65	56.5 GB	96 GB	Hoch
Q8_0	8.5	85.0 GB	128 GB	Nahezu Original
F16	16	160.0 GB	256 GB	Original

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~1.5 GB	~50.0 GB
8K Token	~3.0 GB	~51.5 GB
32K Token	~11.8 GB	~60.3 GB
128K Token	~47.3 GB	~95.8 GB

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	Passt nicht in den VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Passt nicht in den VRAM
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

Kann ich Qwen3-Next 80B-A3B lokal ausführen?

Häufig gestellte Fragen