Wie viel RAM brauche ich für Qwen3-VL 30B-A3B?

Rund 32 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 18.2 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Qwen3-VL 30B-A3B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Qwen3-VL 30B-A3B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Qwen3-VL 30B-A3B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Qwen3-VL 30B-A3B braucht rund 360 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 45 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Qwen3-VL 30B-A3B lokal ausführen?

Qwen3-VL 30B-A3B von Alibaba benötigt bei der empfohlenen 4-Bit-Quantisierung rund 32 GB RAM (18.2 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~192 tok/s auf einem Apple M-series Max.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Qwen3-VL 30B-A3B ist Alibabas Mixture-of-Experts-Vision-Modell, und der entscheidende Kniff steckt schon im Namen: 30B Parameter insgesamt, aber nur 3B aktiv pro Token. Dadurch läuft es so schnell wie ein winziges Modell, braucht aber trotzdem Speicher für das gesamte Gewicht. Mit 4-Bit-Quantisierung liegt es bei rund 18.2 GB, und du solltest mindestens 32 GB RAM einplanen, damit es bequem hineinpasst. Auf eine 12-GB-Karte wie die RTX 3060 passt es nicht, doch ein Apple-Silicon-Rechner mit reichlich Unified Memory oder eine 24-GB-GPU sind sein natürliches Zuhause. Es ist für alle gemacht, die Bildverständnis plus Chat und Reasoning lokal wollen.

Im Alltag zahlt sich das 3B-aktive Design aus: Auf einer RTX 4090 sind rund 471 Tokens pro Sekunde drin, und selbst ein Apple M Max bleibt mit etwa 192 tok/s flott, schnell genug, dass sich Vision-Antworten sofort anfühlen. Auf einer CPU mit DDR5 fällt es auf etwa 28 tok/s, brauchbar, aber nicht mehr flüssig. Das 256K-Kontextfenster ist die Marketing-Obergrenze, kein Geschenk. Es zu füllen ist teuer: Bei 128K Kontext klettern Modell plus Cache auf insgesamt rund 48.6 GB, plane deinen Speicher also nach dem Kontext, den du tatsächlich nutzt, und nicht nach dem Maximum auf dem Datenblatt.

Gegen Gemma 4 31B, das hier am ehesten verwandte Modell, liegen beide bei der Größe in ähnlichem Terrain, aber Gemma 4 ist ein dichtes 30.7B-Modell, das jeden Parameter aktiviert, weshalb sich Qwen3-VL gemessen an seinem Speicherbedarf in der Regel schneller anfühlt, während Gemma beim reinen Reasoning und Coding tendenziell stabiler ist. Das herausragende Merkmal von Qwen3-VL ist diese Vision-Fähigkeit, gebündelt in einem Modell, das auf Consumer-Hardware so schnell arbeitet, was lokal nach wie vor selten ist. Es trägt eine Apache 2.0-Lizenz, du kannst es also kommerziell und produktiv einsetzen, ohne anbieterspezifische Einschränkungen. Hol es dir mit dem Ollama-Tag qwen3-vl:30b und leg los.

Technische Daten

Parameter30B (3B aktiv)

Kontextfenster256K Token

AnbieterAlibaba

LizenzApache 2.0

Veröffentlicht2025-10

Am besten fürBilderkennung, Chat, Logisches Denken

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	12.6 GB	24 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	18.2 GB	32 GB	Empfohlen
Q5_K_M	5.65	21.2 GB	32 GB	Hoch
Q8_0	8.5	31.9 GB	48 GB	Nahezu Original
F16	16	60.0 GB	96 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~1.0 GB	~19.2 GB
8K Token	~1.9 GB	~20.1 GB
32K Token	~7.6 GB	~25.8 GB
128K Token	~30.4 GB	~48.6 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	Passt nicht in den VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~471 tok/s
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run qwen3-vl:30b

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Offizielles GitHub-Repository

Quellcode, Releases und Issues von Alibaba.