Wie viel RAM brauche ich für Devstral 2 123B?

Rund 96 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 74.6 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Devstral 2 123B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Devstral 2 123B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Devstral 2 123B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Devstral 2 123B braucht rund 1476 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 185 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Devstral 2 123B lokal ausführen?

Devstral 2 123B von Mistral AI benötigt bei der empfohlenen 4-Bit-Quantisierung rund 96 GB RAM (74.6 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~5 tok/s auf einem Apple M-series Max.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Devstral 2 123B ist Mistrals großes, dichtes (dense) Coding-Modell und richtet sich klar an alle, die ernsthafte lokale Coding-Setups bauen, nicht an die Laptop-Fraktion. In 4-Bit-Quantisierung belegt es rund 74,6 GB, und das sagt eigentlich schon alles: Auf eine RTX 3060 mit 12 GB oder eine RTX 4090 mit 24 GB passt es schlicht nicht, Punkt. Du brauchst etwa 96 GB Speicher, um es bequem zu laden, realistisch also einen Apple-Silicon-Rechner mit viel RAM oder eine Workstation mit ordentlich Arbeitsspeicher. Das ist ein Modell, um das du deine Hardware herum planst, nicht eines, das du mal eben zum Ausprobieren herunterlädst.

Im Alltag ist die ehrliche Einschränkung die Geschwindigkeit. Auf einem Apple M Max liegst du bei rund 5 tok/s, und eine reine CPU-Maschine mit DDR5 fällt auf etwa 1 tok/s ab, was eher in Richtung Batch-Job geht als interaktiver Chat. Es liest und schreibt Code gut, aber du spürst jede Antwort langsam hereintröpfeln. Das Kontextfenster ist mit 256K auf dem Papier großzügig, doch der eigentliche Engpass ist der Speicher: Schon 128K Kontext verlangen rund 132 GB insgesamt, also hältst du auf einer 96-GB-Maschine den Arbeitskontext bescheiden und setzt auf kürzere, fokussierte Prompts.

Gegenüber dem MoE-Modell Qwen 3.5 122B-A10B aus den related_models ist der Kompromiss eindeutig: Jenes Modell aktiviert pro Token nur einen Teil seiner Gewichte und fühlt sich bei vergleichbarer Parameterzahl in der Regel schneller an, während Devstral 2 bei jedem Token alle 123B Parameter durchrechnet. Devstrals Stärke ist, ein fokussierter, dichter Coding-Spezialist von Mistral mit langem Kontext zu sein — vorausgesetzt, du hast den Speicher, um ihn zu füttern. Ein praktischer Hinweis zur Lizenz: Es kommt unter einer Modified MIT-Lizenz, lies also vor jedem kommerziellen Einsatz die konkreten Bedingungen, statt von der üblichen MIT-Freiheit auszugehen.

Technische Daten

Parameter123B

Kontextfenster256K Token

AnbieterMistral AI

LizenzModified MIT

Veröffentlicht2025-12

Am besten fürProgrammieren

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	51.5 GB	96 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	74.6 GB	96 GB	Empfohlen
Q5_K_M	5.65	86.9 GB	128 GB	Hoch
Q8_0	8.5	130.7 GB	192 GB	Nahezu Original
F16	16	246.0 GB	256 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~1.8 GB	~76.4 GB
8K Token	~3.6 GB	~78.2 GB
32K Token	~14.3 GB	~88.9 GB
128K Token	~57.4 GB	~132.0 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	Passt nicht in den VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Passt nicht in den VRAM
Apple M-series (base)	100 GB/s	~1 tok/s
Apple M-series Pro	270 GB/s	~3 tok/s
Apple M-series Max	410 GB/s	~5 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~1 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run devstral-2:123b

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Mistral AI — offizielle Seite

Offizielle Seite und Dokumentation von Mistral AI.