Wie viel RAM brauche ich für Mellum 2 12B-A2.5B?

Rund 12 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 7.3 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft Mellum 2 12B-A2.5B auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von Mellum 2 12B-A2.5B sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich Mellum 2 12B-A2.5B auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von Mellum 2 12B-A2.5B braucht rund 144 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 18 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich Mellum 2 12B-A2.5B lokal ausführen?

Mellum 2 12B-A2.5B von JetBrains benötigt bei der empfohlenen 4-Bit-Quantisierung rund 12 GB RAM (7.3 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~202 tok/s auf einem NVIDIA RTX 3060 12GB.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

Mellum 2 ist das auf Coding spezialisierte Modell von JetBrains, aufgebaut als Mixture-of-Experts (MoE): insgesamt 12B Parameter, aber nur rund 2.5B aktiv pro Token. Genau darin liegt der Sinn des Designs. Du bekommst das Tempo eines etwa 2-3B großen Modells, hältst aber trotzdem die vollen 12B im Speicher – lass dich also von der Zahl der aktiven Parameter nicht täuschen. Bei einer 4-bit-Quantisierung landet es bei rund 7.3 GB, mit einer praktischen Untergrenze von etwa 12 GB RAM. Das passt auf eine 12-GB-Karte wie eine RTX 3060 oder in den Unified Memory eines Apple-Silicon-Macs, aber 8 GB sind zu knapp. Wenn du in JetBrains-IDEs lebst und lokale Code-Vervollständigung willst, ist es genau auf dich zugeschnitten.

Im Alltag zahlt sich das MoE-Design aus: Es fühlt sich deutlich schneller an, als seine Größe vermuten lässt. Auf einer RTX 3060 12GB kannst du bei 4-bit mit rund 202 Tokens pro Sekunde rechnen, und eine RTX 4090 schiebt über 565 hinaus – klar in dem Bereich, in dem die Vervollständigungen da sind, bevor du die nächste Zeile zu Ende getippt hast. Der 128K-Kontext ist für ein Coding-Modell wirklich groß und praktisch, um ganze Dateien oder die Header eines ganzen Repos einzuspeisen, aber er ist nicht umsonst. Füllst du ihn komplett, steigt der Gesamtspeicher auf rund 27.4 GB – weit über das hinaus, was eine einzelne 12-GB-Karte fasst. Halte den Arbeitskontext also moderat, sofern du nicht eine 24 GB GPU oder großzügigen Unified Memory hast.

Eines sollte man klar benennen: Das hier ist ein Coding-Spezialist, kein allgemeiner Assistent. Für Chat, Reasoning oder irgendetwas mit Bildern leistet dir ein breiter aufgestelltes 12B wie Gemma 4 12B in der Regel bessere Dienste, und Mistral Nemo 12B ist tendenziell die angenehmere Wahl für offene Unterhaltungen. Die herausragende Eigenschaft von Mellum 2 ist genau dieses MoE-Verhältnis aus Tempo zu Größe bei Vervollständigungs-Aufgaben, kombiniert mit erstklassiger IDE-Integration von den Leuten, die deinen Editor bauen. Und die Lizenz ist der einfache Teil: Apache 2.0, du kannst es also kommerziell und in Produktion einsetzen, ohne dir rechtliche Sorgen zu machen. Wenn dein Hauptjob Code ist und du eine 12-GB-Karte hast, ist es eine starke, schnelle lokale Wahl.

Technische Daten

Parameter12B (2.5B aktiv)

Kontextfenster128K Token

AnbieterJetBrains

LizenzApache 2.0

Veröffentlicht2026-06

Am besten fürProgrammieren

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	5.0 GB	8 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	7.3 GB	12 GB	Empfohlen
Q5_K_M	5.65	8.5 GB	16 GB	Hoch
Q8_0	8.5	12.8 GB	24 GB	Nahezu Original
F16	16	24.0 GB	32 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~0.6 GB	~7.9 GB
8K Token	~1.3 GB	~8.6 GB
32K Token	~5.0 GB	~12.3 GB
128K Token	~20.1 GB	~27.4 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	~202 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~565 tok/s
Apple M-series (base)	100 GB/s	~56 tok/s
Apple M-series Pro	270 GB/s	~151 tok/s
Apple M-series Max	410 GB/s	~230 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~34 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Quellen & Downloads

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

JetBrains — offizielle Seite

Offizielle Seite und Dokumentation von JetBrains.

blog.jetbrains.com