Mellum 2 12B-A2.5B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 12 GB toplam sistem belleği gerekir; indirme boyutu 7.3 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Mellum 2 12B-A2.5B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Mellum 2 12B-A2.5B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Mellum 2 12B-A2.5B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Mellum 2 12B-A2.5B için tam fine-tuning yaklaşık 144 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 18 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Mellum 2 12B-A2.5B çalıştırabilir miyim?

JetBrains imzalı Mellum 2 12B-A2.5B, önerilen 4-bit nicemlemede yaklaşık 12 GB RAM ister (7.3 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. NVIDIA RTX 3060 12GB üzerinde yaklaşık ~202 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Mellum 2, JetBrains'in kodlamaya odaklı modeli; mixture-of-experts mimarisiyle kurulmuş: toplam 12B parametre ama token başına yalnızca yaklaşık 2.5B aktif. Tasarımın bütün mantığı bu. Kabaca 2-3B'lik bir modelin hızını alıyorsunuz, ama tam 12B'yi bellekte tutmaya devam ediyorsunuz; yani aktif sayıya aldanmayın. 4-bit niceleme (quant) ile boyut 7.3 GB civarına oturuyor, pratik alt sınır ise yaklaşık 12 GB RAM. Bu, RTX 3060 gibi 12 GB'lik bir karta ya da Apple Silicon Mac'teki birleşik belleğe sığar, ama 8 GB fazlasıyla yetersiz kalır. JetBrains IDE'lerinde yaşıyorsanız ve yerel kod tamamlama istiyorsanız, tam da size göre.

Günlük kullanımda MoE tasarımı kendini gösteriyor: boyutunun ima ettiğinden çok daha hızlı hissettiriyor. RTX 3060 12GB üzerinde 4-bit ile saniyede yaklaşık 202 token bekleyebilirsiniz; RTX 4090 ise 565'in üstüne çıkıyor; yani tamamlamalar siz bir sonraki satırı yazmayı bitirmeden ekrana geliyor. 128K bağlam, bir kodlama modeli için gerçekten geniş; dosyaların tamamını ya da bir repo dolusu header'ı modele beslemek için elverişli, ama bedava değil. Bağlamı sonuna kadar doldurduğunuzda toplam bellek kabaca 27.4 GB'ye tırmanıyor; bu da tek bir 12 GB'lik kartın tutabileceğinin çok ötesinde. Dolayısıyla 24 GB'lik bir GPU'nuz ya da bol birleşik belleğiniz yoksa çalışma bağlamını mütevazı tutun.

Kapsam konusunda net olmakta fayda var: bu bir kodlama uzmanı, genel amaçlı bir asistan değil. Sohbet, akıl yürütme ya da görsel içeren herhangi bir iş için Gemma 4 12B gibi daha geniş kapsamlı bir 12B genelde sizi daha iyi idare eder; serbest uçlu konuşmada ise Mistral Nemo 12B çoğunlukla daha dostça bir seçim olur. Mellum 2'nin öne çıkan özelliği, tamamlama tarzı işlerde sunduğu o MoE hız-boyut oranı ve editörünüzü yapan ekipten gelen birinci sınıf IDE entegrasyonu. Lisans tarafı ise işin kolay kısmı: Apache 2.0, yani ticari olarak ve üretimde hukuki kaygı duymadan kullanabilirsiniz. Asıl işiniz kodsa ve 12 GB'lik bir kartınız varsa, güçlü ve hızlı bir yerel tercih.

Teknik özellikler

Parametre12B (2.5B aktif)

Bağlam penceresi128K token

SağlayıcıJetBrains

LisansApache 2.0

Çıkış2026-06

En iyi olduğu alanKodlama

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	5.0 GB	8 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	7.3 GB	12 GB	Önerilen
Q5_K_M	5.65	8.5 GB	16 GB	Yüksek
Q8_0	8.5	12.8 GB	24 GB	Orijinale yakın
F16	16	24.0 GB	32 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~0.6 GB	~7.9 GB
8K token	~1.3 GB	~8.6 GB
32K token	~5.0 GB	~12.3 GB
128K token	~20.1 GB	~27.4 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	~202 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~565 tok/s
Apple M-series (base)	100 GB/s	~56 tok/s
Apple M-series Pro	270 GB/s	~151 tok/s
Apple M-series Max	410 GB/s	~230 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~34 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Kaynaklar ve indirme

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

JetBrains — resmi sayfa

JetBrains tarafından resmi sayfa ve dokümantasyon.

blog.jetbrains.com