Devstral 2 123B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 96 GB toplam sistem belleği gerekir; indirme boyutu 74.6 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Devstral 2 123B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Devstral 2 123B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Devstral 2 123B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Devstral 2 123B için tam fine-tuning yaklaşık 1476 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 185 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Devstral 2 123B çalıştırabilir miyim?

Mistral AI imzalı Devstral 2 123B, önerilen 4-bit nicemlemede yaklaşık 96 GB RAM ister (74.6 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. Apple M-series Max üzerinde yaklaşık ~5 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Devstral 2 123B, Mistral'ın büyük yoğun (dense) kodlama modeli ve ciddi yerel kodlama kurulumları yapan kişilere hitap ediyor; laptop kitlesine değil. 4-bit niceleme ile yaklaşık 74.6 GB yer kaplıyor ve bu zaten her şeyi anlatıyor: 12 GB'lık RTX 3060'a ya da 24 GB'lık RTX 4090'a sığmıyor, nokta. Rahatça yüklemek için kabaca 96 GB belleğe ihtiyacın var; yani gerçekçi olarak ya yüksek bellekli bir Apple Silicon makinesi ya da bol RAM'li bir iş istasyonu gerekiyor. Bu, donanımını etrafında planladığın bir model; öylesine indirip denediğin bir model değil.

Günlük kullanımda dürüst uyarı şu: hız. Apple M Max üzerinde saniyede yaklaşık 5 token alıyorsun, yalnızca CPU çalışan bir DDR5 makinede ise bu rakam saniyede yaklaşık 1 token'a düşüyor; bu da interaktif sohbetten çok toplu iş (batch) bölgesine yakın. Kodu iyi okuyup yazıyor ama her yanıtın yavaş yavaş akışını hissedeceksin. Bağlam penceresi kâğıt üstünde cömert bir 256K, ancak gerçek sınır bellek: 128K bağlama çıkmak bile toplamda yaklaşık 132 GB istiyor, dolayısıyla 96 GB'lık bir makinede çalışma bağlamını mütevazı tutup daha kısa ve odaklı promptlara yaslanıyorsun.

related_models içindeki MoE tabanlı Qwen 3.5 122B-A10B ile karşılaştırınca denge net: o model her token'da ağırlıklarının yalnızca bir dilimini aktive ediyor ve benzer parametre sayısında genelde daha hızlı hissettiriyor; Devstral 2 ise 123B parametrenin her birini her token'da çalıştırıyor. Devstral'ın öne çıkan yanı, yeterli belleğin varsa uzun bağlamlı, odaklı ve yoğun (dense) bir Mistral kodlama uzmanı olması. Lisansla ilgili pratik bir not: Modified MIT lisansıyla geliyor, dolayısıyla herhangi bir ticari dağıtımdan önce sade MIT özgürlüğü varsaymak yerine özel şartları okumakta fayda var.

Teknik özellikler

Parametre123B

Bağlam penceresi256K token

SağlayıcıMistral AI

LisansModified MIT

Çıkış2025-12

En iyi olduğu alanKodlama

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	51.5 GB	96 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	74.6 GB	96 GB	Önerilen
Q5_K_M	5.65	86.9 GB	128 GB	Yüksek
Q8_0	8.5	130.7 GB	192 GB	Orijinale yakın
F16	16	246.0 GB	256 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~1.8 GB	~76.4 GB
8K token	~3.6 GB	~78.2 GB
32K token	~14.3 GB	~88.9 GB
128K token	~57.4 GB	~132.0 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	VRAM'e sığmaz
NVIDIA RTX 4090 24GB	1008 GB/s	VRAM'e sığmaz
Apple M-series (base)	100 GB/s	~1 tok/s
Apple M-series Pro	270 GB/s	~3 tok/s
Apple M-series Max	410 GB/s	~5 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~1 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run devstral-2:123b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Mistral AI — resmi sayfa

Mistral AI tarafından resmi sayfa ve dokümantasyon.