Devstral Small 2 24B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 24 GB toplam sistem belleği gerekir; indirme boyutu 14.6 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Devstral Small 2 24B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Devstral Small 2 24B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Devstral Small 2 24B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Devstral Small 2 24B için tam fine-tuning yaklaşık 288 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 36 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Devstral Small 2 24B çalıştırabilir miyim?

Mistral AI imzalı Devstral Small 2 24B, önerilen 4-bit nicemlemede yaklaşık 24 GB RAM ister (14.6 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. Apple M-series Max üzerinde yaklaşık ~24 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Devstral Small 2, Mistral'in 24B'lik kodlama modeli ve adı, ne kadar donanım istediğini olduğundan az gösteriyor. 4-bit quant ile ağırlıklar yaklaşık 14.6 GB tutuyor, yani çoğu insanın elindeki 12 GB'lık kartlar yetersiz kalıyor: RTX 3060'a tek kelimeyle sığmıyor. Modeli rahatça çalıştırmak için gerçekçi olarak 24 GB belleğe ihtiyacınız var; pratikte bu da 4090 gibi 24 GB'lık bir GPU ya da en az 24 GB birleşik belleğe sahip bir Apple Silicon Mac demek. 2-bit quant'a düşerseniz boyut yaklaşık 10.1 GB'a iniyor, ama tüm amacı dikkatli kod üretmek olan bir model için bu ciddi bir kalite ödünü.

4090'da 4-bit ile saniyede yaklaşık 59 token bekleyebilirsiniz; bu, modelin dosyaları okuyup plan yapıp düzenleme yaptığı agentic bir kodlama döngüsü için gerçekten keyifli bir hız. M serisi Max'te ise rakam 24 tok/s'ye yaklaşıyor; etkileşimli çalışma için hâlâ kullanılabilir ama uzun üretimlerde farkı hissediyorsunuz. Manşetteki 256K bağlam gerçek ve tüm repoları besleyebilmek için faydalı, ama bedeli konusunda dürüst olmak lazım: 128K'da bile veri sayfası toplam belleği 42.1 GB civarına koyuyor, yani tek bir 24 GB'lık kartın çok ötesi. Büyük bağlamı varsayılan olarak açık bıraktığınız bir şey değil, bilinçli olarak başvurduğunuz bir araç gibi düşünün.

Kardeşleriyle kıyaslandığında Devstral, ciddi iş için doğru tercih: Mistral 7B ve Mistral Nemo 12B daha hafif ve barındırması daha kolay ama çok adımlı kodlama görevlerinde genelde daha zayıf; Gemma 4 26B A4B ise kodlama ve akıl yürütmede en yakın rakip ve belleğiniz varsa yan yana denemeye değer. Devstral'i öne çıkaran şey, tek seferlik sohbet yerine agentic, araç kullanan kod düzenleme için tasarlanmış olması; bu odak, dosyalar arasında bir planı nasıl takip ettiğinde kendini gösteriyor. Lisansı Apache 2.0, yani ticari olarak ve production'da hiçbir kısıtlama olmadan kullanabilirsiniz ki bu kadar yetenekli bir model için bu nadir bir şey.

Teknik özellikler

Parametre24B

Bağlam penceresi256K token

SağlayıcıMistral AI

LisansApache 2.0

Çıkış2025-12

En iyi olduğu alanKodlama, Sohbet, Görüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	10.1 GB	16 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	14.6 GB	24 GB	Önerilen
Q5_K_M	5.65	17.0 GB	24 GB	Yüksek
Q8_0	8.5	25.5 GB	48 GB	Orijinale yakın
F16	16	48.0 GB	64 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~0.9 GB	~15.5 GB
8K token	~1.7 GB	~16.3 GB
32K token	~6.9 GB	~21.5 GB
128K token	~27.5 GB	~42.1 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	VRAM'e sığmaz
NVIDIA RTX 4090 24GB	1008 GB/s	~59 tok/s
Apple M-series (base)	100 GB/s	~6 tok/s
Apple M-series Pro	270 GB/s	~16 tok/s
Apple M-series Max	410 GB/s	~24 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~4 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run devstral-small-2:24b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Mistral AI — resmi sayfa

Mistral AI tarafından resmi sayfa ve dokümantasyon.