Ministral 3 3B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 4 GB toplam sistem belleği gerekir; indirme boyutu 1.8 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Ministral 3 3B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Ministral 3 3B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Ministral 3 3B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Ministral 3 3B için tam fine-tuning yaklaşık 36 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 5 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Ministral 3 3B çalıştırabilir miyim?

Mistral AI imzalı Ministral 3 3B, önerilen 4-bit nicemlemede yaklaşık 4 GB RAM ister (1.8 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. NVIDIA RTX 3060 12GB üzerinde yaklaşık ~168 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Ministral 3 3B, Mistral'in "gerçek bir asistan gibi hissettiren en küçük model hangisi?" sorusuna verdiği yanıt. 3B parametreyle, zaten elinizde olan donanımda sohbet ve hafif görsel (vision) işleri için tasarlanmış. 4-bit niceleme (quant) yaklaşık 1.8 GB'a oturuyor; gerçekten sıkışıksanız q2 sürümünü 1.3 GB'a kadar küçültebilirsiniz. 4 GB'lık minimum RAM ayak iziyle giriş seviyesi bir dizüstünde, eski 4 GB'lık bir GPU'da ya da herhangi bir Apple Silicon Mac'te belleği düşünmeden çalışır. Daha büyük bir model sığmadığında uzandığınız model tam olarak budur.

Günlük kullanımda asıl başlık hız. Bir RTX 3060'ta saniyede yaklaşık 168 token görürsünüz, M serisi bir Max civarında ~192 tok/s'ye ulaşır, bir 4090 ise yaklaşık 471 tok/s'ye çıkar; hepsi okuyabileceğinizden çok daha hızlı, dolayısıyla yanıtlar anında gelmiş gibi hissettirir. DDR5 üzerinde yalnızca CPU ile bile ~28 tok/s elde edersiniz, toplu (batch) işler için kullanışlı. Bağlam penceresi cömert bir şekilde 256K, ama bunu bir tavan olarak görün. Onu doldurmak hızla pahalılaşır: 128K bağlamda toplam bellek yükü yaklaşık 12.6 GB'a tırmanır; bu modelin kendi ayak izinin çok ötesinde, o yüzden küçük makinelerde çalışma bağlamını ölçülü tutun.

Dürüst olmak gerekirse, 3B'de bu hız ve minik ayak izi için biraz derinlikten ödün veriyorsunuz. Mistral 7B, daha zorlu akıl yürütmede ve uzun talimat zincirlerinde genellikle daha iyi tutunur; bellek ayırabilecek durumdaysanız Mistral Nemo 12B yeniden öne geçer. Ministral 3 3B'nin kazandığı yer ise ham çıktı hızıyla birlikte görseli (vision) de işleyebilmesi; daha büyük, yalnızca sohbete yönelik Mistral modelleri bunu yapamaz. Apache 2.0 lisansıyla geliyor, dolayısıyla onu hiçbir koşula bağlı kalmadan ticari olarak kullanabilirsiniz. Hızlı, ücretsiz ve her işi gören küçük bir model arıyorsanız, yerini hak ediyor.

Teknik özellikler

Parametre3B

Bağlam penceresi256K token

SağlayıcıMistral AI

LisansApache 2.0

Çıkış2025-12

En iyi olduğu alanSohbet, Görüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	1.3 GB	4 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	1.8 GB	4 GB	Önerilen
Q5_K_M	5.65	2.1 GB	6 GB	Yüksek
Q8_0	8.5	3.2 GB	6 GB	Orijinale yakın
F16	16	6.0 GB	12 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~0.3 GB	~2.1 GB
8K token	~0.7 GB	~2.5 GB
32K token	~2.7 GB	~4.5 GB
128K token	~10.8 GB	~12.6 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	~168 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~471 tok/s
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run ministral-3:3b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Mistral AI — resmi sayfa

Mistral AI tarafından resmi sayfa ve dokümantasyon.