Ministral 3 14B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 16 GB toplam sistem belleği gerekir; indirme boyutu 8.5 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Ministral 3 14B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Ministral 3 14B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Ministral 3 14B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Ministral 3 14B için tam fine-tuning yaklaşık 168 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 21 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Ministral 3 14B çalıştırabilir miyim?

Mistral AI imzalı Ministral 3 14B, önerilen 4-bit nicemlemede yaklaşık 16 GB RAM ister (8.5 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. NVIDIA RTX 3060 12GB üzerinde yaklaşık ~36 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Ministral 3 14B, Mistral'in Aralık 2025'te çıkardığı orta boy modeli: 14B parametreli yoğun (dense) bir ağ ve aynı zamanda görüntü de işliyor. Yani hem sohbet eden hem de görselleri okuyan tek bir yerel model isteyip iki ayrı checkpoint ile uğraşmak istemediğinizde tercih edeceğiniz model bu. 4-bit niceleme (quant) ile boyutu yaklaşık 8.5 GB'a oturuyor; bu da 8 GB'lık bir kartın rahatça taşıyabileceğinin biraz ötesinde ama 12 GB'lık bir RTX 3060'ta veya 16 GB ve üzeri birleşik belleğe sahip herhangi bir Apple Silicon Mac'te tam kıvamında. Eğer iyice sıkıştıysanız 2-bit sürüme inerek boyutu yaklaşık 5.9 GB'a düşürebilirsiniz; q8 sürümü ise 15 GB'a daha yakın.

Günlük kullanımda boyutuna göre hızlı hissettiriyor. RTX 3060 12 GB'da 4-bit ile saniyede yaklaşık 36 token göreceksiniz; bu da okuma hızının rahatça üzerinde. RTX 4090 ise bunu kabaca 101 tok/s seviyesine çıkarıyor. M serisi Max yaklaşık 41 tok/s civarında kalıyor. 256K bağlam penceresi öne çıkan rakam, ama bunu varsayılan değil bir tavan olarak görün: 128K'da bile KV cache dolduğunda toplam bellek yaklaşık 30 GB'a tırmanıyor ki bu tek bir 12 GB veya 16 GB cihazın çok ötesinde. Elinizde yedek olarak 24 GB üzeri bir kart yoksa çalışma bağlamını birkaç bin token ile sınırlı tutun.

Komşularıyla kıyaslandığında Ministral 3 14B, daha büyük ve daha yeni olması sayesinde Mistral 7B ve Mistral Nemo 12B gibi eski kardeşlerine kıyasla zorlu, çok adımlı promptlarda genellikle bir adım önde. OLMo 2 13B ise sizin için ham yetenekten çok tekrar üretilebilirlik (reproducibility) önemliyse tam-açık-veri alternatifi olarak duruyor. Asıl öne çıktığı nokta, bu boyutta yerleşik görüntü (vision) yeteneğini gerçekten kullanılabilir bir hız profiliyle sunması. Lisans tarafı ise işin kolay kısmı: Apache 2.0, yani sağlayıcıya özel hiçbir bağlayıcı şart olmadan ticari olarak ve üretimde kullanabilirsiniz.

Teknik özellikler

Parametre14B

Bağlam penceresi256K token

SağlayıcıMistral AI

LisansApache 2.0

Çıkış2025-12

En iyi olduğu alanSohbet, Görüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	5.9 GB	12 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	8.5 GB	16 GB	Önerilen
Q5_K_M	5.65	9.9 GB	16 GB	Yüksek
Q8_0	8.5	14.9 GB	24 GB	Orijinale yakın
F16	16	28.0 GB	48 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~0.7 GB	~9.2 GB
8K token	~1.3 GB	~9.8 GB
32K token	~5.4 GB	~13.9 GB
128K token	~21.6 GB	~30.1 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	~36 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~101 tok/s
Apple M-series (base)	100 GB/s	~10 tok/s
Apple M-series Pro	270 GB/s	~27 tok/s
Apple M-series Max	410 GB/s	~41 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~6 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run ministral-3:14b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Mistral AI — resmi sayfa

Mistral AI tarafından resmi sayfa ve dokümantasyon.