Gemma 4 31B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 32 GB toplam sistem belleği gerekir; indirme boyutu 18.6 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Gemma 4 31B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Gemma 4 31B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Gemma 4 31B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Gemma 4 31B için tam fine-tuning yaklaşık 368 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 46 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Gemma 4 31B çalıştırabilir miyim?

Google imzalı Gemma 4 31B, önerilen 4-bit nicemlemede yaklaşık 32 GB RAM ister (18.6 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. Apple M-series Max üzerinde yaklaşık ~19 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Gemma 4 31B, Google'ın 30.7B parametreli orta-büyük açık ağırlıklı modeli; sohbet, kodlama, akıl yürütme ve görme yeteneklerini tek pakette topluyor. Bu, dizüstüyle yolda çalıştırılacak bir model değil. 4-bit niceleme (quant) ile yaklaşık 18.6 GB yer kaplıyor ve sırf yüklemek için bile en az 32 GB RAM gerekiyor; yani RTX 3060 gibi 12 GB'lık bir kart bu modele basitçe yetmiyor. Gerçekçi yuvası, RTX 4090 gibi 24 GB'lık bir GPU ya da bol unified bellekli bir Apple Silicon Mac. Yetenekli, her işe koşan bir model istiyorsanız ve donanımınız varsa, yerel modellerin gerçekten işe yaramaya başladığı seviye tam da burası.

Günlük kullanımda hızlı olmaktan çok rahat bir model. RTX 4090 üzerinde 4-bit ile saniyede yaklaşık 46 token bekleyebilirsiniz; akarken birlikte okuyabileceğiniz kadar hızlı. Apple M Max üzerinde ise saniyede 19 token'a yakın bir yere oturuyor, etkileşimli iş için hâlâ gayet iyi. DDR5 üzerinde saf CPU ise saniyede kabaca 3 token'a düşüyor ki bu yalnızca sabır işi. 256K bağlam penceresi cömert ama pahalı: 128K'ya doğru zorlamak bile toplamda yaklaşık 49.3 GB bellek tüketiyor. Bu yüzden tam pencereyi bir tavan olarak görün ve elinizde bol pay yoksa çalışma bağlamını mütevazı tutun.

Neredeyse birebir kardeşi olan 30.5B'lik Qwen 3 30B-A3B ile kıyaslandığında fark mimari: Qwen'in mixture-of-experts tasarımı token başına daha hafif çalışma eğiliminde, Gemma 4 31B ise her geçişte tüm ağırlığını kullanan yoğun (dense) bir model ve genelde görme ile geniş talimat takibinde daha istikrarlı hissettiriyor. Çok daha küçük bir şey istiyorsanız Gemma 3 4B daha hafif seçenek. Buradaki asıl öne çıkan şey kapsam genişliği: sohbet, kod, akıl yürütme ve görüntüleri tek bir modelde toplaması ve bunu ticari olarak ve üretimde, sağlayıcıya özel kısıtlamalar olmadan kullanabileceğiniz temiz bir Apache 2.0 lisansı altında sunması.

Teknik özellikler

Parametre30.7B

Bağlam penceresi256K token

SağlayıcıGoogle

LisansApache 2.0

Çıkış2026-04

En iyi olduğu alanSohbet, Kodlama, Akıl yürütme, Görüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	12.9 GB	24 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	18.6 GB	32 GB	Önerilen
Q5_K_M	5.65	21.7 GB	32 GB	Yüksek
Q8_0	8.5	32.6 GB	48 GB	Orijinale yakın
F16	16	61.4 GB	96 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~1.0 GB	~19.6 GB
8K token	~1.9 GB	~20.5 GB
32K token	~7.7 GB	~26.3 GB
128K token	~30.7 GB	~49.3 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	VRAM'e sığmaz
NVIDIA RTX 4090 24GB	1008 GB/s	~46 tok/s
Apple M-series (base)	100 GB/s	~5 tok/s
Apple M-series Pro	270 GB/s	~12 tok/s
Apple M-series Max	410 GB/s	~19 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run gemma4:31b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Resmi GitHub reposu

Google kaynak kodu, sürümler ve issue'lar.