Gemma 4 26B A4B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 24 GB toplam sistem belleği gerekir; indirme boyutu 15.3 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Gemma 4 26B A4B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Gemma 4 26B A4B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Gemma 4 26B A4B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Gemma 4 26B A4B için tam fine-tuning yaklaşık 302 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 38 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Gemma 4 26B A4B çalıştırabilir miyim?

Google imzalı Gemma 4 26B A4B, önerilen 4-bit nicemlemede yaklaşık 24 GB RAM ister (15.3 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. Apple M-series Max üzerinde yaklaşık ~151 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Gemma 4 26B A4B, Google'ın mixture-of-experts (MoE) modeli ve işin püf noktası tam da isimde gizli: toplam 25.2B parametre taşıyor ama token başına bunların yalnızca 3.8B'sini yönlendiriyor. Yani küçük bir model hızında üretim yapıyor, fakat belleğe modelin tamamını sığdırmanız gerekiyor. 4-bit quant ile yaklaşık 15.3 GB'a oturuyor ve rahatça yüklemek için en az 24 GB RAM istiyorsunuz. Bu da RTX 3060 gibi 12 GB'lık bir kartı tamamen eliyor; o karta basitçe sığmıyor. Sizi ya 24 GB'lık bir GPU'ya ya da bol unified memory'li bir Apple Silicon makineye yönlendiriyor.

Günlük kullanımda MoE tasarımı kendini gösteriyor. RTX 4090 üzerinde saniyede yaklaşık 372 token üretiyor; bu, okuma hızınızdan çok daha hızlı akış demek. M serisi bir Max çipi de hâlâ 151 tok/s civarında bir değer veriyor. DDR5 ile yalnızca CPU'da hız ~22 tok/s'ye düşüyor; toplu işler için iş görür ama interaktif sohbet için değil. Bağlam penceresi 256K gibi cömert bir değer, ancak bunu bir tavan olarak görün: 128K bağlamda toplam bellek ayak izi yaklaşık 43.4 GB'a tırmanıyor. Dolayısıyla 24 GB'lık bir kurulumda, 10.6 GB'lık q2 sürümüne düşmediğiniz sürece çalışma bağlamını ölçülü tutarsınız.

Benzer boyutta yoğun (dense) bir vision modeli olan Mistral Small 3.1 24B ile karşılaştırıldığında, Gemma 4 seyrek yönlendirme sayesinde token başına genelde daha çevik hissettiriyor; gerçi o sınıftaki dense modeller en zorlu tek geçişli akıl yürütmede öne geçebiliyor. Öne çıkan özelliği, bu hız-yetenek oranı ve tek pakette gerçek anlamda vision ile coding desteği sunması. Lisansı Apache 2.0, yani sağlayıcıya özgü kısıtlamalar olmadan ticari olarak ve üretimde kullanabilirsiniz; bu boyutta nadir görülen ve modelin lehine sağlam bir artı. ollama ile gemma4:26b olarak çekebilirsiniz.

Teknik özellikler

Parametre25.2B (3.8B aktif)

Bağlam penceresi256K token

SağlayıcıGoogle

LisansApache 2.0

Çıkış2026-04

En iyi olduğu alanSohbet, Kodlama, Akıl yürütme, Görüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	10.6 GB	16 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	15.3 GB	24 GB	Önerilen
Q5_K_M	5.65	17.8 GB	24 GB	Yüksek
Q8_0	8.5	26.8 GB	48 GB	Orijinale yakın
F16	16	50.4 GB	96 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~0.9 GB	~16.2 GB
8K token	~1.8 GB	~17.1 GB
32K token	~7.0 GB	~22.3 GB
128K token	~28.1 GB	~43.4 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	VRAM'e sığmaz
NVIDIA RTX 4090 24GB	1008 GB/s	~372 tok/s
Apple M-series (base)	100 GB/s	~37 tok/s
Apple M-series Pro	270 GB/s	~100 tok/s
Apple M-series Max	410 GB/s	~151 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~22 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run gemma4:26b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Resmi GitHub reposu

Google kaynak kodu, sürümler ve issue'lar.