Gemma 4 E2B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 6 GB toplam sistem belleği gerekir; indirme boyutu 3.1 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Gemma 4 E2B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Gemma 4 E2B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Gemma 4 E2B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Gemma 4 E2B için tam fine-tuning yaklaşık 61 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 8 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Gemma 4 E2B çalıştırabilir miyim?

Google imzalı Gemma 4 E2B, önerilen 4-bit nicemlemede yaklaşık 6 GB RAM ister (3.1 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. NVIDIA RTX 3060 12GB üzerinde yaklaşık ~219 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Gemma 4 E2B, Google'ın küçük mixture-of-experts modeli ve işin ilginç tarafı matematikte: toplam 5.1B parametre taşıyor ama her token için yalnızca yaklaşık 2.3B parametreyi aktif ediyor. Yani çok daha küçük bir model hızında çalışıyor, ama yine de ağırlıkların tamamı için belleğe ihtiyaç duyuyor. 4-bit quant yaklaşık 3.1 GB'a oturuyor ve ağırlık setinin tamamını tutmak için en az 6 GB RAM istersiniz. Bu, giriş seviyesi 8 GB bir GPU'ya ya da herhangi bir Apple Silicon Mac'e rahatça sığıyor. Üstelik hem sohbet hem de görüntü işliyor, yani sadece metin değil görseller de verebilirsiniz.

Günlük kullanımda aktif-parametre numarası ham hızda kendini gösteriyor. RTX 3060 12GB üzerinde 4-bit'te saniyede yaklaşık 219 token üretiyor, RTX 4090 bunu 600'ün üzerine taşıyor; M-serisi Max ise 250 civarında. Yanıtlar okuyabileceğinizden çok daha hızlı akıyor. Dikkat edilmesi gereken nokta 128K bağlam: onu doldurursanız toplam bellek yaklaşık 16.8 GB'a tırmanıyor, kısa bağlamda yeten 6 GB'ın çok ötesinde. Küçük bir kartta çalışma bağlamını birkaç bin token ile sınırlı tutun, yoksa KV cache modelin kendisinden büyür.

Kendi ailesi içinde, MoE bellek ayak iziyle uğraşmak istemiyorsanız Gemma 3 4B yoğun (dense) alternatif; Qwen 3 4B ise çok adımlı akıl yürütmede genellikle önde, çünkü onun açıkça belirttiği odağı bu. Gemma 4 E2B'nin öne çıkan yanı, bu kadar hafif bir pakette hız-yetenek oranı ile birlikte gelen yerel görüntü desteği; bu boyutta nadir bir kombinasyon. Lisansı Apache 2.0, dolayısıyla Google'ın eski Gemma şartlarının aksine üretimde ticari olarak kullanabilirsiniz, okumanız gereken özel bir lisans yok. ollama run gemma4:e2b ile çekin, hazırsınız.

Teknik özellikler

Parametre5.1B (2.3B aktif)

Bağlam penceresi128K token

SağlayıcıGoogle

LisansApache 2.0

Çıkış2026-04

En iyi olduğu alanSohbet, Görüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	2.1 GB	6 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	3.1 GB	6 GB	Önerilen
Q5_K_M	5.65	3.6 GB	6 GB	Yüksek
Q8_0	8.5	5.4 GB	12 GB	Orijinale yakın
F16	16	10.2 GB	16 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~0.4 GB	~3.5 GB
8K token	~0.9 GB	~4.0 GB
32K token	~3.4 GB	~6.5 GB
128K token	~13.7 GB	~16.8 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	~219 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~614 tok/s
Apple M-series (base)	100 GB/s	~61 tok/s
Apple M-series Pro	270 GB/s	~165 tok/s
Apple M-series Max	410 GB/s	~250 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~37 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run gemma4:e2b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Resmi GitHub reposu

Google kaynak kodu, sürümler ve issue'lar.