Granite 4.0 H Small çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 32 GB toplam sistem belleği gerekir; indirme boyutu 19.4 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Granite 4.0 H Small ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Granite 4.0 H Small için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Granite 4.0 H Small modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Granite 4.0 H Small için tam fine-tuning yaklaşık 384 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 48 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Granite 4.0 H Small çalıştırabilir miyim?

IBM imzalı Granite 4.0 H Small, önerilen 4-bit nicemlemede yaklaşık 32 GB RAM ister (19.4 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. Apple M-series Max üzerinde yaklaşık ~64 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Granite 4.0 H Small, IBM'in mixture-of-experts (MoE) modeli: kâğıt üzerinde 32B parametre, ama token başına yalnızca yaklaşık 9B'si aktif. İşin özü tam da bu ayrımda. Her token ağırlıkların sadece bir kısmına dokunduğu için boyutuna göre hızlı çalışıyor; ancak modelin tamamını yine de bellekte tutman gerekiyor, yani planlamanı aktif parametreye değil 32 GB'lik alt sınıra göre yap. 4-bit niceleme (quant) ile yaklaşık 19.4 GB'ye iniyor; bu da RTX 3060 gibi 12 GB'lik bir kartı tamamen devre dışı bırakıyor ve seni 24 GB'lik bir GPU'ya ya da bol birleşik belleğe sahip bir Apple Silicon Mac'e yönlendiriyor. Sohbet ve kodlama işleri için tasarlanmış, dizüstünde gelişigüzel denemeler için değil.

RTX 4090 üzerinde saniyede yaklaşık 157 token hızında çalışıyor; bu okuma hızının çok ötesinde ve etkileşimli kodlama oturumlarını keyifli hâle getiriyor. M serisi Max'te yaklaşık 64 tok/s görüyorsun, yine rahat bir tempo; saf CPU'da DDR5 ile ise yaklaşık 9 tok/s'ye düşüyor, toplu (batch) işler için kullanılabilir ama canlı sohbet için değil. 128K bağlam gerçek, ancak pahalı: tamamını doldurduğunda toplam bellek yaklaşık 50.7 GB'ye tırmanıyor, dolayısıyla 24 GB'lik bir kartta tavana yakın çalışman fiilen mümkün değil. Yedekte 64 GB'lik bir Mac'in yoksa çalışma bağlamını mütevazı tut.

Benzer toplam boyutta yoğun (dense) bir model olan Qwen 3 32B ile kıyaslandığında, MoE tasarımı sayesinde Granite donanım üzerinde genelde daha hafif hissettiriyor; gerçi her token'da tüm parametrelerini aktive ettiği için Qwen 3, ağır muhakeme işlerinde öne geçme eğiliminde. Daha küçük ve daha basit bir şey istiyorsan, yoğun Granite 3.3 8B mütevazı GPU'lara daha kolay oturuyor. Granite 4.0 H Small'ın öne çıkan özelliği, gerçekten kendin barındırabileceğin (self-host) hızlı bir 32B sınıfı model olması; üstelik Apache 2.0 lisansıyla geliyor, yani lisans derdi olmadan ticari olarak kullanmakta özgürsün.

Teknik özellikler

Parametre32B (9B aktif)

Bağlam penceresi128K token

SağlayıcıIBM

LisansApache 2.0

Çıkış2025-10

En iyi olduğu alanSohbet, Kodlama

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	13.4 GB	24 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	19.4 GB	32 GB	Önerilen
Q5_K_M	5.65	22.6 GB	32 GB	Yüksek
Q8_0	8.5	34.0 GB	48 GB	Orijinale yakın
F16	16	64.0 GB	96 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~1.0 GB	~20.4 GB
8K token	~2.0 GB	~21.4 GB
32K token	~7.8 GB	~27.2 GB
128K token	~31.3 GB	~50.7 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	VRAM'e sığmaz
NVIDIA RTX 4090 24GB	1008 GB/s	~157 tok/s
Apple M-series (base)	100 GB/s	~16 tok/s
Apple M-series Pro	270 GB/s	~42 tok/s
Apple M-series Max	410 GB/s	~64 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~9 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run granite4:32b-a9b-h

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Resmi GitHub reposu

IBM kaynak kodu, sürümler ve issue'lar.