LLM donanım gereksinimlerini nasıl hesaplıyoruz?

Bu sayfalardaki her sayı aşağıdaki formüllerden geliyor — gizli sihir yok, kopyalanmış spec tablosu yok. Bunlar yaklaşık değerler; sınırlarını da açıkça anlatıyoruz.

Kuantizasyona göre indirme boyutu

size_GB = params_B × bits_per_weight ÷ 8

Bir modelin dosya boyutu, parametre sayısı × ağırlık başına bit ÷ 8'dir. Bit değerleri GGUF format yükünü içerir — örneğin Q4_K_M etkin 4.85 bittir; yani 8B'lik bir model 8 × 4.85 ÷ 8 ≈ 4.9 GB eder. Gerçek GGUF derlemeleri yüzde birkaç oynayabilir.

Minimum sistem RAM'i

min_RAM = size_GB × 1.25 + 1.5 → next standard tier

Q4_K_M bellek-içi boyutunu alıp %25 çalışma zamanı yükü (aktivasyonlar, tamponlar) ve işletim sistemi için 1.5 GB ekliyor, ardından bir üst standart bellek boyutuna (8, 12, 16, 24, 32 GB...) yuvarlıyoruz. Tablolardaki 'Min RAM' değeri bu yuvarlanmış sayıdır.

Bağlam uzunluğuna göre KV önbelleği

kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45

KV önbelleği bağlam uzunluğuyla doğrusal büyür. Gruplu sorgu dikkati kullanan Llama 3.1 8B'yi çapa alıyoruz — 32 katman × 8 KV başlığı × 128 başlık boyutu × 2 (K ve V) × 2 bayt ≈ token başına 131 kB — ve parametre sayısıyla doğrusal-altı (0.45 üssü) ölçekliyoruz; çünkü derinlik ve KV genişliği toplam parametreden daha yavaş büyür. 4K bağlamda sığan bir modelin 32K'da belleği tüketebilmesinin nedeni bu.

Hız (tok/s) tahminleri

tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GB

Token üretimi bellek bant genişliğine bağlıdır: her token üretimi, tüm aktif ağırlıkları bir kez okur. Yani tok/s ≈ bant genişliği × 0.85 ÷ Q4 model boyutu; 0.85, ham kopyalama testine göre deneysel verimlilik katsayısıdır. Uzman karışımı (MoE) modellerde yalnızca aktif parametreler sayılır — 30B'lik bir MoE'nin yoğun bir 8B'den hızlı olabilmesinin nedeni bu.

Tarayıcı içi bant genişliği testi

İsteğe bağlı test, etkin GPU bellek bant genişliğini büyük WebGPU tampondan-tampona kopyalarla ölçer ve 1–2 saniye sürer. Tamamen tarayıcında çalışır; hiçbir şey yüklenmez, hiçbir şey saklanmaz. Apple Silicon'da ölçülen bant genişliği, çip sınıfı tahminini de (base / Pro / Max / Ultra) netleştirir.

Bilinen sınırlar

Bunlar planlama tahminleridir, senin makinenin birebir ölçümü değildir. Gerçek hız; çalışma zamanına (llama.cpp, MLX, vLLM), bağlam uzunluğuna, batch boyutuna ve ısınmaya göre değişir. Uyum kararları önerilen Q4_K_M sürümünü ve çoğunlukla boşta bir makineyi varsayar — sınırda bir modelde uygulamaları kapatman ya da bir kuantizasyon kademesi inmen gerekebilir.

Ağırlık başına etkin bit

Nicemleme	Bit/ağırlık	Kalite
Q2_K	3.35	Belirgin kayıp
Q4_K_M	4.85	Önerilen
Q5_K_M	5.65	Yüksek
Q8_0	8.5	Orijinale yakın
F16	16	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11