LLM donanım gereksinimlerini nasıl hesaplıyoruz?
Bu sayfalardaki her sayı aşağıdaki formüllerden geliyor — gizli sihir yok, kopyalanmış spec tablosu yok. Bunlar yaklaşık değerler; sınırlarını da açıkça anlatıyoruz.
Kuantizasyona göre indirme boyutu
size_GB = params_B × bits_per_weight ÷ 8Bir modelin dosya boyutu, parametre sayısı × ağırlık başına bit ÷ 8'dir. Bit değerleri GGUF format yükünü içerir — örneğin Q4_K_M etkin 4.85 bittir; yani 8B'lik bir model 8 × 4.85 ÷ 8 ≈ 4.9 GB eder. Gerçek GGUF derlemeleri yüzde birkaç oynayabilir.
Minimum sistem RAM'i
min_RAM = size_GB × 1.25 + 1.5 → next standard tierQ4_K_M bellek-içi boyutunu alıp %25 çalışma zamanı yükü (aktivasyonlar, tamponlar) ve işletim sistemi için 1.5 GB ekliyor, ardından bir üst standart bellek boyutuna (8, 12, 16, 24, 32 GB...) yuvarlıyoruz. Tablolardaki 'Min RAM' değeri bu yuvarlanmış sayıdır.
Bağlam uzunluğuna göre KV önbelleği
kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45KV önbelleği bağlam uzunluğuyla doğrusal büyür. Gruplu sorgu dikkati kullanan Llama 3.1 8B'yi çapa alıyoruz — 32 katman × 8 KV başlığı × 128 başlık boyutu × 2 (K ve V) × 2 bayt ≈ token başına 131 kB — ve parametre sayısıyla doğrusal-altı (0.45 üssü) ölçekliyoruz; çünkü derinlik ve KV genişliği toplam parametreden daha yavaş büyür. 4K bağlamda sığan bir modelin 32K'da belleği tüketebilmesinin nedeni bu.
Hız (tok/s) tahminleri
tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GBToken üretimi bellek bant genişliğine bağlıdır: her token üretimi, tüm aktif ağırlıkları bir kez okur. Yani tok/s ≈ bant genişliği × 0.85 ÷ Q4 model boyutu; 0.85, ham kopyalama testine göre deneysel verimlilik katsayısıdır. Uzman karışımı (MoE) modellerde yalnızca aktif parametreler sayılır — 30B'lik bir MoE'nin yoğun bir 8B'den hızlı olabilmesinin nedeni bu.
Tarayıcı içi bant genişliği testi
İsteğe bağlı test, etkin GPU bellek bant genişliğini büyük WebGPU tampondan-tampona kopyalarla ölçer ve 1–2 saniye sürer. Tamamen tarayıcında çalışır; hiçbir şey yüklenmez, hiçbir şey saklanmaz. Apple Silicon'da ölçülen bant genişliği, çip sınıfı tahminini de (base / Pro / Max / Ultra) netleştirir.
Bilinen sınırlar
Bunlar planlama tahminleridir, senin makinenin birebir ölçümü değildir. Gerçek hız; çalışma zamanına (llama.cpp, MLX, vLLM), bağlam uzunluğuna, batch boyutuna ve ısınmaya göre değişir. Uyum kararları önerilen Q4_K_M sürümünü ve çoğunlukla boşta bir makineyi varsayar — sınırda bir modelde uygulamaları kapatman ya da bir kuantizasyon kademesi inmen gerekebilir.
Ağırlık başına etkin bit
| Nicemleme | Bit/ağırlık | Kalite |
|---|---|---|
| Q2_K | 3.35 | Belirgin kayıp |
| Q4_K_M | 4.85 | Önerilen |
| Q5_K_M | 5.65 | Yüksek |
| Q8_0 | 8.5 | Orijinale yakın |
| F16 | 16 | Orijinal |
Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11