Nemotron 3 Super 120B-A12B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 96 GB toplam sistem belleği gerekir; indirme boyutu 72.8 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Nemotron 3 Super 120B-A12B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Nemotron 3 Super 120B-A12B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Nemotron 3 Super 120B-A12B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Nemotron 3 Super 120B-A12B için tam fine-tuning yaklaşık 1440 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 180 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Nemotron 3 Super 120B-A12B çalıştırabilir miyim?

NVIDIA imzalı Nemotron 3 Super 120B-A12B, önerilen 4-bit nicemlemede yaklaşık 96 GB RAM ister (72.8 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. Apple M-series Max üzerinde yaklaşık ~48 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Nemotron 3 Super 120B-A12B, NVIDIA'nın mixture-of-experts modeli; sınır seviyesinde akıl yürütme ve kod yazımını kendi donanımında çalıştırmak isteyen ve bunu kaldıracak belleğe sahip olanlar için. Toplam 120B parametre taşısa da token başına yalnızca 12B aktif olur, yani boyutunun düşündürdüğünden çok daha hızlı çalışır; ama yine de modelin tamamı için yer ister. İşin püf noktası burada: 4-bit niceleme (quant) ile bile yaklaşık 72.8 GB tutuyor ve yüklemek için en az 96 GB RAM gerekiyor. Bu bir 8 GB GPU modeli değil. 24 GB'lık RTX 4090 onu sığdıramaz, hatta yaklaşık 50 GB'lık 2-bit sürüm bile erişilemez kalır. Gerçekçi yuvası ya geniş birleşik bellekli bir Apple Silicon makinesi ya da bol sistem RAM'i olan bir sunucudur.

Günlük kullanımda MoE tasarımı meyvesini veriyor. Apple M Max üzerinde saniyede yaklaşık 48 token bekleyebilirsin; 120B etiketine rağmen sohbet, çok adımlı akıl yürütme ve kod yardımı için gerçekten interaktif hissettiren bir hız. DDR5 ile CPU'ya verirsen saniyede yaklaşık 7 token'a düşersin; toplu işler için kullanılabilir ama canlı konuşma için değil. Bağlam penceresi 1000K token ile devasa, ama bunu sonuna kadar açık bırakacağın bir ayar değil, bir tavan olarak düşün. 128K'yı doldurmak bile KV cache hesaba katıldığında toplam belleği yaklaşık 129.5 GB'a çıkarır; yani 96 GB'lık bir makinede reklam edilen sınıra varmadan çok önce yerin tükenir. Bol belleğin yoksa çalışma bağlamını mütevazı tut.

En yakın akrabaları arasında Nemotron 3 Super ilginç bir konumda. Qwen 3.5 122B-A10B benzer ölçekte bir MoE ve aynı zamanda görüntüyü de işliyor; bu model işlemiyor, dolayısıyla görsel girdiye ihtiyacın varsa genelde o öne geçer. Mistral Small 4 119B boyut olarak kıyaslanabilir ve o da çok kipli. Donanımın buraya kadar uzanamıyorsa, çok daha küçük olan Nemotron 3 Nano 30B-A3B aynı ailenin hafif alternatifi ve kısıtlı makinelerde genellikle pragmatik tercih oluyor. Super'in göze çarpan özelliği, onu barındırabilenlere 120B sınıfı akıl yürütmeyi 12B sınıfı hızda sunması. Bir uyarı: NVIDIA Open Model lisansı altında geliyor, dolayısıyla sade bir açık kaynak özgürlüğü varsaymak yerine ticari kullanımdan önce bu şartları kontrol et.

Teknik özellikler

Parametre120B (12B aktif)

Bağlam penceresi1M token

SağlayıcıNVIDIA

LisansNVIDIA Open Model

Çıkış2026-03

En iyi olduğu alanSohbet, Akıl yürütme, Kodlama

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	50.3 GB	96 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	72.8 GB	96 GB	Önerilen
Q5_K_M	5.65	84.8 GB	128 GB	Yüksek
Q8_0	8.5	127.5 GB	192 GB	Orijinale yakın
F16	16	240.0 GB	256 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~1.8 GB	~74.6 GB
8K token	~3.5 GB	~76.3 GB
32K token	~14.2 GB	~87.0 GB
128K token	~56.7 GB	~129.5 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	VRAM'e sığmaz
NVIDIA RTX 4090 24GB	1008 GB/s	VRAM'e sığmaz
Apple M-series (base)	100 GB/s	~12 tok/s
Apple M-series Pro	270 GB/s	~32 tok/s
Apple M-series Max	410 GB/s	~48 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~7 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run nemotron-3-super:120b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

NVIDIA — resmi sayfa

NVIDIA tarafından resmi sayfa ve dokümantasyon.