Qwen 3.5 4B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 6 GB toplam sistem belleği gerekir; indirme boyutu 2.4 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Qwen 3.5 4B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Qwen 3.5 4B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Qwen 3.5 4B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Qwen 3.5 4B için tam fine-tuning yaklaşık 48 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 6 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Qwen 3.5 4B çalıştırabilir miyim?

Alibaba imzalı Qwen 3.5 4B, önerilen 4-bit nicemlemede yaklaşık 6 GB RAM ister (2.4 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. NVIDIA RTX 3060 12GB üzerinde yaklaşık ~126 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Qwen 3.5 4B, donanımını neredeyse hiç zorlamayan, yetenekli bir yerel asistan isteyenler için tasarlanmış küçük, yoğun (dense) bir model. 4-bit quant ile boyutu 2.4 GB civarında kalıyor; bu sayede hemen her modern GPU'ya rahatça yerleşiyor, Apple Silicon Mac'lerde unified memory üzerinde sorunsuz çalışıyor ve 6 GB minimum RAM gereksinimi sayesinde eski bir dizüstü bile bu modeli barındırabiliyor. Üstelik sadece sohbet değil, görsel (vision) işlemeyi de destekliyor; bu boyutta pek rastlanmayan bir şey. Apache 2.0 lisansı, hiçbir kısıtlama olmadan ticari olarak ve production ortamında kullanabileceğiniz anlamına geliyor.

Günlük kullanımda hızlı. Bir RTX 4090'da saniyede yaklaşık 353 token görürsünüz; orta seviye bir RTX 3060 bile kabaca 126 tok/s veriyor ki ikisi de okuyabileceğinizden çok daha hızlı. M serisi bir Max yaklaşık 144 tok/s seviyesinde duruyor, DDR5 üzerinde salt CPU bile sabırlıysanız 21 tok/s civarını yakalıyor. 256K bağlam (context) penceresi cömert, ama bunu varsayılan değil, bir manevra alanı olarak görün. Pencereyi doldurdukça bellek tüketimi hızla tırmanıyor: 128K bağlamda toplam ayak izi yaklaşık 14.7 GB'a ulaşıyor ki bu çoğu tüketici kartının kapasitesini aşar. O yüzden bol belleğiniz yoksa çalışma bağlamını mütevazı tutun.

Kendi ailesi içinde, daha çok telefon ve gömülü (embedded) kullanıma uygun olan küçük Qwen 3 1.7B ve 0.6B modellerinin epey üstünde yer alıyor; o modeller asıl asistanınız olmaktan ziyade bu tür senaryolara daha yatkın. Phi-4 Mini 3.8B ile karşılaştırıldığında, Qwen 3.5 4B görsel desteği ve daha uzun bağlamı sayesinde genellikle daha kapsamlı hissettiriyor; Phi-4 Mini ise dar kapsamlı akıl yürütme görevlerinde kendini iyi savunuyor. Buradaki asıl öne çıkan özellik, bu ayak izinin sunduğu değer: tamamen serbest bir lisans altında, mütevazı donanımda hızlı çalışan multimodal bir 4B nadir bir kombinasyon ve bu da onu hafif bir yerel kurulum için kolay bir varsayılan tercih haline getiriyor.

Teknik özellikler

Parametre4B

Bağlam penceresi256K token

SağlayıcıAlibaba

LisansApache 2.0

Çıkış2026-03

En iyi olduğu alanSohbet, Görüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	1.7 GB	4 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	2.4 GB	6 GB	Önerilen
Q5_K_M	5.65	2.8 GB	6 GB	Yüksek
Q8_0	8.5	4.3 GB	8 GB	Orijinale yakın
F16	16	8.0 GB	12 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~0.4 GB	~2.8 GB
8K token	~0.8 GB	~3.2 GB
32K token	~3.1 GB	~5.5 GB
128K token	~12.3 GB	~14.7 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	~126 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~353 tok/s
Apple M-series (base)	100 GB/s	~35 tok/s
Apple M-series Pro	270 GB/s	~95 tok/s
Apple M-series Max	410 GB/s	~144 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~21 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run qwen3.5:4b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Resmi GitHub reposu

Alibaba kaynak kodu, sürümler ve issue'lar.