Qwen 3.5 122B-A10B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 96 GB toplam sistem belleği gerekir; indirme boyutu 74.0 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Qwen 3.5 122B-A10B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Qwen 3.5 122B-A10B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Qwen 3.5 122B-A10B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Qwen 3.5 122B-A10B için tam fine-tuning yaklaşık 1464 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 183 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Qwen 3.5 122B-A10B çalıştırabilir miyim?

Alibaba imzalı Qwen 3.5 122B-A10B, önerilen 4-bit nicemlemede yaklaşık 96 GB RAM ister (74.0 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. Apple M-series Max üzerinde yaklaşık ~57 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Qwen 3.5 122B-A10B, sınır seviyesinde sohbet, akıl yürütme, kod yazma ve görsel anlama yeteneklerini kendi donanımında çalıştırmak isteyenler için büyük bir mixture-of-experts (MoE) modeli. İşin tamamı MoE tasarımında: 122B toplam parametrenin yalnızca 10B'si her token için aktif oluyor, dolayısıyla bu boyuttaki yoğun (dense) bir modele kıyasla çok daha hızlı üretim yapıyor. Asıl sorun bellek, çünkü modelin tamamını yine de bellekte tutman gerekiyor. 4-bit niceleme (quant) ile bu yaklaşık 74 GB ediyor ve modeli yükleyebilmek için kabaca 96 GB RAM gerekiyor. Pratikte bu, yüksek bellekli bir iş istasyonu ya da bol miktarda birleşik (unified) belleğe sahip bir Apple Silicon Mac demek; 24 GB'lık bir RTX 4090'a sığmıyor, 12 GB'lık bir karta ise hiç sığmaz.

Sığdığı yerde ise o 10B aktif parametre sayesinde boyutuna göre şaşırtıcı derecede hızlı hissettiriyor. Bir M Max üzerinde saniyede yaklaşık 57 tok/s bekleyebilirsin; akarken rahatça okuyacak kadar hızlı. Yalnızca CPU ile çalışan bir DDR5 makinede ise bu hız kabaca 8 tok/s'ye düşüyor ve canlı sohbetten çok toplu (batch) işler için uygun hale geliyor. Bağlam penceresi 256K'ya kadar çıkıyor, ama bunu bir tavan olarak gör. Bellek, gerçekte ne kadarını doldurduğunla birlikte büyüyor ve 128K bağlamda toplam ayak izi yaklaşık 131 GB'a tırmanıyor; yani uzun bağlam rakamları, bunun için kurulmuş bir makineyi varsayıyor.

Neredeyse aynı parametre sayısında duran Devstral 2 123B ile karşılaştırıldığında, Qwen 3.5 genel olarak salt kod odağını genişlikle takas ediyor: tek bir modelde uzmanlaşmak yerine sohbet, akıl yürütme ve görsel anlamayı bir arada sunuyor. Bu çok yönlülük onun öne çıkan özelliği; mütevazı donanımda yalnızca hafif sohbete ihtiyacın olduğunda ise daha küçük Qwen 3 0.6B ve 1.7B kardeşleri hâlâ mantıklı seçim olmayı sürdürüyor. Lisansı Apache 2.0, dolayısıyla onu ticari olarak ve üretimde kısıtlama olmadan kullanabilirsin; bu yetenek seviyesinde nadir görülen bir şey ve daha kısıtlı ağırlıklar yerine onu seçmek için gerçek bir neden.

Teknik özellikler

Parametre122B (10B aktif)

Bağlam penceresi256K token

SağlayıcıAlibaba

LisansApache 2.0

Çıkış2026-02

En iyi olduğu alanSohbet, Akıl yürütme, Kodlama, Görüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	51.1 GB	96 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	74.0 GB	96 GB	Önerilen
Q5_K_M	5.65	86.2 GB	128 GB	Yüksek
Q8_0	8.5	129.6 GB	192 GB	Orijinale yakın
F16	16	244.0 GB	256 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~1.8 GB	~75.8 GB
8K token	~3.6 GB	~77.6 GB
32K token	~14.3 GB	~88.3 GB
128K token	~57.2 GB	~131.2 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	VRAM'e sığmaz
NVIDIA RTX 4090 24GB	1008 GB/s	VRAM'e sığmaz
Apple M-series (base)	100 GB/s	~14 tok/s
Apple M-series Pro	270 GB/s	~38 tok/s
Apple M-series Max	410 GB/s	~57 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~8 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run qwen3.5:122b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Resmi GitHub reposu

Alibaba kaynak kodu, sürümler ve issue'lar.