Qwen3 Coder Next 80B-A3B çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 64 GB toplam sistem belleği gerekir; indirme boyutu 48.5 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

Qwen3 Coder Next 80B-A3B ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

Qwen3 Coder Next 80B-A3B için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

Qwen3 Coder Next 80B-A3B modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. Qwen3 Coder Next 80B-A3B için tam fine-tuning yaklaşık 960 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 120 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

Qwen3 Coder Next 80B-A3B çalıştırabilir miyim?

Alibaba imzalı Qwen3 Coder Next 80B-A3B, önerilen 4-bit nicemlemede yaklaşık 64 GB RAM ister (48.5 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. Apple M-series Max üzerinde yaklaşık ~192 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

Qwen3 Coder Next 80B-A3B bir kodlama uzmanı ve Mixture-of-Experts mimarisiyle kurulu; işin tüm özeti de bu mimaride. Toplam 80B parametresi var ama token başına yalnızca 3B'sini etkinleştiriyor, dolayısıyla boyutunun düşündürdüğünden çok daha hızlı çalışıyor; yine de modelin tamamını bellekte tutmanız gerekiyor. 4-bit'te yaklaşık 48.5 GB tutuyor ki bu da tüm tüketici GPU'larını eler: 24 GB'lık RTX 4090'a sığmıyor, 12 GB'lık 3060'tan hiç bahsetmiyorum bile. Gerçekçi adresi, bol birleşik belleğe sahip bir Apple Silicon Mac ya da 64 GB ve üzeri sistem RAM'i olan bir iş istasyonu. Planınızı aktif 3B'ye değil, minimum 64 GB rakamına göre yapın.

Günlük kullanımda MoE tasarımı kendini gösteriyor. Bir Apple M Max üzerinde saniyede yaklaşık 192 token akıtıyor ki bu, kod tamamlama ve refactoring için anlık hissettiriyor; DDR5 üzerinde saf CPU çıkarımı bile saniyede yaklaşık 28 token çıkarıyor — yavaş ama bu boyutta bir model için gerçekten kullanılabilir. 256K'lık bağlam penceresi, depoların tamamı üzerinde çalışmak için öne çıkan özellik; ama püf nokta bellekte: 128K bağlamda toplam ayak izi yaklaşık 95.8 GB'a tırmanıyor. Devasa bir kod tabanını yüklemeden önce bunu aklınızda tutun, çünkü 64 GB'lık bir makinede sizi sınırın ötesine itecek olan ağırlıklar değil, KV cache'tir.

Kendi ağırlık sınıfındaki Llama 3.1 70B gibi yoğun (dense) alternatiflerle kıyaslandığında bu model, genel olarak ham genişlikten ödün verip kodlama odağı ve hız kazanıyor: MoE yönlendirmesi sayesinde 70B'lik yoğun bir modelden daha hızlı yanıt veriyor ve genel sohbet yerine kodda uzmanlaşıyor — genel sohbet için daha küçük Qwen 3 sohbet sürümleri zaten daha uygun. Öne çıkan özelliği, 80B sınıfı bir modelden neredeyse anlık üretim elde etmesini sağlayan o hız-boyut oranı. Pratik bir bonus da lisansı: Apache 2.0, yani önce baştan okumanız gereken sağlayıcıya özgü kısıtlamalar olmadan onu ticari ve üretim işlerinde özgürce kullanabilirsiniz.

Teknik özellikler

Parametre80B (3B aktif)

Bağlam penceresi256K token

SağlayıcıAlibaba

LisansApache 2.0

Çıkış2026-02

En iyi olduğu alanKodlama

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	33.5 GB	48 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	48.5 GB	64 GB	Önerilen
Q5_K_M	5.65	56.5 GB	96 GB	Yüksek
Q8_0	8.5	85.0 GB	128 GB	Orijinale yakın
F16	16	160.0 GB	256 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~1.5 GB	~50.0 GB
8K token	~3.0 GB	~51.5 GB
32K token	~11.8 GB	~60.3 GB
128K token	~47.3 GB	~95.8 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	VRAM'e sığmaz
NVIDIA RTX 4090 24GB	1008 GB/s	VRAM'e sığmaz
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run qwen3-coder-next

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Alibaba — resmi sayfa

Alibaba tarafından resmi sayfa ve dokümantasyon.