Combien de RAM faut-il pour faire tourner Qwen3 Coder Next 80B-A3B ?

Environ 64 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 48.5 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Qwen3 Coder Next 80B-A3B peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de Qwen3 Coder Next 80B-A3B télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de Qwen3 Coder Next 80B-A3B sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Qwen3 Coder Next 80B-A3B requiert environ 960 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 120 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner Qwen3 Coder Next 80B-A3B ?

Qwen3 Coder Next 80B-A3B de Alibaba demande environ 64 GB de RAM avec la quantisation 4 bits recommandée (48.5 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~192 tok/s sur un Apple M-series Max.

Lecture des signaux matériels…

Notes pratiques

Qwen3 Coder Next 80B-A3B est un spécialiste du code conçu comme un Mixture-of-Experts, et c'est cette architecture qui explique tout. Il compte 80B de paramètres au total mais n'en active que 3B par token : il tourne donc bien plus vite que sa taille ne le laisse penser, tout en exigeant la mémoire du modèle complet. En 4-bit il pèse environ 48.5 GB, ce qui exclut tout GPU grand public : il ne tient pas sur une RTX 4090 de 24 GB, et encore moins sur une 3060 de 12 GB. Son terrain de jeu réaliste, c'est un Mac Apple Silicon doté d'une mémoire unifiée généreuse, ou une station de travail avec 64 GB de RAM système ou plus. Dimensionnez sur le minimum de 64 GB, pas sur les 3B actifs.

À l'usage quotidien, le design MoE porte ses fruits. Sur un Apple M Max il génère autour de 192 tokens par seconde, ce qui paraît instantané pour la complétion et le refactoring de code, et même l'inférence purement CPU sur DDR5 atteint environ 28 tokens par seconde : lent, mais réellement exploitable pour un modèle de cette taille. La fenêtre de contexte de 256K est l'argument phare pour travailler sur des dépôts entiers, mais la mémoire est le piège : à 128K de contexte, l'empreinte totale grimpe à environ 95.8 GB. Gardez-le en tête avant de charger une grosse base de code, car c'est le cache KV, et non les poids, qui vous fera basculer sur une machine de 64 GB.

Face aux alternatives denses de sa catégorie de poids, comme Llama 3.1 70B, ce modèle troque généralement l'étendue brute contre une spécialisation code et de la vitesse : le routage MoE lui permet de répondre plus vite qu'un modèle dense de 70B tout en se concentrant sur le code plutôt que sur la conversation généraliste, où les variantes chat plus petites de Qwen 3 conviennent mieux. Son atout marquant, c'est ce rapport vitesse/taille : une génération quasi instantanée pour un modèle de la classe des 80B. Et le bonus pratique, c'est la licence : Apache 2.0, donc vous pouvez l'utiliser librement en contexte commercial et en production, sans aucune restriction propre à un fournisseur à éplucher au préalable.

Caractéristiques

Paramètres80B (3B actifs)

Fenêtre de contexte256K tokens

ÉditeurAlibaba

LicenceApache 2.0

Sortie2026-02

Idéal pourCode

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	33.5 GB	48 GB	Perte sensible
Q4_K_MRecommandée	4.85	48.5 GB	64 GB	Recommandée
Q5_K_M	5.65	56.5 GB	96 GB	Élevée
Q8_0	8.5	85.0 GB	128 GB	Quasi originale
F16	16	160.0 GB	256 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~1.5 GB	~50.0 GB
8K tokens	~3.0 GB	~51.5 GB
32K tokens	~11.8 GB	~60.3 GB
128K tokens	~47.3 GB	~95.8 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	Ne tient pas dans la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Ne tient pas dans la VRAM
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run qwen3-coder-next

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

Alibaba — page officielle

Page officielle et documentation de Alibaba.