Combien de RAM faut-il pour faire tourner Qwen 3.5 122B-A10B ?

Environ 96 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 74.0 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Qwen 3.5 122B-A10B peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de Qwen 3.5 122B-A10B télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de Qwen 3.5 122B-A10B sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Qwen 3.5 122B-A10B requiert environ 1464 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 183 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner Qwen 3.5 122B-A10B ?

Qwen 3.5 122B-A10B de Alibaba demande environ 96 GB de RAM avec la quantisation 4 bits recommandée (74.0 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~57 tok/s sur un Apple M-series Max.

Lecture des signaux matériels…

Notes pratiques

Qwen 3.5 122B-A10B est un gros modèle mixture-of-experts pensé pour ceux qui veulent du chat, du raisonnement, du code et de la vision haut de gamme sur leur propre matériel. Toute l'idée tient dans l'architecture MoE : sur ses 122B paramètres au total, seuls 10B s'activent par token, si bien qu'il génère bien plus vite qu'un modèle dense de cette taille. Le piège, c'est la mémoire, car il faut tout de même garder l'intégralité du modèle en mémoire. En quantification 4-bit cela représente environ 74 GB, et il faut à peu près 96 GB de RAM rien que pour le charger. Concrètement, il faut une station de travail à grosse mémoire ou un Mac Apple Silicon doté d'une mémoire unifiée généreuse ; il ne tient pas sur une RTX 4090 de 24 GB, encore moins sur une carte de 12 GB.

Là où il tient, il se révèle étonnamment rapide pour sa taille, justement grâce à ces 10B paramètres actifs. Sur un M Max, comptez autour de 57 tokens par seconde, assez pour lire confortablement au fil du streaming, tandis qu'une machine CPU seul en DDR5 tombe à environ 8 tokens par seconde et convient mieux au traitement par lots qu'au chat en direct. La fenêtre de contexte monte jusqu'à 256K, mais voyez-la comme un plafond. La mémoire augmente avec ce que vous remplissez réellement, et à 128K de contexte l'empreinte totale grimpe à environ 131 GB : les chiffres en contexte long supposent donc une machine conçue pour ça.

Face à Devstral 2 123B, qui affiche presque le même nombre de paramètres, Qwen 3.5 échange en général la spécialisation pure dans le code contre la polyvalence : il couvre chat, raisonnement et vision dans un seul modèle plutôt que de se cantonner à un domaine. Cette polyvalence est son atout majeur, et les petits frères Qwen 3 0.6B et 1.7B restent le choix raisonnable quand vous n'avez besoin que d'un chat léger sur du matériel modeste. La licence est Apache 2.0, vous pouvez donc l'utiliser commercialement et en production sans restriction, ce qui est rare à ce niveau de capacité et une vraie raison de le préférer à des poids plus contraints.

Caractéristiques

Paramètres122B (10B actifs)

Fenêtre de contexte256K tokens

ÉditeurAlibaba

LicenceApache 2.0

Sortie2026-02

Idéal pourChat, Raisonnement, Code, Vision

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	51.1 GB	96 GB	Perte sensible
Q4_K_MRecommandée	4.85	74.0 GB	96 GB	Recommandée
Q5_K_M	5.65	86.2 GB	128 GB	Élevée
Q8_0	8.5	129.6 GB	192 GB	Quasi originale
F16	16	244.0 GB	256 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~1.8 GB	~75.8 GB
8K tokens	~3.6 GB	~77.6 GB
32K tokens	~14.3 GB	~88.3 GB
128K tokens	~57.2 GB	~131.2 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	Ne tient pas dans la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Ne tient pas dans la VRAM
Apple M-series (base)	100 GB/s	~14 tok/s
Apple M-series Pro	270 GB/s	~38 tok/s
Apple M-series Max	410 GB/s	~57 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~8 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run qwen3.5:122b

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

Dépôt GitHub officiel

Code source, releases et issues de Alibaba.