Question 1

Combien de RAM faut-il pour faire tourner Qwen 3.6 35B-A3B ?

Accepted Answer

Environ 32 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 21.2 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Question 2

Qwen 3.6 35B-A3B peut-il tourner sans GPU dédié ?

Accepted Answer

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Question 3

Quelle quantisation de Qwen 3.6 35B-A3B télécharger ?

Accepted Answer

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Question 4

Puis-je faire du fine-tuning de Qwen 3.6 35B-A3B sur ma propre machine ?

Accepted Answer

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Qwen 3.6 35B-A3B requiert environ 420 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 53 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Question 5

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Accepted Answer

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	14.7 GB	24 GB	Perte sensible
Q4_K_MRecommandée	4.85	21.2 GB	32 GB	Recommandée
Q5_K_M	5.65	24.7 GB	48 GB	Élevée
Q8_0	8.5	37.2 GB	48 GB	Quasi originale
F16	16	70.0 GB	96 GB	Originale

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~1.0 GB	~22.2 GB
8K tokens	~2.0 GB	~23.2 GB
32K tokens	~8.1 GB	~29.3 GB
128K tokens	~32.6 GB	~53.8 GB

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	Ne tient pas dans la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~471 tok/s
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

Puis-je faire tourner Qwen 3.6 35B-A3B ?

Questions fréquentes