Puis-je faire tourner Qwen 3.6 35B-A3B ?
Qwen 3.6 35B-A3B de Alibaba demande environ 32 GB de RAM avec la quantisation 4 bits recommandée (21.2 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~192 tok/s sur un Apple M-series Max.
Lecture des signaux matériels…
Caractéristiques
Taille selon la quantisation
| Quantisation | Bits/poids | Téléchargement | RAM min. | Qualité |
|---|---|---|---|---|
| Q2_K | 3.35 | 14.7 GB | 24 GB | Perte sensible |
| Q4_K_MRecommandée | 4.85 | 21.2 GB | 32 GB | Recommandée |
| Q5_K_M | 5.65 | 24.7 GB | 48 GB | Élevée |
| Q8_0 | 8.5 | 37.2 GB | 48 GB | Quasi originale |
| F16 | 16 | 70.0 GB | 96 GB | Originale |
Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →
Mémoire nécessaire selon la longueur de contexte
| Contexte | Cache KV (est.) | Mémoire totale (Q4) |
|---|---|---|
| 4K tokens | ~1.0 GB | ~22.2 GB |
| 8K tokens | ~2.0 GB | ~23.2 GB |
| 32K tokens | ~8.1 GB | ~29.3 GB |
| 128K tokens | ~32.6 GB | ~53.8 GB |
Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.
Vitesse estimée selon le matériel
| Matériel | Bande passante | ~Vitesse |
|---|---|---|
| NVIDIA RTX 3060 12GB | 360 GB/s | Ne tient pas dans la VRAM |
| NVIDIA RTX 4090 24GB | 1008 GB/s | ~471 tok/s |
| Apple M-series (base) | 100 GB/s | ~47 tok/s |
| Apple M-series Pro | 270 GB/s | ~126 tok/s |
| Apple M-series Max | 410 GB/s | ~192 tok/s |
| CPU only (dual-channel DDR5) | 60 GB/s | ~28 tok/s |
La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.
Le faire tourner en local
Le chemin le plus simple est Ollama — une commande et vous discutez :
ollama run qwen3.6:35bSources et téléchargements
Ollama Library
Téléchargez et lancez le modèle avec une seule commande.
ollama.comHugging Face
Poids du modèle, fichiers et détails de la licence.
huggingface.coDépôt GitHub officiel
Code source, releases et issues de Alibaba.
github.comAlibaba — page officielle
Page officielle et documentation de Alibaba.
qwen.ai