Puis-je faire tourner Qwen 3.5 122B-A10B ?
Qwen 3.5 122B-A10B de Alibaba demande environ 96 GB de RAM avec la quantisation 4 bits recommandée (74.0 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~57 tok/s sur un Apple M-series Max.
Lecture des signaux matériels…
Caractéristiques
Taille selon la quantisation
| Quantisation | Bits/poids | Téléchargement | RAM min. | Qualité |
|---|---|---|---|---|
| Q2_K | 3.35 | 51.1 GB | 96 GB | Perte sensible |
| Q4_K_MRecommandée | 4.85 | 74.0 GB | 96 GB | Recommandée |
| Q5_K_M | 5.65 | 86.2 GB | 128 GB | Élevée |
| Q8_0 | 8.5 | 129.6 GB | 192 GB | Quasi originale |
| F16 | 16 | 244.0 GB | 256 GB | Originale |
Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →
Mémoire nécessaire selon la longueur de contexte
| Contexte | Cache KV (est.) | Mémoire totale (Q4) |
|---|---|---|
| 4K tokens | ~1.8 GB | ~75.8 GB |
| 8K tokens | ~3.6 GB | ~77.6 GB |
| 32K tokens | ~14.3 GB | ~88.3 GB |
| 128K tokens | ~57.2 GB | ~131.2 GB |
Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.
Vitesse estimée selon le matériel
| Matériel | Bande passante | ~Vitesse |
|---|---|---|
| NVIDIA RTX 3060 12GB | 360 GB/s | Ne tient pas dans la VRAM |
| NVIDIA RTX 4090 24GB | 1008 GB/s | Ne tient pas dans la VRAM |
| Apple M-series (base) | 100 GB/s | ~14 tok/s |
| Apple M-series Pro | 270 GB/s | ~38 tok/s |
| Apple M-series Max | 410 GB/s | ~57 tok/s |
| CPU only (dual-channel DDR5) | 60 GB/s | ~8 tok/s |
La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.
Le faire tourner en local
Le chemin le plus simple est Ollama — une commande et vous discutez :
ollama run qwen3.5:122bSources et téléchargements
Ollama Library
Téléchargez et lancez le modèle avec une seule commande.
ollama.comHugging Face
Poids du modèle, fichiers et détails de la licence.
huggingface.coDépôt GitHub officiel
Code source, releases et issues de Alibaba.
github.comAlibaba — page officielle
Page officielle et documentation de Alibaba.
qwen.ai