Combien de RAM faut-il pour faire tourner Qwen 3.5 4B ?

Environ 6 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 2.4 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Qwen 3.5 4B peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de Qwen 3.5 4B télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de Qwen 3.5 4B sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Qwen 3.5 4B requiert environ 48 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 6 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner Qwen 3.5 4B ?

Qwen 3.5 4B de Alibaba demande environ 6 GB de RAM avec la quantisation 4 bits recommandée (2.4 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~126 tok/s sur un NVIDIA RTX 3060 12GB.

Lecture des signaux matériels…

Notes pratiques

Qwen 3.5 4B est un petit modèle dense conçu pour ceux qui veulent un assistant local capable sans mettre leur matériel à genoux. En quantification 4 bits, il pèse environ 2.4 GB : il se loge donc dans presque n'importe quel GPU moderne avec de la marge, tourne sans souci dans la mémoire unifiée d'un Mac Apple Silicon, et avec un minimum de 6 GB de RAM, même un portable un peu ancien peut l'héberger. Il gère aussi la vision, et pas seulement le chat, ce qui est rare à cette taille. La licence Apache 2.0 vous permet un usage commercial et en production sans aucune contrainte.

À l'usage quotidien, il est rapide. Sur une RTX 4090, comptez environ 353 tokens par seconde, et une RTX 3060 de milieu de gamme tient encore près de 126 tok/s : dans les deux cas, bien plus vite que vous ne pouvez lire. Un Mac M-series Max se situe autour de 144 tok/s, et même en CPU pur sur DDR5 on atteint environ 21 tok/s si vous êtes patient. La fenêtre de contexte de 256K est généreuse, mais voyez-la comme une réserve, pas comme une valeur par défaut. La mémoire grimpe vite à mesure que vous la remplissez : à 128K de contexte, l'empreinte totale atteint environ 14.7 GB, ce qui dépassera la plupart des cartes grand public. Gardez donc un contexte de travail modeste, sauf si la mémoire ne vous manque pas.

Au sein de sa propre famille, il se place nettement au-dessus des minuscules Qwen 3 1.7B et 0.6B, mieux adaptés aux téléphones et à l'embarqué qu'au rôle d'assistant principal. Face à Phi-4 Mini 3.8B, Qwen 3.5 4B paraît généralement plus polyvalent grâce à son support de la vision et à son contexte plus long, tandis que Phi-4 Mini tient bien la route sur du raisonnement bien cadré. Son vrai atout, c'est le rapport qualité-encombrement : un modèle multimodal de 4B qui tourne vite sur du matériel modeste sous une licence totalement permissive est une combinaison rare, ce qui en fait un choix par défaut évident pour une configuration locale légère.

Caractéristiques

Paramètres4B

Fenêtre de contexte256K tokens

ÉditeurAlibaba

LicenceApache 2.0

Sortie2026-03

Idéal pourChat, Vision

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	1.7 GB	4 GB	Perte sensible
Q4_K_MRecommandée	4.85	2.4 GB	6 GB	Recommandée
Q5_K_M	5.65	2.8 GB	6 GB	Élevée
Q8_0	8.5	4.3 GB	8 GB	Quasi originale
F16	16	8.0 GB	12 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~0.4 GB	~2.8 GB
8K tokens	~0.8 GB	~3.2 GB
32K tokens	~3.1 GB	~5.5 GB
128K tokens	~12.3 GB	~14.7 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	~126 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~353 tok/s
Apple M-series (base)	100 GB/s	~35 tok/s
Apple M-series Pro	270 GB/s	~95 tok/s
Apple M-series Max	410 GB/s	~144 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~21 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run qwen3.5:4b

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

Dépôt GitHub officiel

Code source, releases et issues de Alibaba.