Combien de RAM faut-il pour faire tourner Granite 4.0 H Small ?

Environ 32 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 19.4 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Granite 4.0 H Small peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de Granite 4.0 H Small télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de Granite 4.0 H Small sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Granite 4.0 H Small requiert environ 384 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 48 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner Granite 4.0 H Small ?

Granite 4.0 H Small de IBM demande environ 32 GB de RAM avec la quantisation 4 bits recommandée (19.4 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~64 tok/s sur un Apple M-series Max.

Lecture des signaux matériels…

Notes pratiques

Granite 4.0 H Small est le modèle mixture-of-experts (MoE) d'IBM : 32B de paramètres sur le papier, mais seulement 9B environ actifs par token. Toute la subtilité tient dans cette distinction. Il tourne vite pour sa taille parce que chaque token ne sollicite qu'une fraction des poids, mais il faut tout de même garder le modèle entier en mémoire : dimensionnez donc votre matériel autour du minimum de 32 GB, pas autour du nombre de paramètres actifs. En quantification 4-bit, il tombe autour de 19,4 GB, ce qui exclut totalement une carte de 12 GB comme une RTX 3060 et vous oriente plutôt vers un GPU de 24 GB ou un Mac Apple Silicon doté de beaucoup de mémoire unifiée. Il vise le chat et le code, pas les essais sans enjeu sur un portable.

Sur une RTX 4090, il avance à environ 157 tokens par seconde, soit bien au-delà de la vitesse de lecture, ce qui rend les sessions de code interactives très agréables. Sur un Mac M-series Max, comptez autour de 64 tok/s, encore confortable, tandis qu'en CPU pur sur DDR5 il chute à environ 9 tok/s, exploitable pour des traitements par lots mais pas pour du chat en direct. Le contexte de 128K est bien réel, mais coûteux : remplissez-le et la mémoire totale grimpe à près de 50,7 GB, donc sur une carte de 24 GB vous ne pouvez pas vraiment tourner près du plafond. Gardez un contexte de travail modeste, sauf si vous disposez d'un Mac de 64 GB en réserve.

Face à Qwen 3 32B, un modèle dense de taille totale comparable, Granite se montre généralement plus léger côté matériel grâce à sa conception MoE, même si Qwen 3 a tendance à prendre l'avantage sur le raisonnement exigeant puisqu'il active tous ses paramètres à chaque token. Si vous voulez quelque chose de plus petit et plus simple, le Granite 3.3 8B dense s'installe plus facilement sur des GPU modestes. Le véritable atout de Granite 4.0 H Small, c'est d'être un modèle de la classe 32B réellement rapide que vous pouvez vraiment auto-héberger, et il est publié sous licence Apache 2.0 : vous êtes donc libre de l'utiliser à des fins commerciales sans souci de licence.

Caractéristiques

Paramètres32B (9B actifs)

Fenêtre de contexte128K tokens

ÉditeurIBM

LicenceApache 2.0

Sortie2025-10

Idéal pourChat, Code

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	13.4 GB	24 GB	Perte sensible
Q4_K_MRecommandée	4.85	19.4 GB	32 GB	Recommandée
Q5_K_M	5.65	22.6 GB	32 GB	Élevée
Q8_0	8.5	34.0 GB	48 GB	Quasi originale
F16	16	64.0 GB	96 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~1.0 GB	~20.4 GB
8K tokens	~2.0 GB	~21.4 GB
32K tokens	~7.8 GB	~27.2 GB
128K tokens	~31.3 GB	~50.7 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	Ne tient pas dans la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~157 tok/s
Apple M-series (base)	100 GB/s	~16 tok/s
Apple M-series Pro	270 GB/s	~42 tok/s
Apple M-series Max	410 GB/s	~64 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~9 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run granite4:32b-a9b-h

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

Dépôt GitHub officiel

Code source, releases et issues de IBM.