Combien de RAM faut-il pour faire tourner Nemotron 3 Nano 30B-A3B ?

Environ 32 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 19.2 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Nemotron 3 Nano 30B-A3B peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de Nemotron 3 Nano 30B-A3B télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de Nemotron 3 Nano 30B-A3B sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Nemotron 3 Nano 30B-A3B requiert environ 379 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 47 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner Nemotron 3 Nano 30B-A3B ?

Nemotron 3 Nano 30B-A3B de NVIDIA demande environ 32 GB de RAM avec la quantisation 4 bits recommandée (19.2 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~160 tok/s sur un Apple M-series Max.

Lecture des signaux matériels…

Notes pratiques

Nemotron 3 Nano est un modèle mixture-of-experts (MoE) de NVIDIA, pensé pour ceux qui veulent du chat, du raisonnement et du code solides en local sans payer le coût d'un modèle dense complet. L'astuce est dans le nom : il embarque 31.6B de paramètres au total mais n'en active qu'environ 3.6B par token, si bien qu'il génère à la vitesse d'un tout petit modèle tout en raisonnant comme un bien plus gros. Le piège que tout nouveau venu au MoE découvre à ses dépens : il faut quand même charger l'ensemble en mémoire. En quantification 4-bit, cela représente environ 19 GB de poids, et il vous faut au moins 32 GB de RAM, ce qui élimine d'emblée une carte de 12 GB comme une RTX 3060.

À l'usage quotidien, l'astuce des paramètres actifs prend tout son sens. Sur une RTX 4090, il débite environ 393 tokens par seconde, ce qui est absurdement rapide pour un modèle aussi capable, et même un Apple Silicon M Max tourne autour de 160 tokens par seconde sur sa mémoire unifiée. En CPU seul sur DDR5, on tombe à environ 23 tokens par seconde : exploitable pour du traitement par lots, mais pas pour du chat interactif. L'argument phare est la fenêtre de contexte de 1,000K, mais voyez-y un chiffre d'affichage : dès 128K de contexte, l'empreinte mémoire totale grimpe à environ 50 GB, donc sur une machine de 32 GB vous travaillez réalistement avec quelques dizaines de milliers de tokens, pas un million.

Face à ses concurrents, Gemma 4 31B est le choix plus polyvalent si vous avez besoin de vision, puisque Nemotron 3 Nano se limite au texte, et Granite 4.0 H Small constitue une alternative dense de taille comparable si vous préférez éviter les bizarreries mémoire du MoE. Ce que Nemotron fait de mieux, c'est le débit par niveau de qualité : rien d'autre dans cette catégorie de taille ne génère aussi vite tout en gérant le raisonnement multi-étapes. Une mise en garde avant de bâtir dessus : la licence NVIDIA Open Model est open-weight, pas véritablement open-source, alors lisez attentivement les conditions plutôt que de présumer une liberté à la Apache pour un usage commercial.

Caractéristiques

Paramètres31.6B (3.6B actifs)

Fenêtre de contexte1M tokens

ÉditeurNVIDIA

LicenceNVIDIA Open Model

Sortie2025-12

Idéal pourChat, Raisonnement, Code

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	13.2 GB	24 GB	Perte sensible
Q4_K_MRecommandée	4.85	19.2 GB	32 GB	Recommandée
Q5_K_M	5.65	22.3 GB	32 GB	Élevée
Q8_0	8.5	33.6 GB	48 GB	Quasi originale
F16	16	63.2 GB	96 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~1.0 GB	~20.2 GB
8K tokens	~1.9 GB	~21.1 GB
32K tokens	~7.8 GB	~27.0 GB
128K tokens	~31.1 GB	~50.3 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	Ne tient pas dans la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~393 tok/s
Apple M-series (base)	100 GB/s	~39 tok/s
Apple M-series Pro	270 GB/s	~105 tok/s
Apple M-series Max	410 GB/s	~160 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~23 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run nemotron-3-nano:30b

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

NVIDIA — page officielle

Page officielle et documentation de NVIDIA.