Combien de RAM faut-il pour faire tourner Nemotron 3 Super 120B-A12B ?

Environ 96 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 72.8 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Nemotron 3 Super 120B-A12B peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de Nemotron 3 Super 120B-A12B télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de Nemotron 3 Super 120B-A12B sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Nemotron 3 Super 120B-A12B requiert environ 1440 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 180 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner Nemotron 3 Super 120B-A12B ?

Nemotron 3 Super 120B-A12B de NVIDIA demande environ 96 GB de RAM avec la quantisation 4 bits recommandée (72.8 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~48 tok/s sur un Apple M-series Max.

Lecture des signaux matériels…

Notes pratiques

Nemotron 3 Super 120B-A12B est le modèle mixture-of-experts de NVIDIA, pensé pour ceux qui veulent un raisonnement et du code de niveau frontier sur leur propre matériel et qui ont la mémoire pour. Malgré ses 120B de paramètres au total, seuls 12B s'activent par token : il tourne donc bien plus vite que sa taille ne le laisse croire, tout en exigeant de la place pour le modèle entier. C'est là le piège : même en quantification 4-bit, il pèse environ 72.8 GB, et il faut au moins 96 GB de RAM pour le charger. Ce n'est pas un modèle pour GPU de 8 GB. Un RTX 4090 de 24 GB ne peut pas l'héberger, et même une version 2-bit autour de 50 GB reste hors de portée. Une grosse machine Apple Silicon à mémoire unifiée, ou un serveur avec beaucoup de RAM système, est son foyer réaliste.

À l'usage quotidien, l'architecture MoE porte ses fruits. Sur un Apple M Max, vous pouvez tabler sur environ 48 tokens par seconde, ce qui reste vraiment interactif pour le chat, le raisonnement en plusieurs étapes et l'aide au code, malgré l'étiquette 120B. Basculez-le sur CPU avec de la DDR5 et vous tombez à près de 7 tokens par seconde : exploitable pour du traitement par lots, mais pas pour de la conversation en direct. La fenêtre de contexte est énorme, à 1000K tokens, mais voyez-la comme un plafond, pas comme un réglage à laisser au maximum. Remplir ne serait-ce que 128K fait grimper la mémoire totale à environ 129.5 GB une fois le cache KV pris en compte ; sur une machine de 96 GB, vous serez donc à court de marge bien avant d'atteindre la limite annoncée. Gardez un contexte de travail modeste, sauf si la mémoire ne vous manque pas.

Face à ses plus proches cousins, Nemotron 3 Super évolue dans une compagnie intéressante. Qwen 3.5 122B-A10B est un MoE de taille comparable qui gère aussi la vision, ce que ce modèle ne fait pas : si vous avez besoin d'entrée image, celui-ci a généralement l'avantage. Mistral Small 4 119B est comparable en taille et également multimodal. Si votre matériel ne peut pas suivre, le bien plus petit Nemotron 3 Nano 30B-A3B est l'alternative légère de la même famille et s'avère souvent le choix pragmatique sur des machines contraintes. La force de Super, c'est d'offrir un raisonnement de classe 120B à une vitesse de classe 12B, pour qui peut l'héberger. Une réserve : il est distribué sous licence NVIDIA Open Model, vérifiez donc ces conditions avant de l'utiliser en production commerciale, plutôt que de présumer d'une liberté open-source pure et simple.

Caractéristiques

Paramètres120B (12B actifs)

Fenêtre de contexte1M tokens

ÉditeurNVIDIA

LicenceNVIDIA Open Model

Sortie2026-03

Idéal pourChat, Raisonnement, Code

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	50.3 GB	96 GB	Perte sensible
Q4_K_MRecommandée	4.85	72.8 GB	96 GB	Recommandée
Q5_K_M	5.65	84.8 GB	128 GB	Élevée
Q8_0	8.5	127.5 GB	192 GB	Quasi originale
F16	16	240.0 GB	256 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~1.8 GB	~74.6 GB
8K tokens	~3.5 GB	~76.3 GB
32K tokens	~14.2 GB	~87.0 GB
128K tokens	~56.7 GB	~129.5 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	Ne tient pas dans la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Ne tient pas dans la VRAM
Apple M-series (base)	100 GB/s	~12 tok/s
Apple M-series Pro	270 GB/s	~32 tok/s
Apple M-series Max	410 GB/s	~48 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~7 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run nemotron-3-super:120b

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

NVIDIA — page officielle

Page officielle et documentation de NVIDIA.