De quanta RAM preciso para rodar o Nemotron 3 Nano 30B-A3B?

Cerca de 32 GB de memória total do sistema para a build recomendada de 4 bits (Q4_K_M), um download de 19.2 GB. Com mais RAM você pode usar quantizações de maior qualidade ou um contexto mais longo.

O Nemotron 3 Nano 30B-A3B roda sem uma GPU dedicada?

Sim — ferramentas como Ollama e llama.cpp rodam o modelo na CPU, desde que ele caiba na RAM. Uma GPU ou o Apple Silicon deixa a geração várias vezes mais rápida, mas é opcional.

Qual quantização do Nemotron 3 Nano 30B-A3B devo baixar?

Q4_K_M é o ponto ideal para quase todo mundo — cerca de 4× menor que o original, com perda mínima de qualidade. Escolha Q5 ou Q8 se tiver RAM de sobra, ou Q2 só quando nada mais couber.

Posso fazer fine-tuning do Nemotron 3 Nano 30B-A3B na minha própria máquina?

O fine-tuning exige muito mais memória que a inferência. O fine-tuning completo do Nemotron 3 Nano 30B-A3B consome cerca de 379 GB de memória de GPU, enquanto o QLoRA reduz isso para uns 47 GB. Para a maioria das pessoas, QLoRA em uma GPU alugada é o caminho prático.

Um modelo maior em Q2/Q3 é melhor que um menor em Q4/Q5?

Geralmente não. Abaixo de Q3, a qualidade cai bastante — um modelo menor em Q4_K_M costuma superar um maior espremido em Q2. Só desça de Q4 quando nada mais couber na sua memória.

← Todos os modelosVERIFICAÇÃO DE MODELO

Posso rodar o Nemotron 3 Nano 30B-A3B?

O Nemotron 3 Nano 30B-A3B, da NVIDIA, precisa de cerca de 32 GB de RAM na quantização recomendada de 4 bits (download de 19.2 GB). Seu hardware é verificado abaixo — na hora, nada sai do seu navegador. Espere cerca de ~160 tok/s em um Apple M-series Max.

Lendo os sinais do seu hardware…

Notas do mundo real

O Nemotron 3 Nano é um modelo mixture-of-experts da NVIDIA voltado para quem quer chat, raciocínio e código fortes numa máquina local sem pagar o custo total de um modelo dense. O truque está no nome: ele tem 31.6B de parâmetros no total, mas roteia apenas cerca de 3.6B por token, então gera na velocidade de um modelo minúsculo enquanto pensa com um bem maior. A pegadinha que todo iniciante em MoE descobre do jeito difícil é que você ainda precisa carregar o modelo inteiro. Em quantização de 4 bits, isso dá uns 19 GB de pesos, e você vai querer pelo menos 32 GB de RAM, o que descarta de vez uma placa de 12 GB como a RTX 3060.

No uso diário, o truque dos parâmetros ativos realmente aparece. Numa RTX 4090 ele transmite a cerca de 393 tokens por segundo, o que é absurdamente rápido para um modelo tão capaz, e até um Apple Silicon M Max fica perto de 160 tokens por segundo usando memória unificada. Só na CPU com DDR5 a velocidade cai para uns 23 tokens por segundo, suficiente para tarefas em lote, mas não para chat interativo. O destaque anunciado é a janela de contexto de 1.000K, mas encare isso como número de outdoor: com apenas 128K de contexto, o consumo total de memória sobe para cerca de 50 GB, então numa máquina de 32 GB você trabalha, na prática, com algumas dezenas de milhares de tokens, não um milhão.

Frente aos concorrentes, o Gemma 4 31B é a escolha mais flexível se você precisa de visão, já que o Nemotron 3 Nano é só texto, e o Granite 4.0 H Small é uma alternativa dense de tamanho parecido caso você prefira não lidar com as peculiaridades de memória do MoE. O que o Nemotron faz de melhor é throughput por qualidade: nada mais nessa faixa de tamanho gera tão rápido enquanto ainda dá conta de raciocínio em várias etapas. Um cuidado antes de construir em cima dele: a licença NVIDIA Open Model é de pesos abertos, não open-source de verdade, então leia os termos com atenção em vez de presumir uma liberdade no estilo Apache para uso comercial.

Especificações

Parâmetros31.6B (3.6B ativos)

Janela de contexto1M tokens

FornecedorNVIDIA

LicençaNVIDIA Open Model

Lançamento2025-12

Ideal paraChat, Raciocínio, Programação

Tamanho por quantização

Quantização	Bits/peso	Download	RAM mínima	Qualidade
Q2_K	3.35	13.2 GB	24 GB	Perda perceptível
Q4_K_MRecomendada	4.85	19.2 GB	32 GB	Recomendada
Q5_K_M	5.65	22.3 GB	32 GB	Alta
Q8_0	8.5	33.6 GB	48 GB	Quase original
F16	16	63.2 GB	96 GB	Original

Os tamanhos são estimativas de número de parâmetros × bits por peso; builds GGUF reais variam um pouco. · Dados atualizados: 2026-06-11 · Como calculamos esses números →

Memória necessária por tamanho de contexto

Contexto	Cache KV (est.)	Memória total (Q4)
4K tokens	~1.0 GB	~20.2 GB
8K tokens	~1.9 GB	~21.1 GB
32K tokens	~7.8 GB	~27.0 GB
128K tokens	~31.1 GB	~50.3 GB

O cache KV cresce com o tamanho do contexto — um modelo que cabe em 4K pode ficar sem memória em 32K. As estimativas assumem cache em FP16 com grouped-query attention; o uso real varia conforme o runtime.

Velocidade estimada por hardware

Hardware	Largura de banda	~Velocidade
NVIDIA RTX 3060 12GB	360 GB/s	Não cabe na VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~393 tok/s
Apple M-series (base)	100 GB/s	~39 tok/s
Apple M-series Pro	270 GB/s	~105 tok/s
Apple M-series Max	410 GB/s	~160 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~23 tok/s

A geração de tokens é limitada pela largura de banda da memória: tok/s ≈ largura de banda × 0,85 ÷ tamanho do modelo em Q4. Os números reais variam conforme o runtime e o tamanho do contexto.

Rode localmente

O caminho mais fácil é o Ollama — um comando e você já está conversando:

ollama run nemotron-3-nano:30b

Fontes e downloads

Ollama Library

Baixe e rode o modelo com um único comando.

ollama.com

Hugging Face

Pesos do modelo, arquivos e detalhes da licença.

huggingface.co

NVIDIA — página oficial

Página oficial e documentação da NVIDIA.