Question 1

Qual é o melhor LLM local para 32 GB de RAM?

Accepted Answer

O Qwen 3.5 35B-A3B é o modelo mais forte no geral que roda com folga em 32 GB — um download de 21.2 GB na quantização recomendada de 4 bits. Para programação, o Qwen 3.5 35B-A3B é a melhor escolha.

Question 2

Quantos LLMs uma máquina com 32 GB consegue rodar?

Accepted Answer

62 dos 73 modelos de pesos abertos do nosso catálogo rodam com folga em 32 GB de memória total na quantização de 4 bits, ainda sobrando espaço para o sistema operacional e o cache KV.

Question 3

Dá para espremer um modelo maior em 32 GB?

Accepted Answer

Às vezes — uma quantização de 2–3 bits pode fazer um modelo maior caber, mas abaixo de Q3 a qualidade cai bastante. Um modelo menor em Q4_K_M costuma superar um maior espremido em Q2.

Question 4

Esses números mudam se eu tiver uma GPU?

Accepted Answer

Quem decide se o modelo cabe é a memória, não o poder de processamento. Em um PC, o modelo precisa caber na VRAM para rodar totalmente na GPU; caso contrário, roda na CPU usando a RAM do sistema, só que mais devagar. No Apple Silicon, RAM e VRAM são o mesmo pool unificado.

Question 5

Como vocês sabem o que cabe em 32 GB?

Accepted Answer

Estimamos o tamanho do download em 4 bits a partir do número de parâmetros (parâmetros × 4,85 ÷ 8), somamos 25% de overhead de execução mais 1,5 GB para o sistema operacional e arredondamos para cima até um tamanho padrão de memória. As fórmulas completas estão na nossa página de metodologia.

Modelo	Parâmetros	Download (Q4)	RAM mínima	Ideal para
Qwen 3.5 35B-A3BAlibaba	35B (A3B)	21.2 GB	32 GB	Chat, Raciocínio, Programação, Visão
Qwen 3.6 35B-A3BAlibaba	35B (A3B)	21.2 GB	32 GB	Chat, Raciocínio, Programação, Visão
Command R 35BCohere	35B	21.2 GB	32 GB	Chat
Qwen3-VL 32BAlibaba	33B	20.0 GB	32 GB	Visão, Chat, Raciocínio
EXAONE 4.5 33BLG AI Research	33B	20.0 GB	32 GB	Visão, Raciocínio, Chat
Qwen 3 32BAlibaba	32.8B	19.9 GB	32 GB	Chat, Raciocínio
Qwen 2.5 Coder 32BAlibaba	32.8B	19.9 GB	32 GB	Programação
QwQ 32BAlibaba	32.8B	19.9 GB	32 GB	Raciocínio
DeepSeek R1 32BDeepSeek	32.8B	19.9 GB	32 GB	Raciocínio
Granite 4.0 H SmallIBM	32B (A9B)	19.4 GB	32 GB	Chat, Programação
Nemotron 3 Nano 30B-A3BNVIDIA	31.6B (A3.6B)	19.2 GB	32 GB	Chat, Raciocínio, Programação
Gemma 4 31BGoogle	30.7B	18.6 GB	32 GB	Chat, Programação, Raciocínio, Visão
Qwen 3 30B-A3BAlibaba	30.5B (A3.3B)	18.5 GB	32 GB	Chat, Raciocínio
Qwen3-VL 30B-A3BAlibaba	30B (A3B)	18.2 GB	32 GB	Visão, Chat, Raciocínio
Gemma 3 27BGoogle	27.4B	16.6 GB	24 GB	Chat, Visão
Qwen 3.5 27BAlibaba	27B	16.4 GB	24 GB	Chat, Raciocínio, Programação, Visão
Qwen 3.6 27BAlibaba	27B	16.4 GB	24 GB	Chat, Raciocínio, Programação, Visão
Gemma 4 26B A4BGoogle	25.2B (A3.8B)	15.3 GB	24 GB	Chat, Programação, Raciocínio, Visão
Mistral Small 3.1 24BMistral AI	24B	14.6 GB	24 GB	Chat, Visão
Devstral 24BMistral AI	24B	14.6 GB	24 GB	Programação
Magistral Small 1.2Mistral AI	24B	14.6 GB	24 GB	Raciocínio, Chat, Visão
Devstral Small 2 24BMistral AI	24B	14.6 GB	24 GB	Programação, Chat, Visão
Codestral 22BMistral AI	22.2B	13.5 GB	24 GB	Programação
GPT-OSS 20BOpenAI	20.9B (A3.6B)	12.7 GB	24 GB	Chat, Raciocínio
Phi-4 Reasoning Vision 15BMicrosoft	15B	9.1 GB	16 GB	Visão, Raciocínio
Qwen 3 14BAlibaba	14.8B	9.0 GB	16 GB	Chat, Raciocínio
DeepSeek R1 14BDeepSeek	14.8B	9.0 GB	16 GB	Raciocínio
Phi-4 14BMicrosoft	14.7B	8.9 GB	16 GB	Chat, Raciocínio
Ministral 3 14BMistral AI	14B	8.5 GB	16 GB	Chat, Visão
OLMo 2 13BAi2	13.7B	8.3 GB	12 GB	Chat
Gemma 3 12BGoogle	12.2B	7.4 GB	12 GB	Chat, Visão
Mistral Nemo 12BMistral AI	12.2B	7.4 GB	12 GB	Chat
Gemma 4 12BGoogle	12B	7.3 GB	12 GB	Chat, Programação, Raciocínio, Visão
Mellum 2 12B-A2.5BJetBrains	12B (A2.5B)	7.3 GB	12 GB	Programação
Qwen 3.5 9BAlibaba	9B	5.5 GB	12 GB	Chat, Raciocínio, Visão
GLM-4.6V-FlashZ.ai	9B	5.5 GB	12 GB	Visão, Chat
Qwen 2.5 VL 7BAlibaba	8.3B	5.0 GB	8 GB	Visão, Chat
Qwen 3 8BAlibaba	8.2B	5.0 GB	8 GB	Chat, Raciocínio
Granite 3.3 8BIBM	8.2B	5.0 GB	8 GB	Chat
Llama 3.1 8BMeta	8B	4.9 GB	8 GB	Chat
DeepSeek R1 8BDeepSeek	8B	4.9 GB	8 GB	Raciocínio
Gemma 4 E4BGoogle	8B (A4.5B)	4.9 GB	8 GB	Chat, Visão
Qwen3-VL 8BAlibaba	8B	4.9 GB	8 GB	Visão, Chat
Ministral 3 8BMistral AI	8B	4.9 GB	8 GB	Chat, Visão
Gemma 3n E4BGoogle	7.8B (A4B)	4.7 GB	8 GB	Chat, Visão
Qwen 2.5 Coder 7BAlibaba	7.6B	4.6 GB	8 GB	Programação
DeepSeek R1 7BDeepSeek	7.6B	4.6 GB	8 GB	Raciocínio
Mistral 7BMistral AI	7.2B	4.4 GB	8 GB	Chat
Gemma 4 E2BGoogle	5.1B (A2.3B)	3.1 GB	6 GB	Chat, Visão
Gemma 3 4BGoogle	4.3B	2.6 GB	6 GB	Chat, Visão
Qwen 3 4BAlibaba	4B	2.4 GB	6 GB	Chat, Raciocínio
Qwen 3.5 4BAlibaba	4B	2.4 GB	6 GB	Chat, Visão
Phi-4 Mini 3.8BMicrosoft	3.8B	2.3 GB	6 GB	Chat
Llama 3.2 3BMeta	3.2B	1.9 GB	4 GB	Chat
DeepSeek-OCRDeepSeek	3B (A0.57B)	1.8 GB	4 GB	Visão
Ministral 3 3BMistral AI	3B	1.8 GB	4 GB	Chat, Visão
DeepSeek R1 1.5BDeepSeek	1.8B	1.1 GB	3 GB	Raciocínio
Qwen 3 1.7BAlibaba	1.7B	1.0 GB	3 GB	Chat
SmolLM2 1.7BHugging Face	1.7B	1.0 GB	3 GB	Chat
Llama 3.2 1BMeta	1.2B	0.7 GB	3 GB	Chat
Gemma 3 1BGoogle	1B	0.6 GB	3 GB	Chat
Qwen 3 0.6BAlibaba	0.6B	0.4 GB	2 GB	Chat

Melhores LLMs locais para 32 GB de RAM

Perguntas frequentes