Question 1

Qual é o melhor LLM local para 16 GB de RAM?

Accepted Answer

O Phi-4 Reasoning Vision 15B é o modelo mais forte no geral que roda com folga em 16 GB — um download de 9.1 GB na quantização recomendada de 4 bits. Para programação, o Gemma 4 12B é a melhor escolha.

Question 2

Quantos LLMs uma máquina com 16 GB consegue rodar?

Accepted Answer

38 dos 73 modelos de pesos abertos do nosso catálogo rodam com folga em 16 GB de memória total na quantização de 4 bits, ainda sobrando espaço para o sistema operacional e o cache KV.

Question 3

Dá para espremer um modelo maior em 16 GB?

Accepted Answer

Às vezes — uma quantização de 2–3 bits pode fazer um modelo maior caber, mas abaixo de Q3 a qualidade cai bastante. Um modelo menor em Q4_K_M costuma superar um maior espremido em Q2.

Question 4

Esses números mudam se eu tiver uma GPU?

Accepted Answer

Quem decide se o modelo cabe é a memória, não o poder de processamento. Em um PC, o modelo precisa caber na VRAM para rodar totalmente na GPU; caso contrário, roda na CPU usando a RAM do sistema, só que mais devagar. No Apple Silicon, RAM e VRAM são o mesmo pool unificado.

Question 5

Como vocês sabem o que cabe em 16 GB?

Accepted Answer

Estimamos o tamanho do download em 4 bits a partir do número de parâmetros (parâmetros × 4,85 ÷ 8), somamos 25% de overhead de execução mais 1,5 GB para o sistema operacional e arredondamos para cima até um tamanho padrão de memória. As fórmulas completas estão na nossa página de metodologia.

Modelo	Parâmetros	Download (Q4)	RAM mínima	Ideal para
Phi-4 Reasoning Vision 15BMicrosoft	15B	9.1 GB	16 GB	Visão, Raciocínio
Qwen 3 14BAlibaba	14.8B	9.0 GB	16 GB	Chat, Raciocínio
DeepSeek R1 14BDeepSeek	14.8B	9.0 GB	16 GB	Raciocínio
Phi-4 14BMicrosoft	14.7B	8.9 GB	16 GB	Chat, Raciocínio
Ministral 3 14BMistral AI	14B	8.5 GB	16 GB	Chat, Visão
OLMo 2 13BAi2	13.7B	8.3 GB	12 GB	Chat
Gemma 3 12BGoogle	12.2B	7.4 GB	12 GB	Chat, Visão
Mistral Nemo 12BMistral AI	12.2B	7.4 GB	12 GB	Chat
Gemma 4 12BGoogle	12B	7.3 GB	12 GB	Chat, Programação, Raciocínio, Visão
Mellum 2 12B-A2.5BJetBrains	12B (A2.5B)	7.3 GB	12 GB	Programação
Qwen 3.5 9BAlibaba	9B	5.5 GB	12 GB	Chat, Raciocínio, Visão
GLM-4.6V-FlashZ.ai	9B	5.5 GB	12 GB	Visão, Chat
Qwen 2.5 VL 7BAlibaba	8.3B	5.0 GB	8 GB	Visão, Chat
Qwen 3 8BAlibaba	8.2B	5.0 GB	8 GB	Chat, Raciocínio
Granite 3.3 8BIBM	8.2B	5.0 GB	8 GB	Chat
Llama 3.1 8BMeta	8B	4.9 GB	8 GB	Chat
DeepSeek R1 8BDeepSeek	8B	4.9 GB	8 GB	Raciocínio
Gemma 4 E4BGoogle	8B (A4.5B)	4.9 GB	8 GB	Chat, Visão
Qwen3-VL 8BAlibaba	8B	4.9 GB	8 GB	Visão, Chat
Ministral 3 8BMistral AI	8B	4.9 GB	8 GB	Chat, Visão
Gemma 3n E4BGoogle	7.8B (A4B)	4.7 GB	8 GB	Chat, Visão
Qwen 2.5 Coder 7BAlibaba	7.6B	4.6 GB	8 GB	Programação
DeepSeek R1 7BDeepSeek	7.6B	4.6 GB	8 GB	Raciocínio
Mistral 7BMistral AI	7.2B	4.4 GB	8 GB	Chat
Gemma 4 E2BGoogle	5.1B (A2.3B)	3.1 GB	6 GB	Chat, Visão
Gemma 3 4BGoogle	4.3B	2.6 GB	6 GB	Chat, Visão
Qwen 3 4BAlibaba	4B	2.4 GB	6 GB	Chat, Raciocínio
Qwen 3.5 4BAlibaba	4B	2.4 GB	6 GB	Chat, Visão
Phi-4 Mini 3.8BMicrosoft	3.8B	2.3 GB	6 GB	Chat
Llama 3.2 3BMeta	3.2B	1.9 GB	4 GB	Chat
DeepSeek-OCRDeepSeek	3B (A0.57B)	1.8 GB	4 GB	Visão
Ministral 3 3BMistral AI	3B	1.8 GB	4 GB	Chat, Visão
DeepSeek R1 1.5BDeepSeek	1.8B	1.1 GB	3 GB	Raciocínio
Qwen 3 1.7BAlibaba	1.7B	1.0 GB	3 GB	Chat
SmolLM2 1.7BHugging Face	1.7B	1.0 GB	3 GB	Chat
Llama 3.2 1BMeta	1.2B	0.7 GB	3 GB	Chat
Gemma 3 1BGoogle	1B	0.6 GB	3 GB	Chat
Qwen 3 0.6BAlibaba	0.6B	0.4 GB	2 GB	Chat

Melhores LLMs locais para 16 GB de RAM

Perguntas frequentes