Como calculamos os requisitos de hardware para LLMs

Todo número destas páginas vem das fórmulas abaixo — sem mágica escondida, sem fichas técnicas copiadas. São aproximações, e explicamos seus limites.

Tamanho do download por quantização

size_GB = params_B × bits_per_weight ÷ 8

O tamanho do arquivo de um modelo é número de parâmetros × bits por peso ÷ 8. Os valores de bits por peso incluem o overhead do formato GGUF — por exemplo, o Q4_K_M tem 4,85 bits efetivos, então um modelo de 8B fica em 8 × 4,85 ÷ 8 ≈ 4,9 GB. Builds GGUF reais variam alguns pontos percentuais.

RAM mínima do sistema

min_RAM = size_GB × 1.25 + 1.5 → next standard tier

Pegamos o tamanho em memória do Q4_K_M, somamos 25% de overhead de execução (ativações, buffers) mais 1,5 GB para o sistema operacional e arredondamos para cima até o próximo tamanho padrão de memória (8, 12, 16, 24, 32 GB e assim por diante). Esse valor arredondado é a 'RAM mínima' mostrada em todas as tabelas.

Cache KV por tamanho de contexto

kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45

O cache KV cresce linearmente com o tamanho do contexto. Usamos como referência o Llama 3.1 8B com grouped-query attention — 32 camadas × 8 cabeças KV × 128 de dimensão por cabeça × 2 (K e V) × 2 bytes ≈ 131 kB por token — e escalamos de forma sublinear com o número de parâmetros (potência 0,45), porque a profundidade e a largura KV crescem mais devagar que o total de parâmetros. É por isso que um modelo que cabe com contexto de 4K pode ficar sem memória em 32K.

Estimativas de velocidade (tok/s)

tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GB

A geração de tokens é limitada pela largura de banda da memória: produzir um token lê todos os pesos ativos uma vez. Então tok/s ≈ largura de banda × 0,85 ÷ tamanho do modelo em Q4, onde 0,85 é um fator de eficiência empírico em relação a um benchmark de cópia pura. Em modelos mixture-of-experts, só os parâmetros ativos contam — por isso um MoE de 30B pode ser mais rápido que um denso de 8B.

O benchmark de largura de banda no navegador

O benchmark opcional mede a largura de banda efetiva da memória da GPU com cópias repetidas de buffers grandes via WebGPU e leva cerca de 1–2 segundos. Roda inteiramente no seu navegador; nada é enviado e nada é armazenado. No Apple Silicon, a largura de banda medida também refina a estimativa da classe do chip (base / Pro / Max / Ultra).

Limites conhecidos

São estimativas de planejamento, não benchmarks da sua máquina exata. A velocidade real varia conforme o runtime (llama.cpp, MLX, vLLM), o tamanho do contexto, o batch size e a temperatura do hardware. Os vereditos de compatibilidade assumem a build recomendada Q4_K_M e uma máquina quase ociosa — quando um modelo está no limite, espere ter que fechar apps ou descer um nível de quantização.

Bits efetivos por peso

Quantização	Bits/peso	Qualidade
Q2_K	3.35	Perda perceptível
Q4_K_M	4.85	Recomendada
Q5_K_M	5.65	Alta
Q8_0	8.5	Quase original
F16	16	Original

Os tamanhos são estimativas de número de parâmetros × bits por peso; builds GGUF reais variam um pouco. · Dados atualizados: 2026-06-11