Como calculamos os requisitos de hardware para LLMs
Todo número destas páginas vem das fórmulas abaixo — sem mágica escondida, sem fichas técnicas copiadas. São aproximações, e explicamos seus limites.
Tamanho do download por quantização
size_GB = params_B × bits_per_weight ÷ 8O tamanho do arquivo de um modelo é número de parâmetros × bits por peso ÷ 8. Os valores de bits por peso incluem o overhead do formato GGUF — por exemplo, o Q4_K_M tem 4,85 bits efetivos, então um modelo de 8B fica em 8 × 4,85 ÷ 8 ≈ 4,9 GB. Builds GGUF reais variam alguns pontos percentuais.
RAM mínima do sistema
min_RAM = size_GB × 1.25 + 1.5 → next standard tierPegamos o tamanho em memória do Q4_K_M, somamos 25% de overhead de execução (ativações, buffers) mais 1,5 GB para o sistema operacional e arredondamos para cima até o próximo tamanho padrão de memória (8, 12, 16, 24, 32 GB e assim por diante). Esse valor arredondado é a 'RAM mínima' mostrada em todas as tabelas.
Cache KV por tamanho de contexto
kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45O cache KV cresce linearmente com o tamanho do contexto. Usamos como referência o Llama 3.1 8B com grouped-query attention — 32 camadas × 8 cabeças KV × 128 de dimensão por cabeça × 2 (K e V) × 2 bytes ≈ 131 kB por token — e escalamos de forma sublinear com o número de parâmetros (potência 0,45), porque a profundidade e a largura KV crescem mais devagar que o total de parâmetros. É por isso que um modelo que cabe com contexto de 4K pode ficar sem memória em 32K.
Estimativas de velocidade (tok/s)
tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GBA geração de tokens é limitada pela largura de banda da memória: produzir um token lê todos os pesos ativos uma vez. Então tok/s ≈ largura de banda × 0,85 ÷ tamanho do modelo em Q4, onde 0,85 é um fator de eficiência empírico em relação a um benchmark de cópia pura. Em modelos mixture-of-experts, só os parâmetros ativos contam — por isso um MoE de 30B pode ser mais rápido que um denso de 8B.
O benchmark de largura de banda no navegador
O benchmark opcional mede a largura de banda efetiva da memória da GPU com cópias repetidas de buffers grandes via WebGPU e leva cerca de 1–2 segundos. Roda inteiramente no seu navegador; nada é enviado e nada é armazenado. No Apple Silicon, a largura de banda medida também refina a estimativa da classe do chip (base / Pro / Max / Ultra).
Limites conhecidos
São estimativas de planejamento, não benchmarks da sua máquina exata. A velocidade real varia conforme o runtime (llama.cpp, MLX, vLLM), o tamanho do contexto, o batch size e a temperatura do hardware. Os vereditos de compatibilidade assumem a build recomendada Q4_K_M e uma máquina quase ociosa — quando um modelo está no limite, espere ter que fechar apps ou descer um nível de quantização.
Bits efetivos por peso
| Quantização | Bits/peso | Qualidade |
|---|---|---|
| Q2_K | 3.35 | Perda perceptível |
| Q4_K_M | 4.85 | Recomendada |
| Q5_K_M | 5.65 | Alta |
| Q8_0 | 8.5 | Quase original |
| F16 | 16 | Original |
Os tamanhos são estimativas de número de parâmetros × bits por peso; builds GGUF reais variam um pouco. · Dados atualizados: 2026-06-11