Cómo calculamos los requisitos de hardware de los LLM

Cada número de estas páginas sale de las fórmulas de abajo — sin magia oculta ni fichas técnicas copiadas. Son aproximaciones, y explicamos sus límites.

Tamaño de descarga por cuantización

size_GB = params_B × bits_per_weight ÷ 8

El tamaño del archivo de un modelo es número de parámetros × bits por peso ÷ 8. Los valores de bits por peso incluyen la sobrecarga del formato GGUF — por ejemplo, Q4_K_M son 4,85 bits efectivos, así que un modelo de 8B ocupa 8 × 4,85 ÷ 8 ≈ 4,9 GB. Las builds GGUF reales varían un pequeño porcentaje.

RAM mínima del sistema

min_RAM = size_GB × 1.25 + 1.5 → next standard tier

Tomamos el tamaño en memoria de Q4_K_M, añadimos un 25% de sobrecarga de ejecución (activaciones, buffers) más 1,5 GB para el sistema operativo, y redondeamos hacia arriba al siguiente tamaño de memoria estándar (8, 12, 16, 24, 32 GB, etc.). Ese valor redondeado es la «RAM mínima» que aparece en todas las tablas.

Caché KV según la longitud de contexto

kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45

La caché KV crece de forma lineal con la longitud del contexto. Tomamos como referencia Llama 3.1 8B con grouped-query attention — 32 capas × 8 cabezas KV × 128 de dimensión por cabeza × 2 (K y V) × 2 bytes ≈ 131 kB por token — y escalamos de forma sublineal con el número de parámetros (potencia 0,45), porque la profundidad y la anchura KV crecen más despacio que el total de parámetros. Por eso un modelo que cabe con un contexto de 4K puede quedarse sin memoria a 32K.

Estimaciones de velocidad (tok/s)

tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GB

La generación de tokens está limitada por el ancho de banda de memoria: producir un token lee todos los pesos activos una vez. Así que tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4, donde 0,85 es un factor de eficiencia empírico frente a un benchmark de copia en bruto. En los modelos mixture-of-experts solo cuentan los parámetros activos — por eso un MoE de 30B puede ser más rápido que un denso de 8B.

El benchmark de ancho de banda en el navegador

El benchmark opcional mide el ancho de banda efectivo de la memoria de la GPU con copias repetidas de grandes buffers de WebGPU y tarda entre 1 y 2 segundos. Se ejecuta por completo en tu navegador; no se sube nada y no se guarda nada. En Apple Silicon, el ancho de banda medido también afina la estimación de la clase del chip (base / Pro / Max / Ultra).

Límites conocidos

Son estimaciones para planificar, no benchmarks de tu máquina exacta. La velocidad real varía según el runtime (llama.cpp, MLX, vLLM), la longitud del contexto, el tamaño del batch y la temperatura del equipo. Los veredictos de compatibilidad asumen la build recomendada Q4_K_M y un equipo mayormente desocupado — si un modelo va justo, cuenta con cerrar apps o bajar un nivel de cuantización.

Bits efectivos por peso

Cuantización	Bits/peso	Calidad
Q2_K	3.35	Pérdida notable
Q4_K_M	4.85	Recomendada
Q5_K_M	5.65	Alta
Q8_0	8.5	Casi original
F16	16	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11