¿Cuánta RAM necesito para ejecutar Llama 3.3 70B?

Unos 64 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 42.8 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Llama 3.3 70B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Llama 3.3 70B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Llama 3.3 70B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Llama 3.3 70B requiere unos 847 GB de memoria de GPU, mientras que QLoRA lo baja a unos 106 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Llama 3.3 70B?

Llama 3.3 70B, de Meta, necesita alrededor de 64 GB de RAM con la cuantización recomendada de 4 bits (descarga de 42.8 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~8 tok/s en un Apple M-series Max.

Leyendo las señales de tu hardware…

Notas del mundo real

Llama 3.3 70B es el modelo al que recurres cuando un 8B ya no es lo bastante inteligente y tienes el hardware para sostenerlo. Es un modelo de chat denso de 70.6 mil millones de parámetros, y su huella lo demuestra: incluso con una cuantización de 4 bits ronda los 42.8 GB, y conviene tener al menos 64 GB de memoria de sistema para cargarlo con algo de margen. Si bajas a una cuantización de 2 bits se reduce a unos 29.6 GB, pero el sitio realista para este modelo es una máquina Apple Silicon con mucha memoria o un equipo con varias GPU, no una sola tarjeta de consumo.

En el uso diario, la advertencia honesta es la velocidad. En un M-series Max hablas de unos 8 tok/s a 4 bits, legible pero lo bastante lento como para notar cada respuesta larga, y en una CPU con DDR5 se arrastra a aproximadamente 1 tok/s. La ventana de contexto de 128K es realmente grande, pero llenarla sale caro: a 128K completos la huella total de memoria sube a unos 87.5 GB, muy por encima de los 42.8 GB que necesitan solo los pesos. Mantén el contexto de trabajo moderado salvo que te sobre memoria.

Ten en cuenta que las RTX 3060 y RTX 4090 listadas simplemente no admiten este modelo en 4 bits, así que una sola GPU mainstream queda descartada. Frente a DeepSeek R1 70B, que comparte el mismo número de parámetros, R1 es el especialista en razonamiento y suele tomar la delantera en matemáticas difíciles de varios pasos, mientras que Llama 3.3 70B es el modelo de chat de propósito general más fiable y ampliamente compatible. Su rasgo destacado es ofrecer una calidad conversacional casi de buque insignia con pesos abiertos. Una advertencia: la licencia Llama Community es de pesos abiertos, no de código realmente abierto, así que revisa los términos de Meta antes de cualquier despliegue comercial.

Especificaciones

Parámetros70.6B

Ventana de contexto128K tokens

ProveedorMeta

LicenciaLlama Community

Lanzamiento2024-12

Ideal paraChat

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	29.6 GB	48 GB	Pérdida notable
Q4_K_MRecomendada	4.85	42.8 GB	64 GB	Recomendada
Q5_K_M	5.65	49.9 GB	64 GB	Alta
Q8_0	8.5	75.0 GB	96 GB	Casi original
F16	16	141.2 GB	192 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~1.4 GB	~44.2 GB
8K tokens	~2.8 GB	~45.6 GB
32K tokens	~11.2 GB	~54.0 GB
128K tokens	~44.7 GB	~87.5 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	No cabe en la VRAM
Apple M-series (base)	100 GB/s	~2 tok/s
Apple M-series Pro	270 GB/s	~5 tok/s
Apple M-series Max	410 GB/s	~8 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~1 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run llama3.3

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Repositorio oficial en GitHub

Código fuente, releases e issues de Meta.