¿Cuánta RAM necesito para ejecutar Qwen3 Coder Next 80B-A3B?

Unos 64 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 48.5 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Qwen3 Coder Next 80B-A3B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Qwen3 Coder Next 80B-A3B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Qwen3 Coder Next 80B-A3B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Qwen3 Coder Next 80B-A3B requiere unos 960 GB de memoria de GPU, mientras que QLoRA lo baja a unos 120 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Qwen3 Coder Next 80B-A3B?

Qwen3 Coder Next 80B-A3B, de Alibaba, necesita alrededor de 64 GB de RAM con la cuantización recomendada de 4 bits (descarga de 48.5 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~192 tok/s en un Apple M-series Max.

Leyendo las señales de tu hardware…

Notas del mundo real

Qwen3 Coder Next 80B-A3B es un especialista en programación construido como Mixture-of-Experts, y esa arquitectura lo explica todo. Tiene 80B de parámetros totales, pero solo activa 3B por token, así que corre mucho más rápido de lo que su tamaño sugiere, aunque sigue necesitando memoria para el modelo completo. En 4-bit ronda los 48.5 GB, lo que descarta cualquier GPU de consumo: no entra en una RTX 4090 de 24 GB, y menos aún en una 3060 de 12 GB. Su sitio realista es un Mac con Apple Silicon y memoria unificada de sobra, o una estación de trabajo con 64 GB o más de RAM del sistema. Planifica en torno al mínimo de 64 GB, no a los 3B activos.

En el uso diario el diseño MoE compensa. En un Apple M Max genera a unos 192 tokens por segundo, lo que se siente instantáneo para autocompletado de código y refactorización, e incluso la inferencia en CPU pura sobre DDR5 logra cerca de 28 tokens por segundo: lento, pero realmente usable para un modelo de este tamaño. La ventana de contexto de 256K es la característica estrella para trabajar sobre repositorios enteros, pero la memoria es la trampa: con 128K de contexto el consumo total sube hasta unos 95.8 GB. Tenlo presente antes de cargar una base de código enorme, porque es la caché KV, no los pesos, lo que te empujará al límite en una máquina de 64 GB.

Frente a las alternativas densas de su categoría de peso, como Llama 3.1 70B, este modelo en general cambia amplitud bruta por enfoque y velocidad en código: el enrutamiento MoE hace que responda más rápido que un modelo denso de 70B, especializándose en código en lugar de en conversación general, donde las variantes de chat más pequeñas de Qwen 3 encajan mejor. Su rasgo distintivo es esa relación velocidad-tamaño, logrando generación casi instantánea con un modelo de la clase de 80B. Y el extra práctico es la licencia: Apache 2.0, así que puedes usarlo libremente en trabajo comercial y de producción sin restricciones específicas del proveedor que tengas que revisar antes.

Especificaciones

Parámetros80B (3B activos)

Ventana de contexto256K tokens

ProveedorAlibaba

LicenciaApache 2.0

Lanzamiento2026-02

Ideal paraProgramación

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	33.5 GB	48 GB	Pérdida notable
Q4_K_MRecomendada	4.85	48.5 GB	64 GB	Recomendada
Q5_K_M	5.65	56.5 GB	96 GB	Alta
Q8_0	8.5	85.0 GB	128 GB	Casi original
F16	16	160.0 GB	256 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~1.5 GB	~50.0 GB
8K tokens	~3.0 GB	~51.5 GB
32K tokens	~11.8 GB	~60.3 GB
128K tokens	~47.3 GB	~95.8 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	No cabe en la VRAM
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run qwen3-coder-next

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Alibaba — página oficial

Página oficial y documentación de Alibaba.