¿Cuánta RAM necesito para ejecutar Qwen3-Next 80B-A3B?

Unos 64 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 48.5 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Qwen3-Next 80B-A3B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Qwen3-Next 80B-A3B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Qwen3-Next 80B-A3B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Qwen3-Next 80B-A3B requiere unos 960 GB de memoria de GPU, mientras que QLoRA lo baja a unos 120 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Qwen3-Next 80B-A3B?

Qwen3-Next 80B-A3B, de Alibaba, necesita alrededor de 64 GB de RAM con la cuantización recomendada de 4 bits (descarga de 48.5 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~192 tok/s en un Apple M-series Max.

Leyendo las señales de tu hardware…

Notas del mundo real

Qwen3-Next 80B-A3B es un modelo de mezcla de expertos (MoE) de Alibaba, y la cifra que más destaca despista de una forma útil: tiene 80B de parámetros en total, pero solo enruta unos 3B por token. Eso significa que genera a la velocidad de un modelo diminuto mientras aprovecha el conocimiento de uno grande. El problema es la memoria. Tienes que mantener el modelo completo en RAM o VRAM, así que incluso con una cuantización de 4 bits de unos 48.5 GB necesitas al menos 64 GB para ejecutarlo, lo que descarta las GPU de consumo individuales y te empuja hacia una máquina con mucha memoria.

En la práctica este es un modelo para Apple Silicon o estaciones de trabajo, no para GPU de gaming. En un M Max con suficiente memoria unificada genera a unos 192 tokens por segundo, algo realmente rápido para un modelo de clase 80B y la razón principal por la que la gente lo elige. Una RTX 3060 de 12 GB o una RTX 4090 de 24 GB sencillamente no pueden cargarlo. Si trabajas en CPU con DDR5 aún puedes ejecutarlo a unos 28 tokens por segundo, más lento pero suficiente para tareas por lotes. El contexto de 256K es real, pero consume mucho: acercarte a 128K puede llevar la memoria total a unos 95.8 GB, así que reserva margen antes de llenarlo.

Frente a Llama 3.1 70B, la comparación densa más obvia, Qwen3-Next tiende a sentirse mucho más rápido para su tamaño porque solo 3B de parámetros están activos en cada paso, mientras que el Llama tiene que ejecutar los 70B completos. La calidad en chat y razonamiento es competitiva, aunque los modelos densos de 70B aún pueden llevar ventaja en los prompts más difíciles de varios pasos. Su rasgo distintivo es esa relación velocidad-tamaño: amplitud de modelo grande con latencia de modelo pequeño, si tienes la memoria para alojarlo. La licencia es Apache 2.0, así que puedes usarlo comercialmente y en producción sin condiciones atadas a un proveedor.

Especificaciones

Parámetros80B (3B activos)

Ventana de contexto256K tokens

ProveedorAlibaba

LicenciaApache 2.0

Lanzamiento2025-09

Ideal paraChat, Razonamiento

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	33.5 GB	48 GB	Pérdida notable
Q4_K_MRecomendada	4.85	48.5 GB	64 GB	Recomendada
Q5_K_M	5.65	56.5 GB	96 GB	Alta
Q8_0	8.5	85.0 GB	128 GB	Casi original
F16	16	160.0 GB	256 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~1.5 GB	~50.0 GB
8K tokens	~3.0 GB	~51.5 GB
32K tokens	~11.8 GB	~60.3 GB
128K tokens	~47.3 GB	~95.8 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	No cabe en la VRAM
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run qwen3-next:80b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Alibaba — página oficial

Página oficial y documentación de Alibaba.