¿Cuánta RAM necesito para ejecutar Qwen 3.5 35B-A3B?

Unos 32 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 21.2 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Qwen 3.5 35B-A3B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Qwen 3.5 35B-A3B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Qwen 3.5 35B-A3B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Qwen 3.5 35B-A3B requiere unos 420 GB de memoria de GPU, mientras que QLoRA lo baja a unos 53 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Qwen 3.5 35B-A3B?

Qwen 3.5 35B-A3B, de Alibaba, necesita alrededor de 32 GB de RAM con la cuantización recomendada de 4 bits (descarga de 21.2 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~192 tok/s en un Apple M-series Max.

Leyendo las señales de tu hardware…

Notas del mundo real

Qwen 3.5 35B-A3B es un modelo mixture-of-experts con un truco muy útil en su núcleo: de sus 35B de parámetros totales, solo unos 3B están activos por token. Así genera a la velocidad de un modelo diminuto mientras aprovecha el conocimiento de uno grande. El detalle está en la memoria. Igual mantienes el modelo completo en RAM, así que planifica según el tamaño total, no la porción activa. En 4-bit ronda los 21 GB, y conviene tener al menos 32 GB de memoria de sistema. Una RTX 3060 de 12 GB no lo va a alojar, así que en la práctica esto pide una GPU de 24 GB o un equipo Apple Silicon con mucha memoria.

Una vez que entra, el diseño MoE rinde y se siente ágil para su categoría de peso. En una RTX 4090 puedes ver alrededor de 471 tokens por segundo, y en un Apple M Max unos 192, ambos lo bastante rápidos como para que la respuesta adelante a tu lectura. La CPU sobre DDR5 logra unos 28 tokens por segundo, lento pero usable para trabajo por lotes. Maneja chat, razonamiento, programación y visión, con una generosa ventana de contexto de 256K. Aun así, trata ese techo con cuidado: con 128K de contexto el consumo total de memoria sube a unos 53.8 GB, así que las sesiones de contexto largo necesitan una máquina realmente grande, no solo la suficiente para cargar los pesos.

Frente a Command R 35B, un modelo denso del mismo tamaño que vale la pena comparar, la diferencia real es la arquitectura MoE y no la cuenta de parámetros: mismo tamaño nominal, pero Qwen tiende a correr mucho más rápido por token porque solo hay 3B activos. Esa relación entre velocidad y capacidad es su rasgo distintivo, una generación casi instantánea desde un modelo con el conocimiento de 35B, además del soporte multimodal de visión. Los más pequeños Qwen 3 0.6B y 1.7B son la opción si tienes poca memoria y solo necesitas chat básico. La licencia es la parte fácil: Apache 2.0 significa que puedes usarlo libremente, incluso de forma comercial y en producción, sin términos específicos del proveedor que leer.

Especificaciones

Parámetros35B (3B activos)

Ventana de contexto256K tokens

ProveedorAlibaba

LicenciaApache 2.0

Lanzamiento2026-02

Ideal paraChat, Razonamiento, Programación, Visión

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	14.7 GB	24 GB	Pérdida notable
Q4_K_MRecomendada	4.85	21.2 GB	32 GB	Recomendada
Q5_K_M	5.65	24.7 GB	48 GB	Alta
Q8_0	8.5	37.2 GB	48 GB	Casi original
F16	16	70.0 GB	96 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~1.0 GB	~22.2 GB
8K tokens	~2.0 GB	~23.2 GB
32K tokens	~8.1 GB	~29.3 GB
128K tokens	~32.6 GB	~53.8 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~471 tok/s
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run qwen3.5:35b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Repositorio oficial en GitHub

Código fuente, releases e issues de Alibaba.