¿Cuánta RAM necesito para ejecutar Qwen 3.5 27B?

Unos 24 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 16.4 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Qwen 3.5 27B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Qwen 3.5 27B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Qwen 3.5 27B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Qwen 3.5 27B requiere unos 324 GB de memoria de GPU, mientras que QLoRA lo baja a unos 41 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Qwen 3.5 27B?

Qwen 3.5 27B, de Alibaba, necesita alrededor de 24 GB de RAM con la cuantización recomendada de 4 bits (descarga de 16.4 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~21 tok/s en un Apple M-series Max.

Leyendo las señales de tu hardware…

Notas del mundo real

Qwen 3.5 27B es el modelo al que recurres cuando un 8B se queda corto y dispones de hardware de verdad para gastar. Es un modelo denso de 27B que maneja chat, razonamiento, programación y visión, así que funciona como un caballo de batalla local y no como un asistente de un solo truco. El consumo es el inconveniente: en 4 bits ronda los 16.4 GB, y conviene tener al menos 24 GB de RAM para cargarlo sin apreturas. Eso descarta una tarjeta de 12 GB como una RTX 3060, donde directamente no entra, y te lleva hacia una GPU de 24 GB o un Mac con Apple Silicon y memoria unificada holgada.

En una RTX 4090 puedes esperar alrededor de 52 tokens por segundo en 4 bits, que fluye más rápido de lo que lees y resulta cómodo para trabajo interactivo. En un M-series Max se asienta cerca de 21 tokens por segundo, todavía bien para chat y programación, pero más lento en generaciones largas; solo con CPU sobre DDR5 baja a unos 3 tokens por segundo, terreno de paciencia. El contexto de 256K es la cifra llamativa, pero trátalo como un techo: en 128K la memoria total sube a unos 45.4 GB, así que en una tarjeta de 24 GB mantén el contexto de trabajo bien por debajo del máximo.

La comparación natural es Gemma 3 27B, el otro modelo de pesos abiertos de 27B con visión en esta categoría de tamaño. Gemma suele ser la apuesta más segura si buscas sobre todo un chat pulido y comprensión de imágenes, mientras que Qwen 3.5 27B en general es más fuerte en programación y razonamiento estructurado, que es donde está su valor diferencial para desarrolladores. La gran ventaja práctica es la licencia: se distribuye bajo Apache 2.0, así que puedes usarlo comercialmente y en producción sin condiciones específicas del proveedor, a diferencia de los términos de pesos abiertos que acompañan a Gemma.

Especificaciones

Parámetros27B

Ventana de contexto256K tokens

ProveedorAlibaba

LicenciaApache 2.0

Lanzamiento2026-02

Ideal paraChat, Razonamiento, Programación, Visión

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	11.3 GB	16 GB	Pérdida notable
Q4_K_MRecomendada	4.85	16.4 GB	24 GB	Recomendada
Q5_K_M	5.65	19.1 GB	32 GB	Alta
Q8_0	8.5	28.7 GB	48 GB	Casi original
F16	16	54.0 GB	96 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.9 GB	~17.3 GB
8K tokens	~1.8 GB	~18.2 GB
32K tokens	~7.3 GB	~23.7 GB
128K tokens	~29.0 GB	~45.4 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~52 tok/s
Apple M-series (base)	100 GB/s	~5 tok/s
Apple M-series Pro	270 GB/s	~14 tok/s
Apple M-series Max	410 GB/s	~21 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run qwen3.5:27b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Repositorio oficial en GitHub

Código fuente, releases e issues de Alibaba.