¿Cuánta RAM necesito para ejecutar Qwen 3.5 4B?

Unos 6 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 2.4 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Qwen 3.5 4B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Qwen 3.5 4B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Qwen 3.5 4B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Qwen 3.5 4B requiere unos 48 GB de memoria de GPU, mientras que QLoRA lo baja a unos 6 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Qwen 3.5 4B?

Qwen 3.5 4B, de Alibaba, necesita alrededor de 6 GB de RAM con la cuantización recomendada de 4 bits (descarga de 2.4 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~126 tok/s en un NVIDIA RTX 3060 12GB.

Leyendo las señales de tu hardware…

Notas del mundo real

Qwen 3.5 4B es un modelo denso pequeño pensado para quienes quieren un asistente local capaz que apenas exige hardware. En cuantización de 4 bits ronda los 2.4 GB, así que entra en casi cualquier GPU moderna con espacio de sobra, corre con holgura en la memoria unificada de un Mac con Apple Silicon, y los 6 GB de RAM mínima permiten que hasta un portátil viejo lo ejecute. Además maneja visión, no solo chat, algo poco común a este tamaño. La licencia Apache 2.0 significa que puedes usarlo comercialmente y en producción sin ataduras de ningún tipo.

En el día a día es rápido. En una RTX 4090 verás unos 353 tokens por segundo, y una RTX 3060 de gama media aún alcanza cerca de 126 tok/s; ambas cifras superan con creces tu velocidad de lectura. Un M-series Max se queda alrededor de 144 tok/s, e incluso en CPU pura sobre DDR5 logra unos 21 tok/s si tienes paciencia. La ventana de contexto de 256K es generosa, pero trátala como margen, no como valor por defecto. La memoria sube de golpe a medida que la llenas: con 128K de contexto el consumo total llega a unos 14.7 GB, que desbordará a la mayoría de las tarjetas de consumo, así que mantén el contexto de trabajo moderado salvo que te sobre memoria.

Frente a su propia familia se sitúa muy por encima de los diminutos Qwen 3 1.7B y 0.6B, más adecuados para móviles y uso embebido que para ser tu asistente principal. Comparado con Phi-4 Mini 3.8B, Qwen 3.5 4B suele sentirse más versátil gracias a su soporte de visión y su contexto más largo, mientras que Phi-4 Mini tiende a defenderse bien en razonamiento de alcance acotado. Su rasgo más destacado es el valor de esa huella: un modelo multimodal de 4B que corre rápido en hardware modesto bajo una licencia totalmente permisiva es una combinación rara, y eso lo convierte en una opción por defecto fácil para un montaje local ligero.

Especificaciones

Parámetros4B

Ventana de contexto256K tokens

ProveedorAlibaba

LicenciaApache 2.0

Lanzamiento2026-03

Ideal paraChat, Visión

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	1.7 GB	4 GB	Pérdida notable
Q4_K_MRecomendada	4.85	2.4 GB	6 GB	Recomendada
Q5_K_M	5.65	2.8 GB	6 GB	Alta
Q8_0	8.5	4.3 GB	8 GB	Casi original
F16	16	8.0 GB	12 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.4 GB	~2.8 GB
8K tokens	~0.8 GB	~3.2 GB
32K tokens	~3.1 GB	~5.5 GB
128K tokens	~12.3 GB	~14.7 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	~126 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~353 tok/s
Apple M-series (base)	100 GB/s	~35 tok/s
Apple M-series Pro	270 GB/s	~95 tok/s
Apple M-series Max	410 GB/s	~144 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~21 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run qwen3.5:4b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Repositorio oficial en GitHub

Código fuente, releases e issues de Alibaba.