¿Cuánta RAM necesito para ejecutar Qwen3-VL 32B?

Unos 32 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 20.0 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Qwen3-VL 32B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Qwen3-VL 32B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Qwen3-VL 32B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Qwen3-VL 32B requiere unos 396 GB de memoria de GPU, mientras que QLoRA lo baja a unos 50 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Qwen3-VL 32B?

Qwen3-VL 32B, de Alibaba, necesita alrededor de 32 GB de RAM con la cuantización recomendada de 4 bits (descarga de 20.0 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~17 tok/s en un Apple M-series Max.

Leyendo las señales de tu hardware…

Notas del mundo real

Qwen3-VL 32B es el modelo de visión y razonamiento de Alibaba, pensado para quien quiere un asistente local capaz de mirar imágenes de verdad, no solo leer texto. Con sus 33B de parámetros densos, exige bastante más que los típicos modelos de inicio de 7-8B: una cuantización a 4 bits ronda los 20 GB y necesitas al menos 32 GB de RAM de sistema para mantener el modelo completo con holgura. Eso descarta una tarjeta de 12 GB como la RTX 3060, donde directamente no entra. En la práctica, hablamos de una GPU de 24 GB o un Mac con Apple Silicon bien equipado, no de un portátil cualquiera.

En el día a día se siente capaz, pero pausado más que ágil. En una RTX 4090 puedes esperar unos 43 tokens por segundo a 4 bits, suficiente para chatear y preguntar sobre imágenes con comodidad; en un Mac M-Max baja a cerca de 17 tokens por segundo, usable pero más lento de lo que querrías en sesiones largas, y solo con CPU, a unos 3 tokens por segundo, es un último recurso. La ventana de contexto de 256K es generosa, pero la memoria crece rápido con ella: incluso a 128K, el consumo total sube hasta unos 51,7 GB, así que mantén el contexto de trabajo moderado salvo que tengas margen de sobra.

Frente a EXAONE 4.5 33B, el rival evidente del mismo tamaño que también maneja visión y razonamiento, ambos se reparten golpes y tu elección dependerá del tooling y del ecosistema en el que ya confíes; la fuerza de Qwen3-VL es una familia madura y ampliamente soportada, con un pull sencillo en Ollama mediante qwen3-vl:32b. Su rasgo más destacado es un razonamiento multimodal realmente sólido en un tamaño que todavía puedes autoalojar en una sola GPU. Y la licencia es lo fácil: Apache 2.0 significa que puedes usarlo libremente, incluso en trabajo comercial y de producción, sin condiciones específicas del proveedor.

Especificaciones

Parámetros33B

Ventana de contexto256K tokens

ProveedorAlibaba

LicenciaApache 2.0

Lanzamiento2025-10

Ideal paraVisión, Chat, Razonamiento

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	13.8 GB	24 GB	Pérdida notable
Q4_K_MRecomendada	4.85	20.0 GB	32 GB	Recomendada
Q5_K_M	5.65	23.3 GB	32 GB	Alta
Q8_0	8.5	35.1 GB	48 GB	Casi original
F16	16	66.0 GB	96 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~1.0 GB	~21.0 GB
8K tokens	~2.0 GB	~22.0 GB
32K tokens	~7.9 GB	~27.9 GB
128K tokens	~31.7 GB	~51.7 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~43 tok/s
Apple M-series (base)	100 GB/s	~4 tok/s
Apple M-series Pro	270 GB/s	~11 tok/s
Apple M-series Max	410 GB/s	~17 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run qwen3-vl:32b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Repositorio oficial en GitHub

Código fuente, releases e issues de Alibaba.