Question 1

¿Cuánta RAM necesito para ejecutar GLM-4.6V-Flash?

Accepted Answer

Unos 12 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 5.5 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

Question 2

¿Puede GLM-4.6V-Flash funcionar sin una GPU dedicada?

Accepted Answer

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

Question 3

¿Qué cuantización de GLM-4.6V-Flash debo descargar?

Accepted Answer

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

Question 4

¿Puedo hacer fine-tuning de GLM-4.6V-Flash en mi propio equipo?

Accepted Answer

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de GLM-4.6V-Flash requiere unos 108 GB de memoria de GPU, mientras que QLoRA lo baja a unos 14 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

Question 5

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Accepted Answer

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	3.8 GB	8 GB	Pérdida notable
Q4_K_MRecomendada	4.85	5.5 GB	12 GB	Recomendada
Q5_K_M	5.65	6.4 GB	12 GB	Alta
Q8_0	8.5	9.6 GB	16 GB	Casi original
F16	16	18.0 GB	24 GB	Original

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.6 GB	~6.1 GB
8K tokens	~1.1 GB	~6.6 GB
32K tokens	~4.4 GB	~9.9 GB
128K tokens	~17.7 GB	~23.2 GB

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	~56 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~157 tok/s
Apple M-series (base)	100 GB/s	~16 tok/s
Apple M-series Pro	270 GB/s	~42 tok/s
Apple M-series Max	410 GB/s	~64 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~9 tok/s

¿Puedo ejecutar GLM-4.6V-Flash?

Preguntas frecuentes