Question 1

¿Cuánta RAM necesito para ejecutar Mistral Small 4 119B?

Accepted Answer

Unos 96 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 72.1 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

Question 2

¿Puede Mistral Small 4 119B funcionar sin una GPU dedicada?

Accepted Answer

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

Question 3

¿Qué cuantización de Mistral Small 4 119B debo descargar?

Accepted Answer

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

Question 4

¿Puedo hacer fine-tuning de Mistral Small 4 119B en mi propio equipo?

Accepted Answer

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Mistral Small 4 119B requiere unos 1428 GB de memoria de GPU, mientras que QLoRA lo baja a unos 179 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

Question 5

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Accepted Answer

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	49.8 GB	64 GB	Pérdida notable
Q4_K_MRecomendada	4.85	72.1 GB	96 GB	Recomendada
Q5_K_M	5.65	84.0 GB	128 GB	Alta
Q8_0	8.5	126.4 GB	192 GB	Casi original
F16	16	238.0 GB	256 GB	Original

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~1.8 GB	~73.9 GB
8K tokens	~3.5 GB	~75.6 GB
32K tokens	~14.1 GB	~86.2 GB
128K tokens	~56.5 GB	~128.6 GB

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	No cabe en la VRAM
Apple M-series (base)	100 GB/s	~22 tok/s
Apple M-series Pro	270 GB/s	~58 tok/s
Apple M-series Max	410 GB/s	~88 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~13 tok/s

¿Puedo ejecutar Mistral Small 4 119B?

Preguntas frecuentes