Question 1

¿Cuánta RAM necesito para ejecutar Phi-4 Reasoning Vision 15B?

Accepted Answer

Unos 16 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 9.1 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

Question 2

¿Puede Phi-4 Reasoning Vision 15B funcionar sin una GPU dedicada?

Accepted Answer

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

Question 3

¿Qué cuantización de Phi-4 Reasoning Vision 15B debo descargar?

Accepted Answer

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

Question 4

¿Puedo hacer fine-tuning de Phi-4 Reasoning Vision 15B en mi propio equipo?

Accepted Answer

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Phi-4 Reasoning Vision 15B requiere unos 180 GB de memoria de GPU, mientras que QLoRA lo baja a unos 23 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

Question 5

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Accepted Answer

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	6.3 GB	12 GB	Pérdida notable
Q4_K_MRecomendada	4.85	9.1 GB	16 GB	Recomendada
Q5_K_M	5.65	10.6 GB	16 GB	Alta
Q8_0	8.5	15.9 GB	24 GB	Casi original
F16	16	30.0 GB	48 GB	Original

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.7 GB	~9.8 GB
8K tokens	~1.4 GB	~10.5 GB

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	~34 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~94 tok/s
Apple M-series (base)	100 GB/s	~9 tok/s
Apple M-series Pro	270 GB/s	~25 tok/s
Apple M-series Max	410 GB/s	~38 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~6 tok/s

¿Puedo ejecutar Phi-4 Reasoning Vision 15B?

Preguntas frecuentes