¿Cuánta RAM necesito para ejecutar Ministral 3 3B?

Unos 4 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 1.8 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Ministral 3 3B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Ministral 3 3B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Ministral 3 3B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Ministral 3 3B requiere unos 36 GB de memoria de GPU, mientras que QLoRA lo baja a unos 5 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Ministral 3 3B?

Ministral 3 3B, de Mistral AI, necesita alrededor de 4 GB de RAM con la cuantización recomendada de 4 bits (descarga de 1.8 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~168 tok/s en un NVIDIA RTX 3060 12GB.

Leyendo las señales de tu hardware…

Notas del mundo real

Ministral 3 3B es la respuesta de Mistral a la pregunta "¿cuál es el modelo más pequeño que aún se siente como un asistente de verdad?". Con 3B de parámetros está pensado para chat y trabajo ligero de visión sobre hardware que ya tienes. Una cuantización de 4 bits ronda los 1.8 GB, y puedes reducir la versión q2 hasta 1.3 GB si vas muy justo de espacio. Con un mínimo de 4 GB de RAM corre en un portátil de gama de entrada, una GPU vieja de 4 GB o cualquier Mac con Apple Silicon sin que tengas que preocuparte por la memoria. Es el modelo al que recurres cuando uno más grande no cabe.

En el día a día la velocidad es lo que más llama la atención. En una RTX 3060 verás unos 168 tokens por segundo, un M-series Max alcanza alrededor de 192 y una 4090 llega a unos 471: todos muy por encima de lo que puedes leer, así que las respuestas se sienten instantáneas. Solo con CPU sobre DDR5 aún logra unos 28 tok/s, suficiente para trabajo por lotes. La ventana de contexto es generosa, 256K, pero tómala como un techo. Llenarla sale caro rápido: con 128K de contexto la carga total de memoria sube a unos 12.6 GB, muy por encima de la huella del propio modelo, así que mantén el contexto de trabajo moderado en máquinas pequeñas.

Siendo honestos, con 3B estás sacrificando algo de profundidad a cambio de esa velocidad y esa huella mínima. Mistral 7B suele aguantar mejor en razonamiento más difícil y cadenas de instrucciones más largas, y Mistral Nemo 12B saca todavía más ventaja si te sobra memoria. Donde gana Ministral 3 3B es en la combinación de rendimiento bruto y el hecho de que además maneja visión, algo que los Mistral más grandes, solo de chat, no hacen. Se distribuye bajo Apache 2.0, así que puedes usarlo comercialmente sin ataduras. Como modelo pequeño rápido, gratuito y todoterreno, se gana su sitio.

Especificaciones

Parámetros3B

Ventana de contexto256K tokens

ProveedorMistral AI

LicenciaApache 2.0

Lanzamiento2025-12

Ideal paraChat, Visión

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	1.3 GB	4 GB	Pérdida notable
Q4_K_MRecomendada	4.85	1.8 GB	4 GB	Recomendada
Q5_K_M	5.65	2.1 GB	6 GB	Alta
Q8_0	8.5	3.2 GB	6 GB	Casi original
F16	16	6.0 GB	12 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.3 GB	~2.1 GB
8K tokens	~0.7 GB	~2.5 GB
32K tokens	~2.7 GB	~4.5 GB
128K tokens	~10.8 GB	~12.6 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	~168 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~471 tok/s
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run ministral-3:3b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Mistral AI — página oficial

Página oficial y documentación de Mistral AI.