¿Cuánta RAM necesito para ejecutar Ministral 3 14B?

Unos 16 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 8.5 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Ministral 3 14B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Ministral 3 14B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Ministral 3 14B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Ministral 3 14B requiere unos 168 GB de memoria de GPU, mientras que QLoRA lo baja a unos 21 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Ministral 3 14B?

Ministral 3 14B, de Mistral AI, necesita alrededor de 16 GB de RAM con la cuantización recomendada de 4 bits (descarga de 8.5 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~36 tok/s en un NVIDIA RTX 3060 12GB.

Leyendo las señales de tu hardware…

Notas del mundo real

Ministral 3 14B es el modelo de tamaño medio que Mistral lanzó en diciembre de 2025: una red densa de 14B parámetros que además procesa visión, así que es la opción ideal cuando quieres un único modelo local que converse y lea imágenes sin tener que malabarear dos checkpoints. Con una cuantización de 4 bits ronda los 8.5 GB, justo por encima de lo que una tarjeta de 8 GB sostiene con holgura, pero perfectamente en casa en una RTX 3060 de 12 GB o en cualquier Mac con Apple Silicon y 16 GB de memoria unificada o más. Si vas justo de memoria, una build de 2 bits lo reduce a unos 5.9 GB; la build q8 se acerca a los 15 GB.

En el día a día se siente ágil para su tamaño. En una RTX 3060 12 GB verás alrededor de 36 tokens por segundo a 4 bits, cómodamente más rápido que la velocidad de lectura, y una RTX 4090 lo sube a unos 101 tok/s. Un M-series Max se queda cerca de 41 tok/s. La ventana de contexto de 256K es la cifra que llama la atención, pero trátala como un techo, no como un valor por defecto: incluso a 128K, la memoria total trepa hasta unos 30.1 GB cuando se llena la caché KV, muy por encima de un solo dispositivo de 12 GB o 16 GB. Mantén el contexto de trabajo en unos pocos miles de tokens salvo que dispongas de una tarjeta de 24 GB o más.

Frente a sus vecinos, Ministral 3 14B suele llevar ventaja sobre hermanos más antiguos como Mistral 7B y Mistral Nemo 12B en prompts más difíciles y de varios pasos, sencillamente por ser más grande y más nuevo, mientras que OLMo 2 13B es la alternativa de datos totalmente abiertos si la reproducibilidad te importa más que la capacidad bruta. Su verdadero punto fuerte es la capacidad de visión integrada a este tamaño con un perfil de velocidad realmente utilizable. Y la licencia es la parte fácil: Apache 2.0, así que puedes usarlo comercialmente y en producción sin condiciones específicas del proveedor.

Especificaciones

Parámetros14B

Ventana de contexto256K tokens

ProveedorMistral AI

LicenciaApache 2.0

Lanzamiento2025-12

Ideal paraChat, Visión

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	5.9 GB	12 GB	Pérdida notable
Q4_K_MRecomendada	4.85	8.5 GB	16 GB	Recomendada
Q5_K_M	5.65	9.9 GB	16 GB	Alta
Q8_0	8.5	14.9 GB	24 GB	Casi original
F16	16	28.0 GB	48 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.7 GB	~9.2 GB
8K tokens	~1.3 GB	~9.8 GB
32K tokens	~5.4 GB	~13.9 GB
128K tokens	~21.6 GB	~30.1 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	~36 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~101 tok/s
Apple M-series (base)	100 GB/s	~10 tok/s
Apple M-series Pro	270 GB/s	~27 tok/s
Apple M-series Max	410 GB/s	~41 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~6 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run ministral-3:14b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Mistral AI — página oficial

Página oficial y documentación de Mistral AI.