¿Cuánta RAM necesito para ejecutar Magistral Small 1.2?

Unos 24 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 14.6 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Magistral Small 1.2 funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Magistral Small 1.2 debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Magistral Small 1.2 en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Magistral Small 1.2 requiere unos 288 GB de memoria de GPU, mientras que QLoRA lo baja a unos 36 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Magistral Small 1.2?

Magistral Small 1.2, de Mistral AI, necesita alrededor de 24 GB de RAM con la cuantización recomendada de 4 bits (descarga de 14.6 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~24 tok/s en un Apple M-series Max.

Leyendo las señales de tu hardware…

Notas del mundo real

Magistral Small 1.2 es el modelo de razonamiento de 24B de Mistral, pensado para quien quiere un asistente local que de verdad razone problemas de varios pasos en lugar de limitarse a conversar. También maneja visión y conversación general, pero el motivo para elegirlo es el razonamiento. Lo primero que hay que planificar es su huella de memoria: con cuantización de 4 bits ronda los 14.6 GB, y conviene disponer de unos 24 GB de memoria para usarlo con holgura. Eso descarta una tarjeta de 12 GB como una RTX 3060, donde directamente no entra, y te orienta hacia una GPU de 24 GB o un Mac con Apple Silicon de más memoria.

En una RTX 4090 genera alrededor de 59 tokens por segundo, lo bastante rápido como para que su razonamiento paso a paso nunca se sienta como una espera. En un M-series Max te quedas más cerca de 24 tokens por segundo, todavía perfectamente usable para trabajo interactivo, y solo con CPU sobre DDR5 baja a unos 4 tokens por segundo, suficiente para tareas por lotes pero no para chat en vivo. El contexto de 128K es real, pero consume mucha memoria: si lo llenas, el uso total sube a unos 42 GB, bastante por encima de lo que aloja una sola tarjeta de 24 GB, así que mantén un contexto de trabajo moderado a menos que tengas margen de sobra.

Frente a sus hermanos, Mistral Nemo 12B es la opción más ligera y rápida si lo que buscas sobre todo es chat y no puedes permitirte la memoria, mientras que Gemma 4 26B A4B suele competir de forma más directa en razonamiento, programación y visión a un tamaño similar. El rasgo distintivo de Magistral es ese enfoque en el razonamiento dentro de un modelo que puedes poseer por completo: la licencia Apache 2.0 significa que puedes usarlo con fines comerciales y en producción sin ataduras del proveedor, algo poco habitual en un modelo de razonamiento de 24B tan capaz. Si tienes los 24 GB para alimentarlo, es uno de los modelos locales de razonamiento más serios disponibles.

Especificaciones

Parámetros24B

Ventana de contexto128K tokens

ProveedorMistral AI

LicenciaApache 2.0

Lanzamiento2025-09

Ideal paraRazonamiento, Chat, Visión

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	10.1 GB	16 GB	Pérdida notable
Q4_K_MRecomendada	4.85	14.6 GB	24 GB	Recomendada
Q5_K_M	5.65	17.0 GB	24 GB	Alta
Q8_0	8.5	25.5 GB	48 GB	Casi original
F16	16	48.0 GB	64 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.9 GB	~15.5 GB
8K tokens	~1.7 GB	~16.3 GB
32K tokens	~6.9 GB	~21.5 GB
128K tokens	~27.5 GB	~42.1 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~59 tok/s
Apple M-series (base)	100 GB/s	~6 tok/s
Apple M-series Pro	270 GB/s	~16 tok/s
Apple M-series Max	410 GB/s	~24 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~4 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Fuentes y descargas

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Mistral AI — página oficial

Página oficial y documentación de Mistral AI.

mistral.ai