¿Cuánta RAM necesito para ejecutar Mellum 2 12B-A2.5B?

Unos 12 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 7.3 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Mellum 2 12B-A2.5B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Mellum 2 12B-A2.5B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Mellum 2 12B-A2.5B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Mellum 2 12B-A2.5B requiere unos 144 GB de memoria de GPU, mientras que QLoRA lo baja a unos 18 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Mellum 2 12B-A2.5B?

Mellum 2 12B-A2.5B, de JetBrains, necesita alrededor de 12 GB de RAM con la cuantización recomendada de 4 bits (descarga de 7.3 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~202 tok/s en un NVIDIA RTX 3060 12GB.

Leyendo las señales de tu hardware…

Notas del mundo real

Mellum 2 es el modelo de JetBrains enfocado en programación, construido como una mezcla de expertos (mixture-of-experts): 12B parámetros en total, pero solo unos 2.5B activos por token. Ese es el sentido de su diseño. Obtienes la velocidad de un modelo de unos 2-3B, pero igual cargas los 12B completos en memoria, así que no te dejes engañar por el conteo de activos. En cuantización de 4 bits ronda los 7.3 GB, con un piso práctico de unos 12 GB de RAM. Eso entra en una tarjeta de 12 GB como una RTX 3060 o en la memoria unificada de un Mac con Apple Silicon, pero 8 GB se queda corto. Si vives dentro de los IDEs de JetBrains y quieres autocompletado de código en local, va dirigido justamente a ti.

En el uso diario el diseño MoE rinde: se siente mucho más rápido de lo que su tamaño sugiere. En una RTX 3060 12GB puedes esperar unos 202 tokens por segundo en 4 bits, y una RTX 4090 supera los 565, bien dentro del rango donde las completaciones aparecen antes de que termines de escribir la siguiente línea. El contexto de 128K es realmente grande para un modelo de programación, útil para pasarle archivos enteros o todos los headers de un repo, pero no sale gratis. Si lo llenas por completo, la memoria total trepa a unos 27.4 GB, muy por encima de lo que aguanta una sola tarjeta de 12 GB, así que mantén el contexto de trabajo moderado salvo que tengas una GPU de 24 GB o memoria unificada generosa.

Conviene ser claro sobre su alcance: es un especialista en código, no un asistente general. Para chat, razonamiento o cualquier cosa con imágenes, un modelo 12B más amplio como Gemma 4 12B suele servirte mejor, y Mistral Nemo 12B tiende a ser la opción más cómoda para conversación abierta. Lo que distingue a Mellum 2 es esa relación velocidad-tamaño del MoE en trabajo de autocompletado, sumada a una integración de primera con el IDE hecha por quienes fabrican tu editor. Y la licencia es la parte fácil: Apache 2.0, así que puedes usarlo comercialmente y en producción sin preocupaciones legales. Si tu trabajo principal es programar y tienes una tarjeta de 12 GB, es una opción local fuerte y rápida.

Especificaciones

Parámetros12B (2.5B activos)

Ventana de contexto128K tokens

ProveedorJetBrains

LicenciaApache 2.0

Lanzamiento2026-06

Ideal paraProgramación

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	5.0 GB	8 GB	Pérdida notable
Q4_K_MRecomendada	4.85	7.3 GB	12 GB	Recomendada
Q5_K_M	5.65	8.5 GB	16 GB	Alta
Q8_0	8.5	12.8 GB	24 GB	Casi original
F16	16	24.0 GB	32 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.6 GB	~7.9 GB
8K tokens	~1.3 GB	~8.6 GB
32K tokens	~5.0 GB	~12.3 GB
128K tokens	~20.1 GB	~27.4 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	~202 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~565 tok/s
Apple M-series (base)	100 GB/s	~56 tok/s
Apple M-series Pro	270 GB/s	~151 tok/s
Apple M-series Max	410 GB/s	~230 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~34 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Fuentes y descargas

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

JetBrains — página oficial

Página oficial y documentación de JetBrains.

blog.jetbrains.com