¿Cuánta RAM necesito para ejecutar Gemma 4 26B A4B?

Unos 24 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 15.3 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede Gemma 4 26B A4B funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de Gemma 4 26B A4B debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de Gemma 4 26B A4B en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de Gemma 4 26B A4B requiere unos 302 GB de memoria de GPU, mientras que QLoRA lo baja a unos 38 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar Gemma 4 26B A4B?

Gemma 4 26B A4B, de Google, necesita alrededor de 24 GB de RAM con la cuantización recomendada de 4 bits (descarga de 15.3 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~151 tok/s en un Apple M-series Max.

Leyendo las señales de tu hardware…

Notas del mundo real

Gemma 4 26B A4B es la apuesta mixture-of-experts de Google, y el truco está en el nombre: contiene 25.2B de parámetros en total, pero solo enruta 3.8B por cada token. Eso significa que genera a la velocidad de un modelo pequeño, aunque necesita memoria para el conjunto completo. En cuantización de 4 bits ronda los 15.3 GB, y conviene tener al menos 24 GB de RAM para cargarlo con holgura. Eso descarta una tarjeta de 12 GB como la RTX 3060, donde directamente no entra, y te orienta hacia una GPU de 24 GB o un equipo con Apple Silicon y memoria unificada generosa.

En el día a día, el diseño MoE rinde. En una RTX 4090 corre a unos 372 tokens por segundo, muy por encima del punto en que el texto se transmite más rápido de lo que puedes leer, y un Max de la serie M aún entrega cerca de 151 tok/s. Solo con CPU sobre DDR5 baja a unos 22 tok/s, suficiente para tareas por lotes pero no para chat interactivo. La ventana de contexto es generosa, 256K, pero tómala como un techo: con 128K de contexto, el consumo total de memoria sube hasta unos 43.4 GB, así que en una configuración de 24 GB conviene mantener el contexto de trabajo moderado, salvo que bajes a la build q2 de 10.6 GB.

Frente a Mistral Small 3.1 24B, un modelo de visión denso de tamaño parecido, Gemma 4 suele sentirse más ágil por token gracias al enrutamiento disperso, aunque los modelos densos de esa categoría pueden llevar ventaja en el razonamiento más exigente de una sola pasada. Su rasgo distintivo es esa relación entre velocidad y capacidad, sumada a un soporte real de visión y de programación en un mismo paquete. La licencia es Apache 2.0, así que puedes usarlo comercialmente y en producción sin restricciones específicas del proveedor, algo poco común a este tamaño y un punto claramente a su favor. Descárgalo con ollama como gemma4:26b.

Especificaciones

Parámetros25.2B (3.8B activos)

Ventana de contexto256K tokens

ProveedorGoogle

LicenciaApache 2.0

Lanzamiento2026-04

Ideal paraChat, Programación, Razonamiento, Visión

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	10.6 GB	16 GB	Pérdida notable
Q4_K_MRecomendada	4.85	15.3 GB	24 GB	Recomendada
Q5_K_M	5.65	17.8 GB	24 GB	Alta
Q8_0	8.5	26.8 GB	48 GB	Casi original
F16	16	50.4 GB	96 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.9 GB	~16.2 GB
8K tokens	~1.8 GB	~17.1 GB
32K tokens	~7.0 GB	~22.3 GB
128K tokens	~28.1 GB	~43.4 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	No cabe en la VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~372 tok/s
Apple M-series (base)	100 GB/s	~37 tok/s
Apple M-series Pro	270 GB/s	~100 tok/s
Apple M-series Max	410 GB/s	~151 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~22 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run gemma4:26b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Repositorio oficial en GitHub

Código fuente, releases e issues de Google.