¿Cuánta RAM necesito para ejecutar DeepSeek-OCR?

Unos 4 GB de memoria total del sistema para la build recomendada de 4 bits (Q4_K_M), que es una descarga de 1.8 GB. Con más RAM puedes usar cuantizaciones de mayor calidad o un contexto más largo.

¿Puede DeepSeek-OCR funcionar sin una GPU dedicada?

Sí — herramientas como Ollama y llama.cpp lo ejecutan en la CPU siempre que quepa en la RAM. Una GPU o un Apple Silicon acelera la generación varias veces, pero es opcional.

¿Qué cuantización de DeepSeek-OCR debo descargar?

Q4_K_M es el punto óptimo para casi todo el mundo — aproximadamente 4 veces más pequeño que el original con una pérdida de calidad mínima. Elige Q5 o Q8 si te sobra RAM, o Q2 solo cuando no quepa nada más.

¿Puedo hacer fine-tuning de DeepSeek-OCR en mi propio equipo?

El fine-tuning necesita mucha más memoria que la inferencia. El fine-tuning completo de DeepSeek-OCR requiere unos 36 GB de memoria de GPU, mientras que QLoRA lo baja a unos 5 GB. Para la mayoría, QLoRA en una GPU alquilada es el camino práctico.

¿Es mejor un modelo más grande en Q2/Q3 que uno más pequeño en Q4/Q5?

Normalmente no. Por debajo de Q3 la calidad se degrada mucho — un modelo más pequeño en Q4_K_M suele superar a uno más grande comprimido a Q2. Baja de Q4 solo cuando no quepa nada más en tu memoria.

← Todos los modelosCOMPROBACIÓN DE MODELO

¿Puedo ejecutar DeepSeek-OCR?

DeepSeek-OCR, de DeepSeek, necesita alrededor de 4 GB de RAM con la cuantización recomendada de 4 bits (descarga de 1.8 GB). Tu hardware se comprueba abajo — al instante, nada sale de tu navegador. Espera alrededor de ~886 tok/s en un NVIDIA RTX 3060 12GB.

Leyendo las señales de tu hardware…

Notas del mundo real

DeepSeek-OCR es un modelo especializado, no uno de chat: lee imágenes y convierte documentos, capturas de pantalla y páginas escaneadas en texto. Usa una arquitectura mixture-of-experts, así que aunque el modelo completo tiene 3B de parámetros, solo unos 0.57B se activan para cada token. Eso lo mantiene rápido, pero el detalle de MoE es que necesitas espacio en memoria para el modelo entero, no solo para la porción activa. En cuantización de 4 bits ronda los 1.8 GB y pide alrededor de 4 GB de RAM como mínimo, así que corre sin problema en una RTX 3060 de 12 GB, en un Mac con Apple Silicon modesto o incluso en un equipo moderno solo con CPU.

En la práctica se siente menos como esperar a un chatbot y más como ejecutar un trabajo por lotes veloz. En una RTX 3060 12GB puedes esperar unos 886 tokens por segundo, un M-series Max supera los 1000, y una 4090 juega en otra liga con unos ~2479 tok/s. Incluso solo con CPU sobre DDR5 alcanza cerca de 148 tok/s, lo que sirve para páginas ocasionales. La ventana de contexto es modesta, de 8K, más que suficiente para tareas de OCR porque le pasas una imagen a la vez; a contexto completo todo el conjunto llega como máximo a unos 2.5 GB de memoria, así que aquí la holgura rara vez es el problema.

No recurras a esto como asistente general. Si buscas razonamiento o respuestas paso a paso, un hermano como DeepSeek R1 7B suele servirte mucho mejor, y Ministral 3 3B es la opción más sensata cuando quieres visión más conversación de verdad en un solo modelo. La virtud distintiva de DeepSeek-OCR es estrecha pero real: es un motor diminuto y rápido de documento a texto que corre casi en cualquier parte. Se distribuye bajo una licencia MIT sencilla, así que puedes usarlo libremente en producción y en trabajo comercial, sin las ataduras específicas del proveedor que acompañan a muchos lanzamientos de pesos abiertos.

Especificaciones

Parámetros3B (0.57B activos)

Ventana de contexto8K tokens

ProveedorDeepSeek

LicenciaMIT

Lanzamiento2025-10

Ideal paraVisión

Tamaño por cuantización

Cuantización	Bits/peso	Descarga	RAM mínima	Calidad
Q2_K	3.35	1.3 GB	4 GB	Pérdida notable
Q4_K_MRecomendada	4.85	1.8 GB	4 GB	Recomendada
Q5_K_M	5.65	2.1 GB	6 GB	Alta
Q8_0	8.5	3.2 GB	6 GB	Casi original
F16	16	6.0 GB	12 GB	Original

Los tamaños son estimaciones de número de parámetros × bits por peso; las builds GGUF reales varían un poco. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →

Memoria necesaria según la longitud de contexto

Contexto	Caché KV (est.)	Memoria total (Q4)
4K tokens	~0.3 GB	~2.1 GB
8K tokens	~0.7 GB	~2.5 GB

La caché KV crece con la longitud del contexto — un modelo que cabe a 4K puede quedarse sin memoria a 32K. Las estimaciones asumen una caché en FP16 con grouped-query attention; el uso real varía según el runtime.

Velocidad estimada según el hardware

Hardware	Ancho de banda	~Velocidad
NVIDIA RTX 3060 12GB	360 GB/s	~886 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~2479 tok/s
Apple M-series (base)	100 GB/s	~246 tok/s
Apple M-series Pro	270 GB/s	~664 tok/s
Apple M-series Max	410 GB/s	~1009 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~148 tok/s

La generación de tokens está limitada por el ancho de banda de la memoria: tok/s ≈ ancho de banda × 0,85 ÷ tamaño del modelo en Q4. Las cifras reales varían según el runtime y la longitud del contexto.

Ejecútalo en local

El camino más fácil es Ollama — un comando y ya estás chateando:

ollama run deepseek-ocr:3b

Fuentes y descargas

Ollama Library

Descarga y ejecuta el modelo con un solo comando.

ollama.com

Hugging Face

Pesos del modelo, archivos y detalles de la licencia.

huggingface.co

Repositorio oficial en GitHub

Código fuente, releases e issues de DeepSeek.