Сколько RAM нужно для запуска DeepSeek-OCR?

Около 4 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 1.8 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли DeepSeek-OCR без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию DeepSeek-OCR скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить DeepSeek-OCR на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение DeepSeek-OCR занимает примерно 36 GB памяти GPU, а QLoRA снижает требования примерно до 5 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить DeepSeek-OCR?

Модели DeepSeek-OCR от DeepSeek нужно около 4 GB RAM при рекомендуемой 4-битной квантизации (загрузка 1.8 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~886 tok/s на NVIDIA RTX 3060 12GB.

Считываем характеристики вашего железа…

Заметки из практики

DeepSeek-OCR — это узкоспециализированная модель, а не чат-бот: она читает изображения и превращает документы, скриншоты и отсканированные страницы в текст. Архитектура построена на mixture-of-experts, поэтому, хотя полная модель содержит 3B параметров, на каждый токен активируется лишь около 0.57B из них. Это держит её быстрой, но подвох MoE в том, что в память всё равно нужно уместить модель целиком, а не только активную часть. В 4-битном кванте она занимает примерно 1.8 GB и требует минимум около 4 GB RAM, поэтому свободно помещается на 12 GB RTX 3060, на компактном Mac с Apple Silicon или даже на современной машине без видеокарты.

На практике это ощущается не как ожидание ответа чат-бота, а скорее как запуск быстрой пакетной задачи. На RTX 3060 12GB можно рассчитывать примерно на 886 токенов в секунду, M-серии Max выдаёт больше 1000, а 4090 играет в другой лиге — около 2479 tok/s. Даже чистый CPU на DDR5 даёт порядка 148 tok/s, чего хватает для отдельных страниц время от времени. Контекстное окно скромное — 8K, но для OCR этого с лихвой достаточно, ведь вы подаёте по одному изображению за раз; при полном контексте потребление памяти доходит примерно до 2.5 GB, так что запас здесь редко становится проблемой.

Не берите её как универсального помощника. Если нужны рассуждения или пошаговые ответы, родственная DeepSeek R1 7B обычно справится куда лучше, а Ministral 3 3B — более разумный выбор, когда хочется зрение и настоящий диалог в одной модели. Сильная сторона DeepSeek-OCR узкая, но реальная: это крошечный, быстрый движок преобразования документов в текст, который запускается почти где угодно. Она поставляется под обычной лицензией MIT, так что её можно свободно использовать в продакшене и коммерческих проектах без специфичных для провайдера ограничений, которыми обременены многие релизы с открытыми весами.

Характеристики

Параметры3B (0.57B активных)

Контекстное окно8K токенов

РазработчикDeepSeek

ЛицензияMIT

Дата выхода2025-10

Лучше всего дляИзображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	1.3 GB	4 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	1.8 GB	4 GB	Рекомендуется
Q5_K_M	5.65	2.1 GB	6 GB	Высокое
Q8_0	8.5	3.2 GB	6 GB	Почти оригинал
F16	16	6.0 GB	12 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~0.3 GB	~2.1 GB
8K токенов	~0.7 GB	~2.5 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	~886 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~2479 tok/s
Apple M-series (base)	100 GB/s	~246 tok/s
Apple M-series Pro	270 GB/s	~664 tok/s
Apple M-series Max	410 GB/s	~1009 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~148 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run deepseek-ocr:3b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от DeepSeek.