DeepSeek-OCR çalıştırmak için ne kadar RAM gerekir?

Önerilen 4-bit (Q4_K_M) sürüm için yaklaşık 4 GB toplam sistem belleği gerekir; indirme boyutu 1.8 GB'dır. Daha fazla RAM, daha kaliteli nicemlemeler veya daha uzun bağlam kullanmanı sağlar.

DeepSeek-OCR ekran kartı olmadan çalışır mı?

Evet — Ollama ve llama.cpp gibi araçlar, RAM'e sığdığı sürece modeli CPU üzerinde çalıştırır. GPU veya Apple Silicon üretimi kat kat hızlandırır ama zorunlu değildir.

DeepSeek-OCR için hangi nicemlemeyi indirmeliyim?

Q4_K_M neredeyse herkes için en iyi denge — orijinalden yaklaşık 4 kat küçük, kalite kaybı minimum. Bol RAM'in varsa Q5 veya Q8 seç; Q2'yi sadece başka hiçbir şey sığmıyorsa kullan.

DeepSeek-OCR modelini kendi makinemde fine-tune edebilir miyim?

Fine-tuning, çıkarımdan çok daha fazla bellek ister. DeepSeek-OCR için tam fine-tuning yaklaşık 36 GB GPU belleği gerektirir; QLoRA bunu yaklaşık 5 GB'a indirir. Çoğu kişi için pratik yol, kiralık GPU üzerinde QLoRA'dır.

Q2/Q3'te büyük model mi, Q4/Q5'te küçük model mi daha iyi?

Genellikle hayır. Q3'ün altında kalite hızla bozulur — Q4_K_M'deki küçük bir model, Q2'ye sıkıştırılmış büyük modeli çoğunlukla geçer. Q4'ün altına yalnızca belleğine başka hiçbir şey sığmıyorsa in.

← Tüm modellerMODEL TESTİ

DeepSeek-OCR çalıştırabilir miyim?

DeepSeek imzalı DeepSeek-OCR, önerilen 4-bit nicemlemede yaklaşık 4 GB RAM ister (1.8 GB indirme). Donanımın aşağıda anında test ediliyor — hiçbir şey tarayıcından çıkmaz. NVIDIA RTX 3060 12GB üzerinde yaklaşık ~886 tok/s bekleyebilirsin.

Donanım sinyallerin okunuyor…

Gerçek dünya notları

DeepSeek-OCR bir sohbet modeli değil, uzman bir model: görüntüleri okuyor; belgeleri, ekran görüntülerini ve taranmış sayfaları metne çeviriyor. Bir mixture-of-experts tasarımı, yani modelin tamamı 3B parametre olsa da herhangi bir token için bunların yalnızca 0,57B kadarı devreye giriyor. Bu, modeli hızlı tutuyor; ancak MoE'nin püf noktası şu: aktif dilime değil, modelin tamamına bellekte yer açmanız gerekiyor. 4-bit niceleme (quant) ile boyut yaklaşık 1.8 GB'a iniyor ve en az 4 GB civarı RAM istiyor, dolayısıyla 12 GB'lık bir RTX 3060'a, küçük bir Apple Silicon Mac'e, hatta modern bir CPU makinesine rahatça sığıyor.

Pratikte bunu bir chatbot'u bekler gibi değil, daha çok hızlı bir batch işi çalıştırır gibi hissediyorsunuz. RTX 3060 12GB üzerinde saniyede 886 token civarı bir hız bekleyebilirsiniz; bir M-serisi Max 1000'i aşıyor, bir 4090 ise yaklaşık 2479 tok/s ile bambaşka bir ligde. DDR5 üzerinde saf CPU bile yaklaşık 148 tok/s tutturuyor ki ara sıra sayfa işlemek için yeterli. Bağlam penceresi 8K ile mütevazı, ama OCR işi için fazlasıyla yeterli çünkü modele tek seferde bir görüntü veriyorsunuz; tam bağlamda her şey 2.5 GB belleğe varıyor, dolayısıyla burada manevra alanı nadiren sorun oluyor.

Bunu genel amaçlı bir asistan olarak düşünmeyin. Akıl yürütme ya da adım adım yanıtlar istiyorsanız, kardeş model DeepSeek R1 7B genellikle sizi çok daha iyi idare eder; tek modelde hem görüntü hem gerçek bir sohbet istiyorsanız da Ministral 3 3B daha mantıklı bir tercih. DeepSeek-OCR'ın öne çıkan özelliği dar ama gerçek: neredeyse her yerde çalışan, küçük ve hızlı bir belge-metin motoru. Sade bir MIT lisansıyla geliyor, yani çoğu açık ağırlıklı sürüme iliştirilen sağlayıcıya özgü kısıtlar olmadan onu üretimde ve ticari işlerde özgürce kullanabilirsiniz.

Teknik özellikler

Parametre3B (0.57B aktif)

Bağlam penceresi8K token

SağlayıcıDeepSeek

LisansMIT

Çıkış2025-10

En iyi olduğu alanGörüntü

Nicemlemeye göre boyut

Nicemleme	Bit/ağırlık	İndirme	Min RAM	Kalite
Q2_K	3.35	1.3 GB	4 GB	Belirgin kayıp
Q4_K_MÖnerilen	4.85	1.8 GB	4 GB	Önerilen
Q5_K_M	5.65	2.1 GB	6 GB	Yüksek
Q8_0	8.5	3.2 GB	6 GB	Orijinale yakın
F16	16	6.0 GB	12 GB	Orijinal

Boyutlar parametre sayısı × ağırlık başına bit üzerinden tahmindir; gerçek GGUF sürümleri biraz farklı olabilir. · Veri güncellemesi: 2026-06-11 · Bu sayıları nasıl hesaplıyoruz? →

Bağlam uzunluğuna göre bellek ihtiyacı

Bağlam	KV önbelleği (tahmini)	Toplam bellek (Q4)
4K token	~0.3 GB	~2.1 GB
8K token	~0.7 GB	~2.5 GB

KV önbelleği bağlam uzunluğuyla büyür — 4K'da sığan model 32K'da belleği doldurabilir. Tahminler grouped-query attention ile FP16 önbellek varsayar; gerçek kullanım çalışma ortamına göre değişir.

Donanıma göre tahmini hız

Donanım	Bant genişliği	~Hız
NVIDIA RTX 3060 12GB	360 GB/s	~886 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~2479 tok/s
Apple M-series (base)	100 GB/s	~246 tok/s
Apple M-series Pro	270 GB/s	~664 tok/s
Apple M-series Max	410 GB/s	~1009 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~148 tok/s

Token üretimi bellek bant genişliğiyle sınırlıdır: tok/s ≈ bant genişliği × 0,85 ÷ Q4 model boyutu. Gerçek değerler çalışma ortamına ve bağlam uzunluğuna göre değişir.

Yerel çalıştır

En kolay yol Ollama — tek komutla sohbete başla:

ollama run deepseek-ocr:3b

Kaynaklar ve indirme

Ollama Library

Modeli tek komutla indir ve çalıştır.

ollama.com

Hugging Face

Model ağırlıkları, dosyalar ve lisans detayları.

huggingface.co

Resmi GitHub reposu

DeepSeek kaynak kodu, sürümler ve issue'lar.