Wie viel RAM brauche ich für DeepSeek-OCR?

Rund 4 GB Gesamtspeicher für den empfohlenen 4-Bit-Build (Q4_K_M), ein 1.8 GB großer Download. Mit mehr RAM können Sie höherwertige Quantisierungen oder längeren Kontext nutzen.

Läuft DeepSeek-OCR auch ohne dedizierte GPU?

Ja — Tools wie Ollama und llama.cpp führen es auf der CPU aus, solange es in den RAM passt. Eine GPU oder Apple Silicon beschleunigt die Generierung um ein Vielfaches, ist aber optional.

Welche Quantisierung von DeepSeek-OCR sollte ich herunterladen?

Q4_K_M ist für fast alle die beste Wahl — rund 4× kleiner als das Original bei minimalem Qualitätsverlust. Greifen Sie zu Q5 oder Q8, wenn Sie reichlich RAM haben, und zu Q2 nur, wenn sonst nichts passt.

Kann ich DeepSeek-OCR auf meinem eigenen Rechner per Fine-Tuning anpassen?

Fine-Tuning benötigt deutlich mehr Speicher als die Inferenz. Vollständiges Fine-Tuning von DeepSeek-OCR braucht rund 36 GB GPU-Speicher, mit QLoRA sinkt der Bedarf auf etwa 5 GB. Für die meisten ist QLoRA auf einer gemieteten GPU der praktikable Weg.

Ist ein größeres Modell bei Q2/Q3 besser als ein kleineres bei Q4/Q5?

Meist nicht. Unterhalb von Q3 bricht die Qualität deutlich ein — ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde. Gehen Sie nur unter Q4, wenn sonst nichts in Ihren Speicher passt.

← Alle ModelleMODELL-CHECK

Kann ich DeepSeek-OCR lokal ausführen?

DeepSeek-OCR von DeepSeek benötigt bei der empfohlenen 4-Bit-Quantisierung rund 4 GB RAM (1.8 GB Download). Ihre Hardware wird unten geprüft — sofort, und nichts verlässt Ihren Browser. Rechnen Sie mit rund ~886 tok/s auf einem NVIDIA RTX 3060 12GB.

Hardware-Signale werden ausgelesen…

Praxis-Notizen

DeepSeek-OCR ist ein Spezialist, kein Chat-Modell: Es liest Bilder und wandelt Dokumente, Screenshots und gescannte Seiten in Text um. Es ist ein Mixture-of-Experts-Design, das heißt, obwohl das gesamte Modell 3B Parameter hat, sind pro Token nur etwa 0,57B davon aktiv. Das hält es schnell, aber der Haken bei MoE ist, dass du trotzdem Platz für das komplette Modell im Speicher brauchst, nicht nur für den aktiven Anteil. Bei 4-Bit-Quantisierung landet es bei rund 1,8 GB und verlangt mindestens etwa 4 GB RAM, sodass es bequem auf einer 12-GB-RTX 3060, einem kleinen Apple-Silicon-Mac oder sogar einem modernen CPU-Rechner läuft.

In der Praxis fühlt es sich weniger an wie das Warten auf einen Chatbot, sondern eher wie ein schneller Batch-Job. Auf einer RTX 3060 12GB kannst du um die 886 Tokens pro Sekunde erwarten, ein M-Max der M-Serie schiebt über 1000, und eine 4090 spielt mit rund 2479 tok/s in einer anderen Liga. Selbst reine CPU auf DDR5 schafft etwa 148 tok/s, was für gelegentliche Seiten brauchbar ist. Das Kontextfenster ist mit 8K bescheiden, aber für OCR-Arbeit völlig ausreichend, da du jeweils ein Bild auf einmal zuführst; bei vollem Kontext liegt das Ganze bei höchstens rund 2,5 GB Speicher, der nötige Spielraum ist hier also selten das Problem.

Greif nicht zu diesem Modell als allgemeinem Assistenten. Wenn du Reasoning oder Schritt-für-Schritt-Antworten willst, leistet ein Geschwistermodell wie DeepSeek R1 7B in der Regel deutlich bessere Dienste, und Ministral 3 3B ist die sinnvollere Wahl, wenn du Vision plus echte Konversation in einem Modell brauchst. Die herausragende Stärke von DeepSeek-OCR ist eng gefasst und real: Es ist eine winzige, schnelle Engine für die Umwandlung von Dokumenten in Text, die fast überall läuft. Es kommt unter einer schlichten MIT-Lizenz, sodass du es frei in Produktion und kommerziell einsetzen kannst, ohne die anbieterspezifischen Auflagen, die vielen Open-Weight-Veröffentlichungen anhaften.

Technische Daten

Parameter3B (0.57B aktiv)

Kontextfenster8K Token

AnbieterDeepSeek

LizenzMIT

Veröffentlicht2025-10

Am besten fürBilderkennung

Größe nach Quantisierung

Quantisierung	Bits/Gewicht	Download	Min. RAM	Qualität
Q2_K	3.35	1.3 GB	4 GB	Spürbarer Verlust
Q4_K_MEmpfohlen	4.85	1.8 GB	4 GB	Empfohlen
Q5_K_M	5.65	2.1 GB	6 GB	Hoch
Q8_0	8.5	3.2 GB	6 GB	Nahezu Original
F16	16	6.0 GB	12 GB	Original

Die Größen sind Schätzungen aus Parameterzahl × Bits pro Gewicht; echte GGUF-Builds weichen leicht ab. · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →

Speicherbedarf nach Kontextlänge

Kontext	KV-Cache (geschätzt)	Gesamtspeicher (Q4)
4K Token	~0.3 GB	~2.1 GB
8K Token	~0.7 GB	~2.5 GB

Der KV-Cache wächst mit der Kontextlänge — ein Modell, das bei 4K passt, kann bei 32K an die Speichergrenze stoßen. Die Schätzungen gehen von einem FP16-Cache mit Grouped-Query-Attention aus; der tatsächliche Verbrauch variiert je nach Runtime.

Geschätzte Geschwindigkeit nach Hardware

Hardware	Bandbreite	~Geschwindigkeit
NVIDIA RTX 3060 12GB	360 GB/s	~886 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~2479 tok/s
Apple M-series (base)	100 GB/s	~246 tok/s
Apple M-series Pro	270 GB/s	~664 tok/s
Apple M-series Max	410 GB/s	~1009 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~148 tok/s

Die Token-Generierung ist durch die Speicherbandbreite begrenzt: tok/s ≈ Bandbreite × 0,85 ÷ Modellgröße bei Q4. Reale Werte variieren je nach Runtime und Kontextlänge.

Lokal ausführen

Der einfachste Weg ist Ollama — ein Befehl und Sie chatten:

ollama run deepseek-ocr:3b

Quellen & Downloads

Ollama Library

Laden und starten Sie das Modell mit einem einzigen Befehl.

ollama.com

Hugging Face

Modellgewichte, Dateien und Lizenzdetails.

huggingface.co

Offizielles GitHub-Repository

Quellcode, Releases und Issues von DeepSeek.