Combien de RAM faut-il pour faire tourner DeepSeek-OCR ?

Environ 4 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 1.8 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

DeepSeek-OCR peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de DeepSeek-OCR télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de DeepSeek-OCR sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de DeepSeek-OCR requiert environ 36 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 5 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner DeepSeek-OCR ?

DeepSeek-OCR de DeepSeek demande environ 4 GB de RAM avec la quantisation 4 bits recommandée (1.8 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~886 tok/s sur un NVIDIA RTX 3060 12GB.

Lecture des signaux matériels…

Notes pratiques

DeepSeek-OCR n'est pas un modèle conversationnel mais un spécialiste : il lit des images et transforme documents, captures d'écran et pages scannées en texte. C'est une architecture mixture-of-experts (MoE), donc même si le modèle complet compte 3B de paramètres, seuls 0,57B environ sont actifs pour chaque token. Cela le garde rapide, mais le piège du MoE, c'est qu'il faut quand même de la place pour le modèle entier en mémoire, pas seulement pour la tranche active. En quantification 4-bit, il tombe autour de 1.8 GB et réclame au minimum 4 GB de RAM environ, si bien qu'il tourne sans problème sur une RTX 3060 de 12 GB, un petit Mac Apple Silicon, voire une machine à CPU moderne.

En pratique, on a moins l'impression d'attendre un chatbot que de lancer un traitement par lots rapide. Sur une RTX 3060 12GB, comptez autour de 886 tokens par seconde ; un M-series Max dépasse les 1000, et une 4090 joue dans une autre catégorie avec environ 2479 tok/s. Même en CPU pur sur DDR5, on atteint à peu près 148 tok/s, ce qui reste utilisable pour traiter des pages de temps en temps. La fenêtre de contexte est modeste, 8K, mais amplement suffisante pour de l'OCR puisque vous fournissez une image à la fois ; à contexte plein, l'ensemble grimpe au plus à environ 2.5 GB de mémoire, donc la marge n'est ici que rarement un souci.

N'en faites pas votre assistant généraliste. Si vous voulez du raisonnement ou des réponses étape par étape, un modèle frère comme DeepSeek R1 7B vous servira en général bien mieux, et Ministral 3 3B est le choix plus sensé quand vous voulez à la fois la vision et une vraie conversation dans un seul modèle. La vraie force de DeepSeek-OCR est étroite mais réelle : c'est un moteur document-vers-texte minuscule, rapide et qui tourne presque partout. Il est distribué sous une simple licence MIT, vous pouvez donc l'utiliser librement en production et en usage commercial, sans les restrictions propres à certains fournisseurs qui accompagnent beaucoup de publications à poids ouverts.

Caractéristiques

Paramètres3B (0.57B actifs)

Fenêtre de contexte8K tokens

ÉditeurDeepSeek

LicenceMIT

Sortie2025-10

Idéal pourVision

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	1.3 GB	4 GB	Perte sensible
Q4_K_MRecommandée	4.85	1.8 GB	4 GB	Recommandée
Q5_K_M	5.65	2.1 GB	6 GB	Élevée
Q8_0	8.5	3.2 GB	6 GB	Quasi originale
F16	16	6.0 GB	12 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~0.3 GB	~2.1 GB
8K tokens	~0.7 GB	~2.5 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	~886 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~2479 tok/s
Apple M-series (base)	100 GB/s	~246 tok/s
Apple M-series Pro	270 GB/s	~664 tok/s
Apple M-series Max	410 GB/s	~1009 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~148 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run deepseek-ocr:3b

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

Dépôt GitHub officiel

Code source, releases et issues de DeepSeek.