运行 DeepSeek-OCR 需要多少内存？

推荐的 4 位（Q4_K_M）版本大约需要 4 GB 系统内存，下载体积为 1.8 GB。内存越大，越能使用更高质量的量化版本或更长的上下文。

没有独立 GPU 能跑 DeepSeek-OCR 吗？

可以 — 只要装得进内存，Ollama 和 llama.cpp 等工具就能用 CPU 运行它。GPU 或 Apple Silicon 能让生成速度快上数倍，但并非必需。

DeepSeek-OCR 应该下载哪个量化版本？

对绝大多数人来说 Q4_K_M 是最佳选择 — 体积约为原版的四分之一，质量损失极小。内存充裕可选 Q5 或 Q8，只有实在装不下时才用 Q2。

我能在自己的电脑上微调 DeepSeek-OCR 吗？

微调所需的内存远超推理。对 DeepSeek-OCR 做全量微调大约需要 36 GB 的 GPU 显存，而 QLoRA 可将其降到约 5 GB。对大多数人来说，租用 GPU 跑 QLoRA 是更实际的路线。

Q2/Q3 的大模型比 Q4/Q5 的小模型更好吗？

通常不是。低于 Q3 后质量会急剧下降 — Q4_K_M 的小模型一般胜过被硬压到 Q2 的大模型。只有在内存实在装不下任何其他选择时，才考虑低于 Q4 的量化。

← 全部模型模型检测

我能跑 DeepSeek-OCR 吗？

DeepSeek 的 DeepSeek-OCR 在推荐的 4 位量化下大约需要 4 GB 内存（下载体积 1.8 GB）。下方即时检测您的硬件 — 数据不会离开您的浏览器。在 NVIDIA RTX 3060 12GB 上预计可达约 ~886 tok/s。

正在读取您的硬件信号…

实际使用笔记

DeepSeek-OCR 是个专用模型，不是聊天模型：它读取图片，把文档、截图和扫描页转换成文本。它采用混合专家（MoE）架构，所以虽然完整模型有 3B 参数，但每个 token 实际只激活约 0.57B。这让它跑得很快，但 MoE 的代价是：你的内存仍要装下整个模型，而不只是被激活的那部分。在 4-bit 量化下它约为 1.8 GB，至少需要大约 4 GB 内存，因此能轻松跑在 12 GB 的 RTX 3060、入门级 Apple Silicon Mac，甚至现代 CPU 主机上。

实际用起来，它不像在等聊天机器人回复，更像在跑一个快速的批处理任务。在 RTX 3060 12GB 上大约能达到每秒 886 tokens，M 系列 Max 可以超过 1000，而 4090 则是另一个量级，约 2479 tok/s。即便是纯 CPU 配 DDR5 也能做到约 148 tok/s，偶尔处理几页文档够用了。上下文窗口只有不大的 8K，但对 OCR 任务完全够用，因为你每次只喂一张图片；在满上下文时整体内存占用接近 2.5 GB，所以这里很少会缺余量。

别把它当成通用助手来用。如果你想要推理或分步骤的回答，同门的 DeepSeek R1 7B 通常表现要好得多；而当你想要在一个模型里同时拥有视觉理解和真正的对话能力时，Ministral 3 3B 是更合理的选择。DeepSeek-OCR 的过人之处既专一又实在：它是一个体积小、速度快、几乎能在任何地方运行的「文档转文本」引擎。它采用纯粹的 MIT 许可证发布，因此你可以在生产环境和商业项目中自由使用，不会有许多开放权重模型那种厂商专属的附加限制。

规格参数

参数量3B (0.57B 激活)

上下文窗口8K tokens

厂商DeepSeek

许可证MIT

发布时间2025-10

擅长领域视觉

各量化版本体积

量化	位/权重	下载体积	最低内存	质量
Q2_K	3.35	1.3 GB	4 GB	损失明显
Q4_K_M推荐	4.85	1.8 GB	4 GB	推荐
Q5_K_M	5.65	2.1 GB	6 GB	高
Q8_0	8.5	3.2 GB	6 GB	接近原版
F16	16	6.0 GB	12 GB	原版

体积按参数量 × 位/权重估算，实际 GGUF 版本会略有差异。 · 数据更新于: 2026-06-11 · 这些数字是怎么算出来的 →

不同上下文长度的内存需求

上下文	KV 缓存（估算）	总内存（Q4）
4K tokens	~0.3 GB	~2.1 GB
8K tokens	~0.7 GB	~2.5 GB

KV 缓存会随上下文长度增长 — 4K 下装得下的模型，到 32K 可能就内存不足了。估算基于 FP16 缓存并采用 grouped-query attention；实际占用因运行时而异。

不同硬件的预估速度

硬件	带宽	约·速度
NVIDIA RTX 3060 12GB	360 GB/s	~886 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~2479 tok/s
Apple M-series (base)	100 GB/s	~246 tok/s
Apple M-series Pro	270 GB/s	~664 tok/s
Apple M-series Max	410 GB/s	~1009 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~148 tok/s