不同量化下的下载体积
size_GB = params_B × bits_per_weight ÷ 8模型文件大小 = 参数量 × 每权重位数 ÷ 8。每权重位数已包含 GGUF 格式开销 — 例如 Q4_K_M 的有效位数是 4.85,因此一个 8B 模型约为 8 × 4.85 ÷ 8 ≈ 4.9 GB。实际 GGUF 版本会有百分之几的差异。
最低系统内存
min_RAM = size_GB × 1.25 + 1.5 → next standard tier我们取 Q4_K_M 的内存占用,加上 25% 的运行时开销(激活值、缓冲区)和操作系统的 1.5 GB,再向上取整到下一个标准内存规格(8、12、16、24、32 GB 等)。取整后的值就是每张表里显示的「最低内存」。
KV 缓存与上下文长度
kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45KV 缓存随上下文长度线性增长。我们以采用 grouped-query attention 的 Llama 3.1 8B 为基准 — 32 层 × 8 个 KV 头 × 128 头维度 × 2(K 和 V)× 2 字节 ≈ 每 token 约 131 kB — 并按参数量做次线性缩放(0.45 次幂),因为深度和 KV 宽度的增长慢于总参数量。这就是为什么一个在 4K 上下文下装得下的模型,到 32K 可能就内存不足。
速度(tok/s)估算
tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GBToken 生成速度受内存带宽限制:每生成一个 token 都要把所有活跃权重读取一遍。因此 tok/s ≈ 带宽 × 0.85 ÷ Q4 下的模型体积,其中 0.85 是相对原始拷贝基准的经验效率系数。对 MoE(混合专家)模型只计算激活参数 — 这就是为什么一个 30B 的 MoE 可能比稠密的 8B 还快。
浏览器内带宽测试
可选的带宽测试通过反复执行大块 WebGPU 缓冲区间拷贝来测量 GPU 有效内存带宽,耗时约 1–2 秒。它完全在您的浏览器中运行;不上传、不存储任何数据。在 Apple Silicon 上,测得的带宽还能帮助细化芯片档位判断(标准版 / Pro / Max / Ultra)。
已知局限
这些是用于规划的估算,不是针对您具体机器的跑分。实际速度因运行时(llama.cpp、MLX、vLLM)、上下文长度、批大小和散热而异。能否运行的结论假定使用推荐的 Q4_K_M 版本且机器基本空闲 — 当模型处于临界状态时,可能需要关闭应用或降一档量化。
每权重有效位数
| 量化 | 位/权重 | 质量 |
|---|---|---|
| Q2_K | 3.35 | 损失明显 |
| Q4_K_M | 4.85 | 推荐 |
| Q5_K_M | 5.65 | 高 |
| Q8_0 | 8.5 | 接近原版 |
| F16 | 16 | 原版 |
体积按参数量 × 位/权重估算,实际 GGUF 版本会略有差异。 · 数据更新于: 2026-06-11