我们如何计算大模型硬件需求

这些页面上的每个数字都来自下面的公式 — 没有黑箱魔法，也不抄规格表。它们是近似值，我们也会说明其局限。

不同量化下的下载体积

size_GB = params_B × bits_per_weight ÷ 8

模型文件大小 = 参数量 × 每权重位数 ÷ 8。每权重位数已包含 GGUF 格式开销 — 例如 Q4_K_M 的有效位数是 4.85，因此一个 8B 模型约为 8 × 4.85 ÷ 8 ≈ 4.9 GB。实际 GGUF 版本会有百分之几的差异。

最低系统内存

min_RAM = size_GB × 1.25 + 1.5 → next standard tier

我们取 Q4_K_M 的内存占用，加上 25% 的运行时开销（激活值、缓冲区）和操作系统的 1.5 GB，再向上取整到下一个标准内存规格（8、12、16、24、32 GB 等）。取整后的值就是每张表里显示的「最低内存」。

KV 缓存与上下文长度

kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45

KV 缓存随上下文长度线性增长。我们以采用 grouped-query attention 的 Llama 3.1 8B 为基准 — 32 层 × 8 个 KV 头 × 128 头维度 × 2（K 和 V）× 2 字节 ≈ 每 token 约 131 kB — 并按参数量做次线性缩放（0.45 次幂），因为深度和 KV 宽度的增长慢于总参数量。这就是为什么一个在 4K 上下文下装得下的模型，到 32K 可能就内存不足。

速度（tok/s）估算

tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GB

Token 生成速度受内存带宽限制：每生成一个 token 都要把所有活跃权重读取一遍。因此 tok/s ≈ 带宽 × 0.85 ÷ Q4 下的模型体积，其中 0.85 是相对原始拷贝基准的经验效率系数。对 MoE（混合专家）模型只计算激活参数 — 这就是为什么一个 30B 的 MoE 可能比稠密的 8B 还快。

浏览器内带宽测试

可选的带宽测试通过反复执行大块 WebGPU 缓冲区间拷贝来测量 GPU 有效内存带宽，耗时约 1–2 秒。它完全在您的浏览器中运行；不上传、不存储任何数据。在 Apple Silicon 上，测得的带宽还能帮助细化芯片档位判断（标准版 / Pro / Max / Ultra）。

已知局限

这些是用于规划的估算，不是针对您具体机器的跑分。实际速度因运行时（llama.cpp、MLX、vLLM）、上下文长度、批大小和散热而异。能否运行的结论假定使用推荐的 Q4_K_M 版本且机器基本空闲 — 当模型处于临界状态时，可能需要关闭应用或降一档量化。

每权重有效位数

量化	位/权重	质量
Q2_K	3.35	损失明显
Q4_K_M	4.85	推荐
Q5_K_M	5.65	高
Q8_0	8.5	接近原版
F16	16	原版

体积按参数量 × 位/权重估算，实际 GGUF 版本会略有差异。 · 数据更新于: 2026-06-11