← 全部模型方法说明

我们如何计算大模型硬件需求

这些页面上的每个数字都来自下面的公式 — 没有黑箱魔法,也不抄规格表。它们是近似值,我们也会说明其局限。

不同量化下的下载体积

size_GB = params_B × bits_per_weight ÷ 8

模型文件大小 = 参数量 × 每权重位数 ÷ 8。每权重位数已包含 GGUF 格式开销 — 例如 Q4_K_M 的有效位数是 4.85,因此一个 8B 模型约为 8 × 4.85 ÷ 8 ≈ 4.9 GB。实际 GGUF 版本会有百分之几的差异。

最低系统内存

min_RAM = size_GB × 1.25 + 1.5 → next standard tier

我们取 Q4_K_M 的内存占用,加上 25% 的运行时开销(激活值、缓冲区)和操作系统的 1.5 GB,再向上取整到下一个标准内存规格(8、12、16、24、32 GB 等)。取整后的值就是每张表里显示的「最低内存」。

KV 缓存与上下文长度

kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45

KV 缓存随上下文长度线性增长。我们以采用 grouped-query attention 的 Llama 3.1 8B 为基准 — 32 层 × 8 个 KV 头 × 128 头维度 × 2(K 和 V)× 2 字节 ≈ 每 token 约 131 kB — 并按参数量做次线性缩放(0.45 次幂),因为深度和 KV 宽度的增长慢于总参数量。这就是为什么一个在 4K 上下文下装得下的模型,到 32K 可能就内存不足。

速度(tok/s)估算

tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GB

Token 生成速度受内存带宽限制:每生成一个 token 都要把所有活跃权重读取一遍。因此 tok/s ≈ 带宽 × 0.85 ÷ Q4 下的模型体积,其中 0.85 是相对原始拷贝基准的经验效率系数。对 MoE(混合专家)模型只计算激活参数 — 这就是为什么一个 30B 的 MoE 可能比稠密的 8B 还快。

浏览器内带宽测试

可选的带宽测试通过反复执行大块 WebGPU 缓冲区间拷贝来测量 GPU 有效内存带宽,耗时约 1–2 秒。它完全在您的浏览器中运行;不上传、不存储任何数据。在 Apple Silicon 上,测得的带宽还能帮助细化芯片档位判断(标准版 / Pro / Max / Ultra)。

已知局限

这些是用于规划的估算,不是针对您具体机器的跑分。实际速度因运行时(llama.cpp、MLX、vLLM)、上下文长度、批大小和散热而异。能否运行的结论假定使用推荐的 Q4_K_M 版本且机器基本空闲 — 当模型处于临界状态时,可能需要关闭应用或降一档量化。

每权重有效位数

量化位/权重质量
Q2_K3.35损失明显
Q4_K_M4.85推荐
Q5_K_M5.65
Q8_08.5接近原版
F1616原版

体积按参数量 × 位/权重估算,实际 GGUF 版本会略有差异。 · 数据更新于: 2026-06-11

我们如何计算大模型硬件需求 — 方法说明