LLMハードウェア要件の算出方法

これらのページの数値はすべて、以下の計算式から導いています — 隠れたマジックも、スペック表の寄せ集めもありません。あくまで近似値であり、その限界もあわせて説明します。

量子化別のダウンロードサイズ

size_GB = params_B × bits_per_weight ÷ 8

モデルのファイルサイズは「パラメータ数 × ビット/重み ÷ 8」です。ビット/重みの値にはGGUFフォーマットのオーバーヘッドを含みます — 例えばQ4_K_Mは実効4.85ビットなので、8Bモデルは8 × 4.85 ÷ 8 ≈ 4.9 GBです。実際のGGUFビルドは数%前後します。

最小システムRAM

min_RAM = size_GB × 1.25 + 1.5 → next standard tier

Q4_K_Mのメモリ上のサイズに、25%のランタイムオーバーヘッド（アクティベーション、バッファ）とOS用の1.5 GBを加え、次の標準メモリ容量（8、12、16、24、32 GBなど）に切り上げます。この切り上げ後の値が、各表に表示される「必要RAM」です。

コンテキスト長別のKVキャッシュ

kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45

KVキャッシュはコンテキスト長に比例して増えます。基準はgrouped-query attentionを使うLlama 3.1 8B — 32レイヤー × 8 KVヘッド × ヘッド次元128 × 2（KとV）× 2バイト ≈ 1トークンあたり約131 kB — とし、深さとKV幅は総パラメータ数より緩やかに増えるため、パラメータ数に対してべき乗0.45でスケールさせています。4Kコンテキストで収まるモデルが32Kではメモリ不足になるのはこのためです。

速度（tok/s）の推定

tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GB

トークン生成はメモリ帯域幅に律速されます：1トークンの生成には、アクティブな重み全体を1回読み込む必要があるためです。そのため tok/s ≈ 帯域幅 × 0.85 ÷ Q4でのモデルサイズとなります（0.85は素のコピーベンチマークに対する経験的な効率係数）。Mixture-of-Experts（MoE）モデルではアクティブなパラメータだけが計算に入ります — 30BのMoEが密な8Bより速いことがあるのはこのためです。

ブラウザ内帯域幅ベンチマーク

オプションのベンチマークは、大きなWebGPUバッファ間コピーを繰り返してGPUの実効メモリ帯域幅を計測します。所要時間は約1〜2秒。すべてブラウザ内で完結し、アップロードも保存も一切ありません。Apple Siliconでは、計測した帯域幅をもとにチップクラスの推定（無印 / Pro / Max / Ultra）も補正します。

既知の限界

これらは計画用の推定値であり、お使いのマシンそのものを計測したベンチマークではありません。実際の速度はランタイム（llama.cpp、MLX、vLLM）、コンテキスト長、バッチサイズ、発熱状況によって変わります。動作判定は推奨のQ4_K_Mビルドと、ほぼアイドル状態のマシンを前提としています — ギリギリのモデルでは、アプリを閉じるか量子化を1段階下げる必要があると考えてください。

実効ビット/重み

量子化	ビット/重み	品質
Q2_K	3.35	劣化が目立つ
Q4_K_M	4.85	推奨
Q5_K_M	5.65	高品質
Q8_0	8.5	ほぼ原品質
F16	16	オリジナル

サイズはパラメータ数×ビット/重みからの推定値です。実際のGGUFビルドとは多少異なります。 · データ更新日: 2026-06-11