Как мы считаем требования LLM к железу

Каждая цифра на этих страницах получена по формулам ниже — никакой скрытой магии и переписанных откуда-то спецификаций. Это приближённые оценки, и мы честно описываем их границы.

Размер загрузки по квантизации

size_GB = params_B × bits_per_weight ÷ 8

Размер файла модели — это число параметров × бит на вес ÷ 8. Значения бит на вес учитывают накладные расходы формата GGUF: например, Q4_K_M — это 4,85 эффективных бита, поэтому модель на 8B весит 8 × 4,85 ÷ 8 ≈ 4,9 GB. Реальные сборки GGUF отличаются на несколько процентов.

Минимальная системная RAM

min_RAM = size_GB × 1.25 + 1.5 → next standard tier

Мы берём размер Q4_K_M в памяти, добавляем 25% накладных расходов рантайма (активации, буферы) плюс 1,5 GB на операционную систему и округляем вверх до следующего стандартного объёма памяти (8, 12, 16, 24, 32 GB и так далее). Это округлённое значение и есть «Мин. RAM» в каждой таблице.

KV-кэш по длине контекста

kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45

KV-кэш растёт линейно с длиной контекста. За основу мы берём Llama 3.1 8B с grouped-query attention — 32 слоя × 8 KV-голов × 128 (размерность головы) × 2 (K и V) × 2 байта ≈ 131 кБ на токен — и масштабируем сублинейно по числу параметров (степень 0,45), потому что глубина и ширина KV растут медленнее общего числа параметров. Поэтому модель, помещающаяся при контексте 4K, может упереться в нехватку памяти при 32K.

Оценки скорости (tok/s)

tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GB

Генерация токенов упирается в пропускную способность памяти: на каждый токен все активные веса читаются один раз. Поэтому tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4, где 0,85 — эмпирический коэффициент эффективности относительно «сырого» теста копирования. Для mixture-of-experts моделей считаются только активные параметры — поэтому 30B MoE может оказаться быстрее плотной 8B.

Тест пропускной способности в браузере

Необязательный тест измеряет эффективную пропускную способность памяти GPU многократным копированием больших буферов через WebGPU и занимает около 1–2 секунд. Всё происходит в вашем браузере: ничего не загружается на сервер и не сохраняется. На Apple Silicon измеренная пропускная способность также уточняет предположение о классе чипа (base / Pro / Max / Ultra).

Известные ограничения

Это оценки для планирования, а не бенчмарки именно вашей машины. Реальная скорость зависит от рантайма (llama.cpp, MLX, vLLM), длины контекста, размера батча и нагрева. Вердикты о том, что модель помещается, предполагают рекомендуемую сборку Q4_K_M и почти свободную машину — если модель на грани, готовьтесь закрыть приложения или спуститься на одну ступень квантизации.

Эффективные биты на вес

Квантизация	Бит/вес	Качество
Q2_K	3.35	Заметная потеря
Q4_K_M	4.85	Рекомендуется
Q5_K_M	5.65	Высокое
Q8_0	8.5	Почти оригинал
F16	16	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11