Как мы считаем требования LLM к железу
Каждая цифра на этих страницах получена по формулам ниже — никакой скрытой магии и переписанных откуда-то спецификаций. Это приближённые оценки, и мы честно описываем их границы.
Размер загрузки по квантизации
size_GB = params_B × bits_per_weight ÷ 8Размер файла модели — это число параметров × бит на вес ÷ 8. Значения бит на вес учитывают накладные расходы формата GGUF: например, Q4_K_M — это 4,85 эффективных бита, поэтому модель на 8B весит 8 × 4,85 ÷ 8 ≈ 4,9 GB. Реальные сборки GGUF отличаются на несколько процентов.
Минимальная системная RAM
min_RAM = size_GB × 1.25 + 1.5 → next standard tierМы берём размер Q4_K_M в памяти, добавляем 25% накладных расходов рантайма (активации, буферы) плюс 1,5 GB на операционную систему и округляем вверх до следующего стандартного объёма памяти (8, 12, 16, 24, 32 GB и так далее). Это округлённое значение и есть «Мин. RAM» в каждой таблице.
KV-кэш по длине контекста
kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45KV-кэш растёт линейно с длиной контекста. За основу мы берём Llama 3.1 8B с grouped-query attention — 32 слоя × 8 KV-голов × 128 (размерность головы) × 2 (K и V) × 2 байта ≈ 131 кБ на токен — и масштабируем сублинейно по числу параметров (степень 0,45), потому что глубина и ширина KV растут медленнее общего числа параметров. Поэтому модель, помещающаяся при контексте 4K, может упереться в нехватку памяти при 32K.
Оценки скорости (tok/s)
tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GBГенерация токенов упирается в пропускную способность памяти: на каждый токен все активные веса читаются один раз. Поэтому tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4, где 0,85 — эмпирический коэффициент эффективности относительно «сырого» теста копирования. Для mixture-of-experts моделей считаются только активные параметры — поэтому 30B MoE может оказаться быстрее плотной 8B.
Тест пропускной способности в браузере
Необязательный тест измеряет эффективную пропускную способность памяти GPU многократным копированием больших буферов через WebGPU и занимает около 1–2 секунд. Всё происходит в вашем браузере: ничего не загружается на сервер и не сохраняется. На Apple Silicon измеренная пропускная способность также уточняет предположение о классе чипа (base / Pro / Max / Ultra).
Известные ограничения
Это оценки для планирования, а не бенчмарки именно вашей машины. Реальная скорость зависит от рантайма (llama.cpp, MLX, vLLM), длины контекста, размера батча и нагрева. Вердикты о том, что модель помещается, предполагают рекомендуемую сборку Q4_K_M и почти свободную машину — если модель на грани, готовьтесь закрыть приложения или спуститься на одну ступень квантизации.
Эффективные биты на вес
| Квантизация | Бит/вес | Качество |
|---|---|---|
| Q2_K | 3.35 | Заметная потеря |
| Q4_K_M | 4.85 | Рекомендуется |
| Q5_K_M | 5.65 | Высокое |
| Q8_0 | 8.5 | Почти оригинал |
| F16 | 16 | Оригинал |
Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11