Сколько RAM нужно для запуска Mistral Small 4 119B?

Около 96 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 72.1 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Mistral Small 4 119B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Mistral Small 4 119B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Mistral Small 4 119B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Mistral Small 4 119B занимает примерно 1428 GB памяти GPU, а QLoRA снижает требования примерно до 179 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Mistral Small 4 119B?

Модели Mistral Small 4 119B от Mistral AI нужно около 96 GB RAM при рекомендуемой 4-битной квантизации (загрузка 72.1 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~88 tok/s на Apple M-series Max.

Считываем характеристики вашего железа…

Заметки из практики

Mistral Small 4 119B — белая ворона в семействе: в названии стоит "small", но это mixture-of-experts на 119B параметров суммарно, из которых на каждый токен активируется лишь 6.5B. Именно эта схема позволяет модели по скорости работать выше своего активного размера, но в памяти вы всё равно платите за неё целиком. В 4-битной квантизации она занимает около 72 GB, и чтобы держать её, нужно примерно 96 GB RAM. Ни одна потребительская видеокарта сюда не подходит: ни RTX 3060 на 12 GB, ни даже RTX 4090 на 24 GB не тянут. Это модель для рабочей станции или машины с большим объёмом unified memory, а не для ноутбука.

В повседневной работе трюк с MoE окупается там, где это важно. На Apple M Max с большим объёмом памяти она выдаёт около 88 токенов в секунду — для модели такого размера это ощущается как живой диалог; и даже на CPU с DDR5 вы получаете порядка 13 токенов в секунду, если готовы подождать. Контекст в 256K на бумаге щедрый, но следите за памятью: при контексте 128K общий объём вырастает примерно до 128.6 GB, так что длинное окно реально лишь при наличии RAM под него. Воспринимайте полный контекст не как бесплатную опцию, а как вопрос бюджета на железо.

В рамках собственной линейки Mistral 7B и Nemo 12B — это лёгкие варианты только под чат, если вы не можете выделить 96 GB; эта же модель обычно вырывается вперёд в рассуждениях, программировании и работе с изображениями — а две предыдущие этого не умеют вовсе. Ближайший её конкурент здесь — Nemotron 3 Super 120B-A12B, другой крупный MoE того же весового класса; эти двое скорее обмениваются ударами на равных, чем кто-то явно лидирует. Главное преимущество в том, что вы получаете модель сразу под четыре задачи (чат, рассуждения, код, зрение) под настоящей лицензией Apache 2.0, так что коммерческое и продакшен-использование полностью разрешены без каких-либо условий со стороны провайдера.

Характеристики

Параметры119B (6.5B активных)

Контекстное окно256K токенов

РазработчикMistral AI

ЛицензияApache 2.0

Дата выхода2026-03

Лучше всего дляЧат, Рассуждения, Код, Изображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	49.8 GB	64 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	72.1 GB	96 GB	Рекомендуется
Q5_K_M	5.65	84.0 GB	128 GB	Высокое
Q8_0	8.5	126.4 GB	192 GB	Почти оригинал
F16	16	238.0 GB	256 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~1.8 GB	~73.9 GB
8K токенов	~3.5 GB	~75.6 GB
32K токенов	~14.1 GB	~86.2 GB
128K токенов	~56.5 GB	~128.6 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Не поместится в VRAM
Apple M-series (base)	100 GB/s	~22 tok/s
Apple M-series Pro	270 GB/s	~58 tok/s
Apple M-series Max	410 GB/s	~88 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~13 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Источники и загрузки

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Mistral AI — официальная страница

Официальная страница и документация от Mistral AI.

mistral.ai