Сколько RAM нужно для запуска Magistral Small 1.2?

Около 24 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 14.6 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Magistral Small 1.2 без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Magistral Small 1.2 скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Magistral Small 1.2 на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Magistral Small 1.2 занимает примерно 288 GB памяти GPU, а QLoRA снижает требования примерно до 36 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Magistral Small 1.2?

Модели Magistral Small 1.2 от Mistral AI нужно около 24 GB RAM при рекомендуемой 4-битной квантизации (загрузка 14.6 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~24 tok/s на Apple M-series Max.

Считываем характеристики вашего железа…

Заметки из практики

Magistral Small 1.2 — это рассуждающая модель Mistral на 24B, рассчитанная на тех, кому нужен локальный ассистент, который действительно прорабатывает многошаговые задачи, а не просто болтает. Она умеет работать с изображениями и вести обычный диалог, но браться за неё стоит ради рассуждений. Первое, что нужно учесть, — это объём: в 4-битной квантизации она занимает около 14.6 GB, а для комфортной работы желательно иметь примерно 24 GB памяти. Это сразу исключает карту на 12 GB вроде RTX 3060, куда она попросту не помещается, и указывает на GPU с 24 GB или Mac на Apple Silicon с большим объёмом памяти.

На RTX 4090 она выдаёт около 59 токенов в секунду — этого достаточно, чтобы пошаговые рассуждения никогда не ощущались как ожидание. На M-серии Max скорость ближе к 24 токенам в секунду, что вполне годится для интерактивной работы, а только на CPU с DDR5 показатель падает примерно до 4 токенов в секунду — нормально для пакетных задач, но не для живого чата. Контекст 128K настоящий, но прожорлив к памяти: заполните его, и общее потребление вырастает примерно до 42 GB, что заметно превышает объём одной карты на 24 GB, поэтому держите рабочий контекст скромным, если у вас нет запаса.

На фоне родственных моделей Mistral Nemo 12B — более лёгкий и быстрый выбор, если вам нужен в основном чат и нет лишней памяти, тогда как Gemma 4 26B A4B при схожем размере обычно конкурирует напрямую в рассуждениях, программировании и работе с изображениями. Главная сильная сторона Magistral — этот упор на рассуждения в модели, которой вы владеете полностью: лицензия Apache 2.0 позволяет использовать её коммерчески и в продакшене без каких-либо обязательств перед провайдером, что редкость для способного рассуждающего решения на 24B. Если у вас есть те самые 24 GB, чтобы её прокормить, это одна из самых серьёзных локальных «думающих» моделей из доступных.

Характеристики

Параметры24B

Контекстное окно128K токенов

РазработчикMistral AI

ЛицензияApache 2.0

Дата выхода2025-09

Лучше всего дляРассуждения, Чат, Изображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	10.1 GB	16 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	14.6 GB	24 GB	Рекомендуется
Q5_K_M	5.65	17.0 GB	24 GB	Высокое
Q8_0	8.5	25.5 GB	48 GB	Почти оригинал
F16	16	48.0 GB	64 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~0.9 GB	~15.5 GB
8K токенов	~1.7 GB	~16.3 GB
32K токенов	~6.9 GB	~21.5 GB
128K токенов	~27.5 GB	~42.1 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~59 tok/s
Apple M-series (base)	100 GB/s	~6 tok/s
Apple M-series Pro	270 GB/s	~16 tok/s
Apple M-series Max	410 GB/s	~24 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~4 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Источники и загрузки

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Mistral AI — официальная страница

Официальная страница и документация от Mistral AI.

mistral.ai