Question 1

Сколько RAM нужно для запуска Devstral 2 123B?

Accepted Answer

Около 96 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 74.6 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Question 2

Запустится ли Devstral 2 123B без дискретной видеокарты (GPU)?

Accepted Answer

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Question 3

Какую квантизацию Devstral 2 123B скачать?

Accepted Answer

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Question 4

Могу ли я дообучить Devstral 2 123B на своей машине?

Accepted Answer

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Devstral 2 123B занимает примерно 1476 GB памяти GPU, а QLoRA снижает требования примерно до 185 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Question 5

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Accepted Answer

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	51.5 GB	96 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	74.6 GB	96 GB	Рекомендуется
Q5_K_M	5.65	86.9 GB	128 GB	Высокое
Q8_0	8.5	130.7 GB	192 GB	Почти оригинал
F16	16	246.0 GB	256 GB	Оригинал

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~1.8 GB	~76.4 GB
8K токенов	~3.6 GB	~78.2 GB
32K токенов	~14.3 GB	~88.9 GB
128K токенов	~57.4 GB	~132.0 GB

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Не поместится в VRAM
Apple M-series (base)	100 GB/s	~1 tok/s
Apple M-series Pro	270 GB/s	~3 tok/s
Apple M-series Max	410 GB/s	~5 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~1 tok/s

Могу ли я запустить Devstral 2 123B?

Частые вопросы