Сколько RAM нужно для запуска Mellum 2 12B-A2.5B?

Около 12 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 7.3 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Mellum 2 12B-A2.5B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Mellum 2 12B-A2.5B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Mellum 2 12B-A2.5B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Mellum 2 12B-A2.5B занимает примерно 144 GB памяти GPU, а QLoRA снижает требования примерно до 18 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Mellum 2 12B-A2.5B?

Модели Mellum 2 12B-A2.5B от JetBrains нужно около 12 GB RAM при рекомендуемой 4-битной квантизации (загрузка 7.3 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~202 tok/s на NVIDIA RTX 3060 12GB.

Считываем характеристики вашего железа…

Заметки из практики

Mellum 2 — это модель JetBrains, заточенная под код и построенная как mixture-of-experts: всего 12B параметров, но активны на каждый токен лишь около 2.5B. Именно в этом весь смысл архитектуры. Вы получаете скорость модели на 2-3B, но при этом по-прежнему держите в памяти полные 12B — так что не обманывайтесь числом активных параметров. При 4-битной квантизации размер опускается примерно до 7.3 GB, а практический минимум — около 12 GB RAM. Это помещается на карту с 12 GB вроде RTX 3060 или в единую память Mac на Apple Silicon, но 8 GB уже слишком мало. Если вы живёте в IDE от JetBrains и хотите локальное автодополнение кода, она сделана прямо под вас.

В повседневной работе архитектура MoE окупается: модель ощущается заметно быстрее, чем намекает её размер. На RTX 3060 12GB при 4-битной квантизации можно рассчитывать примерно на 202 токена в секунду, а RTX 4090 выдаёт за 565 — то есть автодополнения появляются раньше, чем вы успеваете дописать следующую строку. Контекст в 128K для кодовой модели действительно большой и удобен, чтобы скармливать целые файлы или заголовки целого репозитория, но он не бесплатен. Заполните его полностью — и суммарная память поднимается примерно до 27.4 GB, что заметно превышает возможности одной карты с 12 GB. Поэтому, если у вас нет GPU на 24 GB или щедрого объёма единой памяти, держите рабочий контекст скромным.

Стоит честно очертить область применения: это специалист по коду, а не универсальный ассистент. Для чата, рассуждений или любых задач с изображениями более широкая 12B вроде Gemma 4 12B обычно справится лучше, а для свободного разговора Mistral Nemo 12B чаще оказывается более дружелюбным выбором. Главная сильная сторона Mellum 2 — именно это соотношение скорости и размера от MoE в задачах автодополнения плюс первоклассная интеграция с IDE от тех, кто делает ваш редактор. А с лицензией всё просто: Apache 2.0, так что её можно использовать коммерчески и в продакшене без юридических хлопот. Если ваша основная работа — код и у вас есть карта на 12 GB, это сильный и быстрый локальный вариант.

Характеристики

Параметры12B (2.5B активных)

Контекстное окно128K токенов

РазработчикJetBrains

ЛицензияApache 2.0

Дата выхода2026-06

Лучше всего дляКод

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	5.0 GB	8 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	7.3 GB	12 GB	Рекомендуется
Q5_K_M	5.65	8.5 GB	16 GB	Высокое
Q8_0	8.5	12.8 GB	24 GB	Почти оригинал
F16	16	24.0 GB	32 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~0.6 GB	~7.9 GB
8K токенов	~1.3 GB	~8.6 GB
32K токенов	~5.0 GB	~12.3 GB
128K токенов	~20.1 GB	~27.4 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	~202 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~565 tok/s
Apple M-series (base)	100 GB/s	~56 tok/s
Apple M-series Pro	270 GB/s	~151 tok/s
Apple M-series Max	410 GB/s	~230 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~34 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Источники и загрузки

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

JetBrains — официальная страница

Официальная страница и документация от JetBrains.

blog.jetbrains.com