Сколько RAM нужно для запуска Nemotron 3 Super 120B-A12B?

Около 96 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 72.8 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Nemotron 3 Super 120B-A12B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Nemotron 3 Super 120B-A12B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Nemotron 3 Super 120B-A12B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Nemotron 3 Super 120B-A12B занимает примерно 1440 GB памяти GPU, а QLoRA снижает требования примерно до 180 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Nemotron 3 Super 120B-A12B?

Модели Nemotron 3 Super 120B-A12B от NVIDIA нужно около 96 GB RAM при рекомендуемой 4-битной квантизации (загрузка 72.8 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~48 tok/s на Apple M-series Max.

Считываем характеристики вашего железа…

Заметки из практики

Nemotron 3 Super 120B-A12B — это mixture-of-experts модель от NVIDIA для тех, кому нужны рассуждения и кодинг уровня frontier на собственном железе и у кого хватает памяти это потянуть. Несмотря на 120B общих параметров, на каждый токен активируются лишь 12B, поэтому она работает заметно быстрее, чем подсказывает её размер, но всё равно требует места под всю модель целиком. В этом и подвох: даже в 4-битной квантизации она занимает около 72.8 GB, и для загрузки нужно минимум 96 GB RAM. Это не модель для 8 GB видеокарты. RTX 4090 с 24 GB её не вместит, и даже 2-битная сборка на примерно 50 GB остаётся вне досягаемости. Реалистичный дом для неё — мощный Apple Silicon с большой объединённой памятью или сервер с большим запасом системной RAM.

В повседневной работе архитектура MoE окупается. На Apple M Max можно рассчитывать примерно на 48 токенов в секунду, что ощущается по-настоящему интерактивно для чата, многошаговых рассуждений и помощи в коде, несмотря на ярлык 120B. Если перенести её на CPU с DDR5, скорость падает примерно до 7 токенов в секунду — годится для пакетной обработки, но не для живого диалога. Контекстное окно огромно — 1000K токенов, но воспринимайте это как потолок, а не как настройку, которую держат на максимуме. Даже заполнение 128K поднимает общий объём памяти примерно до 129.5 GB с учётом KV-кэша, так что на машине с 96 GB вы упрётесь в нехватку памяти задолго до заявленного лимита. Держите рабочий контекст скромным, если только у вас нет лишней памяти про запас.

Среди ближайших родственников Nemotron 3 Super оказывается в любопытной компании. Qwen 3.5 122B-A10B — MoE сопоставимого масштаба, который вдобавок работает с изображениями, чего эта модель не умеет, так что если вам нужен ввод картинок, у того варианта обычно преимущество. Mistral Small 4 119B сравнима по размеру и тоже мультимодальна. Если железо не дотягивает, куда более компактная Nemotron 3 Nano 30B-A3B — лёгкая альтернатива из того же семейства и, как правило, прагматичный выбор на ограниченных машинах. Сильная сторона Super — отдавать рассуждения класса 120B на скорости класса 12B для тех, кто способен её разместить. Одна оговорка: она поставляется под лицензией NVIDIA Open Model, поэтому изучите её условия, прежде чем полагаться на неё в коммерческих проектах, а не считать по умолчанию, что это обычная свобода open-source.

Характеристики

Параметры120B (12B активных)

Контекстное окно1M токенов

РазработчикNVIDIA

ЛицензияNVIDIA Open Model

Дата выхода2026-03

Лучше всего дляЧат, Рассуждения, Код

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	50.3 GB	96 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	72.8 GB	96 GB	Рекомендуется
Q5_K_M	5.65	84.8 GB	128 GB	Высокое
Q8_0	8.5	127.5 GB	192 GB	Почти оригинал
F16	16	240.0 GB	256 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~1.8 GB	~74.6 GB
8K токенов	~3.5 GB	~76.3 GB
32K токенов	~14.2 GB	~87.0 GB
128K токенов	~56.7 GB	~129.5 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	Не поместится в VRAM
Apple M-series (base)	100 GB/s	~12 tok/s
Apple M-series Pro	270 GB/s	~32 tok/s
Apple M-series Max	410 GB/s	~48 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~7 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run nemotron-3-super:120b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

NVIDIA — официальная страница

Официальная страница и документация от NVIDIA.