Сколько RAM нужно для запуска Nemotron 3 Nano 30B-A3B?

Около 32 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 19.2 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Nemotron 3 Nano 30B-A3B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Nemotron 3 Nano 30B-A3B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Nemotron 3 Nano 30B-A3B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Nemotron 3 Nano 30B-A3B занимает примерно 379 GB памяти GPU, а QLoRA снижает требования примерно до 47 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Nemotron 3 Nano 30B-A3B?

Модели Nemotron 3 Nano 30B-A3B от NVIDIA нужно около 32 GB RAM при рекомендуемой 4-битной квантизации (загрузка 19.2 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~160 tok/s на Apple M-series Max.

Считываем характеристики вашего железа…

Заметки из практики

Nemotron 3 Nano — это mixture-of-experts модель от NVIDIA для тех, кому нужны сильный чат, рассуждения и кодинг на локальной машине без затрат, как у полноценной dense-модели. Весь фокус заложен в названии: всего у неё 31.6B параметров, но на каждый токен задействуется лишь около 3.6B, поэтому генерирует она со скоростью крошечной модели, а «думает» как гораздо более крупная. Подвох, на котором обжигается каждый новичок в MoE, в том, что грузить в память всё равно приходится всю модель целиком. При 4-битной квантизации это примерно 19 GB весов, и вам нужно минимум 32 GB RAM — а значит, карта вроде RTX 3060 с 12 GB полностью отпадает.

В повседневной работе приём с активными параметрами проявляется по полной. На RTX 4090 модель выдаёт около 393 tok/s, что неприлично быстро для столь способной модели, а даже Apple Silicon M Max держится у 160 tok/s на unified memory. На одном CPU с DDR5 скорость падает примерно до 23 tok/s — годится для пакетных задач, но не для интерактивного чата. Главная заявленная фишка — контекстное окно на 1,000K, но относитесь к этому как к рекламному щиту: уже при 128K контекста полный объём памяти вырастает примерно до 50 GB, так что на машине с 32 GB вы реально работаете с несколькими десятками тысяч токенов, а не с миллионом.

На фоне конкурентов Gemma 4 31B — более гибкий выбор, если нужно зрение, ведь Nemotron 3 Nano работает только с текстом, а Granite 4.0 H Small — сопоставимая по размеру dense-альтернатива, если вы не хотите возиться с особенностями памяти MoE. Лучше всего Nemotron справляется с соотношением пропускной способности к качеству: ничто другое в этом классе размеров не генерирует так быстро, при этом справляясь с многошаговыми рассуждениями. Одно предостережение, прежде чем строить на ней продукт: лицензия NVIDIA Open Model — это open-weight, а не настоящий open-source, поэтому внимательно читайте условия, а не рассчитывайте на свободу уровня Apache для коммерческого использования.

Характеристики

Параметры31.6B (3.6B активных)

Контекстное окно1M токенов

РазработчикNVIDIA

ЛицензияNVIDIA Open Model

Дата выхода2025-12

Лучше всего дляЧат, Рассуждения, Код

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	13.2 GB	24 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	19.2 GB	32 GB	Рекомендуется
Q5_K_M	5.65	22.3 GB	32 GB	Высокое
Q8_0	8.5	33.6 GB	48 GB	Почти оригинал
F16	16	63.2 GB	96 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~1.0 GB	~20.2 GB
8K токенов	~1.9 GB	~21.1 GB
32K токенов	~7.8 GB	~27.0 GB
128K токенов	~31.1 GB	~50.3 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~393 tok/s
Apple M-series (base)	100 GB/s	~39 tok/s
Apple M-series Pro	270 GB/s	~105 tok/s
Apple M-series Max	410 GB/s	~160 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~23 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run nemotron-3-nano:30b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

NVIDIA — официальная страница

Официальная страница и документация от NVIDIA.