Сколько RAM нужно для запуска Gemma 4 31B?

Около 32 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 18.6 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Gemma 4 31B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Gemma 4 31B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Gemma 4 31B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Gemma 4 31B занимает примерно 368 GB памяти GPU, а QLoRA снижает требования примерно до 46 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Gemma 4 31B?

Модели Gemma 4 31B от Google нужно около 32 GB RAM при рекомендуемой 4-битной квантизации (загрузка 18.6 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~19 tok/s на Apple M-series Max.

Считываем характеристики вашего железа…

Заметки из практики

Gemma 4 31B — это средне-крупная модель Google с открытыми весами на 30.7B параметров, рассчитанная сразу на чат, программирование, рассуждения и зрение в одном пакете. Запустить её на ноутбуке между делом не получится. В 4-bit квантовании она весит около 18.6 GB, и чтобы вообще загрузить её, нужно минимум 32 GB RAM, так что карта на 12 GB вроде RTX 3060 в неё попросту не помещается. Реалистичный дом для неё — это GPU на 24 GB, например RTX 4090, либо Mac на Apple Silicon с большим объёмом унифицированной памяти. Если вам нужен универсал на все руки и есть подходящее железо, именно на этом уровне локальные модели начинают ощущаться по-настоящему полезными.

В повседневной работе она скорее комфортная, чем стремительная. На RTX 4090 в 4-bit можно рассчитывать примерно на 46 tok/s — этого хватает, чтобы читать ответ прямо по мере его генерации; на Apple M Max скорость оседает ближе к 19 tok/s, что всё ещё нормально для интерактивной работы. Чистый CPU на DDR5 падает примерно до 3 tok/s — это уже территория исключительно для терпеливых. Контекстное окно в 256K щедрое, но дорогое: приближение к 128K уже требует около 49.3 GB суммарной памяти, поэтому относитесь к полному окну как к потолку и держите рабочий контекст скромным, если только у вас нет запаса памяти.

В сравнении с Qwen 3 30B-A3B, почти идентичным собратом на 30.5B, выбор сводится к архитектуре: подход mixture-of-experts у Qwen, как правило, расходует меньше ресурсов на токен, тогда как Gemma 4 31B — плотная (dense) модель, задействующая весь свой вес на каждом проходе, и обычно она ощущается стабильнее в задачах зрения и широкого следования инструкциям. Если нужно что-то заметно компактнее, более лёгкий вариант — Gemma 3 4B. Главное достоинство здесь — широта охвата: одна модель закрывает чат, код, рассуждения и изображения, причём под чистой лицензией Apache 2.0, которую можно использовать в коммерции и в продакшене без специфичных для провайдера ограничений.

Характеристики

Параметры30.7B

Контекстное окно256K токенов

РазработчикGoogle

ЛицензияApache 2.0

Дата выхода2026-04

Лучше всего дляЧат, Код, Рассуждения, Изображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	12.9 GB	24 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	18.6 GB	32 GB	Рекомендуется
Q5_K_M	5.65	21.7 GB	32 GB	Высокое
Q8_0	8.5	32.6 GB	48 GB	Почти оригинал
F16	16	61.4 GB	96 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~1.0 GB	~19.6 GB
8K токенов	~1.9 GB	~20.5 GB
32K токенов	~7.7 GB	~26.3 GB
128K токенов	~30.7 GB	~49.3 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~46 tok/s
Apple M-series (base)	100 GB/s	~5 tok/s
Apple M-series Pro	270 GB/s	~12 tok/s
Apple M-series Max	410 GB/s	~19 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run gemma4:31b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от Google.