Сколько RAM нужно для запуска Gemma 4 E4B?

Около 8 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 4.9 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Gemma 4 E4B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Gemma 4 E4B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Gemma 4 E4B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Gemma 4 E4B занимает примерно 96 GB памяти GPU, а QLoRA снижает требования примерно до 12 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Gemma 4 E4B?

Модели Gemma 4 E4B от Google нужно около 8 GB RAM при рекомендуемой 4-битной квантизации (загрузка 4.9 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~112 tok/s на NVIDIA RTX 3060 12GB.

Считываем характеристики вашего железа…

Заметки из практики

Gemma 4 E4B — это компактная mixture-of-experts модель от Google, хороший выбор, если вам нужен локальный ассистент, который умеет ещё и читать изображения. Хитрость MoE в следующем: из 8B параметров на каждый токен работает лишь около 4.5B, поэтому модель выдаёт скорость гораздо меньшей сети, но в память всё равно нужно загрузить её целиком. В 4-bit она занимает около 4.9 GB — на карте с 12 GB вроде RTX 3060 остаётся куча свободного места, и она спокойно помещается в unified memory у Apple Silicon Mac с 8 GB. Планируйте память по всей модели, а не по активному срезу.

В повседневной работе ощущается быстрой. На RTX 3060 в 4-bit ждите около 112 токенов в секунду; топовая карта вроде RTX 4090 разгоняет это за 300, то есть быстрее, чем вы успеваете читать. На стороне Apple Silicon M-Max держится в районе ~128 tok/s, а на чистом CPU поверх DDR5, если хватит терпения, выходит примерно 19 tok/s. Окно контекста 128K реальное, но дорогое: если заполнить его полностью, суммарная память поднимается примерно до 21.7 GB, что намного больше, чем подразумевают одни лишь веса. На скромном железе держите рабочий контекст в пределах нескольких тысяч токенов — так будет комфортно.

В сравнении с более лёгким родственником Gemma 3 4B модель E4B обычно выдаёт результат сильнее, сохраняя при этом такой же небольшой активный объём; обе обрабатывают изображения, так что E4B — лучший вариант по умолчанию, если вы реально не упираетесь в память. Её главная фишка — тот самый компромисс MoE между скоростью и качеством: чат и понимание изображений с задержкой маленькой модели. С лицензией всё просто. Apache 2.0 означает, что вы можете свободно использовать модель без каких-либо специфических для вендора ограничений, включая коммерческое применение и продакшен. Это делает её одной из самых беспроблемных локальных моделей, на которой действительно можно что-то строить.

Характеристики

Параметры8B (4.5B активных)

Контекстное окно128K токенов

РазработчикGoogle

ЛицензияApache 2.0

Дата выхода2026-04

Лучше всего дляЧат, Изображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	3.4 GB	6 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	4.9 GB	8 GB	Рекомендуется
Q5_K_M	5.65	5.7 GB	12 GB	Высокое
Q8_0	8.5	8.5 GB	16 GB	Почти оригинал
F16	16	16.0 GB	24 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~0.5 GB	~5.4 GB
8K токенов	~1.0 GB	~5.9 GB
32K токенов	~4.2 GB	~9.1 GB
128K токенов	~16.8 GB	~21.7 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	~112 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~314 tok/s
Apple M-series (base)	100 GB/s	~31 tok/s
Apple M-series Pro	270 GB/s	~84 tok/s
Apple M-series Max	410 GB/s	~128 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~19 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run gemma4:e4b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от Google.