Сколько RAM нужно для запуска Gemma 4 E2B?

Около 6 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 3.1 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Gemma 4 E2B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Gemma 4 E2B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Gemma 4 E2B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Gemma 4 E2B занимает примерно 61 GB памяти GPU, а QLoRA снижает требования примерно до 8 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Gemma 4 E2B?

Модели Gemma 4 E2B от Google нужно около 6 GB RAM при рекомендуемой 4-битной квантизации (загрузка 3.1 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~219 tok/s на NVIDIA RTX 3060 12GB.

Считываем характеристики вашего железа…

Заметки из практики

Gemma 4 E2B — это компактная mixture-of-experts модель от Google, и самое интересное здесь в арифметике: всего в ней 5.1B параметров, но на каждый токен активируется лишь около 2.3B. То есть работает она со скоростью гораздо меньшей модели, но память при этом нужна под весь объём весов. 4-битный квант занимает примерно 3.1 GB, а чтобы держать полный набор весов, понадобится минимум около 6 GB RAM. Это укладывается в бюджетную видеокарту на 8 GB или в любой Mac на Apple Silicon с запасом, причём модель умеет и чат, и зрение — ей можно подавать не только текст, но и изображения.

В повседневной работе трюк с активными параметрами окупается чистой пропускной способностью. На RTX 3060 12GB она выдаёт около 219 токенов в секунду в 4-битном режиме, RTX 4090 переваливает за 600, а M-series Max держится около 250. Ответы стримятся куда быстрее, чем вы их читаете. Подводный камень — контекст на 128K: заполните его, и суммарная память вырастает примерно до 16.8 GB, что заметно выше тех 6 GB, которые нужны при коротком контексте. На слабой карте держите рабочий контекст в пределах нескольких тысяч токенов, иначе KV-кэш перерастёт саму модель.

Внутри своего семейства Gemma 3 4B — плотная альтернатива, если не хочется возиться с расходом памяти под MoE, а Qwen 3 4B обычно сильнее в многошаговых рассуждениях, поскольку именно на это и заточена. Главный козырь Gemma 4 E2B — соотношение скорости и возможностей плюс встроенное зрение в столь лёгком формате, что редкость для такого размера. Лицензия — Apache 2.0, поэтому, в отличие от прежних условий Gemma от Google, её можно использовать в продакшене и коммерчески без отдельной лицензии, которую пришлось бы вычитывать. Запускается командой ollama run gemma4:e2b — и всё готово.

Характеристики

Параметры5.1B (2.3B активных)

Контекстное окно128K токенов

РазработчикGoogle

ЛицензияApache 2.0

Дата выхода2026-04

Лучше всего дляЧат, Изображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	2.1 GB	6 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	3.1 GB	6 GB	Рекомендуется
Q5_K_M	5.65	3.6 GB	6 GB	Высокое
Q8_0	8.5	5.4 GB	12 GB	Почти оригинал
F16	16	10.2 GB	16 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~0.4 GB	~3.5 GB
8K токенов	~0.9 GB	~4.0 GB
32K токенов	~3.4 GB	~6.5 GB
128K токенов	~13.7 GB	~16.8 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	~219 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~614 tok/s
Apple M-series (base)	100 GB/s	~61 tok/s
Apple M-series Pro	270 GB/s	~165 tok/s
Apple M-series Max	410 GB/s	~250 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~37 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run gemma4:e2b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от Google.