Сколько RAM нужно для запуска GLM-4.6V-Flash?

Около 12 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 5.5 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли GLM-4.6V-Flash без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию GLM-4.6V-Flash скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить GLM-4.6V-Flash на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение GLM-4.6V-Flash занимает примерно 108 GB памяти GPU, а QLoRA снижает требования примерно до 14 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить GLM-4.6V-Flash?

Модели GLM-4.6V-Flash от Z.ai нужно около 12 GB RAM при рекомендуемой 4-битной квантизации (загрузка 5.5 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~56 tok/s на NVIDIA RTX 3060 12GB.

Считываем характеристики вашего железа…

Заметки из практики

GLM-4.6V-Flash — это модель на 9B от Z.ai, работающая и с изображениями, и с текстом; она для тех, кому нужен локальный ассистент, который реально умеет смотреть на картинки, а не только читать текст. В 4-битной квантизации она весит около 5.5 GB, поэтому свободно помещается на 12 GB карту вроде RTX 3060 с запасом и укладывается в единую память любого Mac на Apple Silicon с разумной конфигурацией. Чтобы загрузить её без проблем, желательно иметь хотя бы около 12 GB RAM. Если со свободным местом туго, 2-битная сборка опускается примерно до 3.8 GB, но за этот запас вы расплачиваетесь качеством.

В повседневной работе она ощущается шустрой. На RTX 3060 в 4-бит можно рассчитывать примерно на 56 tok/s — этого достаточно, чтобы ответы выводились быстрее, чем вы успеваете читать, а 4090, если он у вас есть, разгоняет это до примерно 157 tok/s. M-серия Max держится около 64 tok/s, тогда как чистый CPU на DDR5 еле ползёт на уровне около 9 tok/s — годится, только если вы терпеливы. Контекст в 128K настоящий, но дорогой: его заполнение поднимает общий объём памяти к 23.2 GB, что заметно выше того, что вмещает 12 GB карта, так что держите рабочий контекст скромным и опирайтесь на задачи с изображениями, а не на огромные документы.

Среди родственных моделей Qwen 2.5 VL 7B — очевидная точка сравнения по части зрения, и она в целом держится хорошо, тогда как родственная модель Qwen обычно оказывается более сильным выбором, если вам помимо изображений нужны ещё и рассуждения. Главная сильная сторона GLM-4.6V-Flash в том, что это по-настоящему компактная мультимодальная модель, которая без особых хлопот работает на скромном железе. Лицензия — MIT, а значит вы вправе использовать её в коммерческих целях и в продакшене без каких-либо ограничений со стороны провайдера, что является реальным преимуществом перед многими релизами с открытыми весами.

Характеристики

Параметры9B

Контекстное окно128K токенов

РазработчикZ.ai

ЛицензияMIT

Дата выхода2025-12

Лучше всего дляИзображения, Чат

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	3.8 GB	8 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	5.5 GB	12 GB	Рекомендуется
Q5_K_M	5.65	6.4 GB	12 GB	Высокое
Q8_0	8.5	9.6 GB	16 GB	Почти оригинал
F16	16	18.0 GB	24 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~0.6 GB	~6.1 GB
8K токенов	~1.1 GB	~6.6 GB
32K токенов	~4.4 GB	~9.9 GB
128K токенов	~17.7 GB	~23.2 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	~56 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~157 tok/s
Apple M-series (base)	100 GB/s	~16 tok/s
Apple M-series Pro	270 GB/s	~42 tok/s
Apple M-series Max	410 GB/s	~64 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~9 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Источники и загрузки

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от Z.ai.

github.com