Сколько RAM нужно для запуска Qwen 3.6 27B?

Около 24 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 16.4 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Qwen 3.6 27B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Qwen 3.6 27B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Qwen 3.6 27B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Qwen 3.6 27B занимает примерно 324 GB памяти GPU, а QLoRA снижает требования примерно до 41 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Qwen 3.6 27B?

Модели Qwen 3.6 27B от Alibaba нужно около 24 GB RAM при рекомендуемой 4-битной квантизации (загрузка 16.4 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~21 tok/s на Apple M-series Max.

Считываем характеристики вашего железа…

Заметки из практики

Qwen 3.6 27B — это среднеклассовая рабочая лошадка от Alibaba для тех, кто хочет закрывать чат, рассуждения, программирование и работу с изображениями одной толковой локальной моделью, вообще не обращаясь к облаку. Это плотная (dense) модель на 27B, то есть на каждом токене задействуются все параметры, и это сразу отражается на потребляемой памяти: 4-битная квантизация занимает около 16.4 GB, а чтобы просто загрузить модель, нужно как минимум порядка 24 GB RAM. Из-за этого она в принципе не помещается на 12-гигабайтную карту вроде RTX 3060 — туда она не влезает совсем. Это территория RTX 4090 с 24 GB или Mac на Apple Silicon с большим объёмом памяти.

На 4090 в 4-битном режиме можно рассчитывать примерно на 52 токена/с — это быстрее, чем вы успеваете читать, и для интерактивного ассистента ощущается по-настоящему плавно. На Apple Silicon серии Max скорость оседает в районе 21 tok/s, чего вполне комфортно хватает для чата и кодинга. Контекстное окно в 256K — заметная цифра, но воспринимайте её как потолок, а не как значение по умолчанию. По мере заполнения окна память растёт стремительно: при контексте 128K общий рабочий набор занимает около 45.4 GB. Так что, если у вас нет сборки уровня рабочей станции, держите повседневный контекст в разумных рамках, а длинное окно приберегите для тех редких задач, где оно действительно нужно.

В сравнении с другим очевидным вариантом на 27B — Gemma 3 27B — обе модели набирают очки по-своему: Gemma 3 закрывает чат и изображения, а Qwen 3.6 27B на той же базе с поддержкой картинок добавляет в целом более сильное программирование и рассуждения, что делает её более универсальным выбором для тех, кому нужна одна модель на все задачи. Если памяти в обрез, реалистичной запасной опцией будет куда меньшая Qwen 3 1.7B, но она только болтает: не рассуждает и не видит изображений. Главная сильная сторона Qwen 3.6 27B — именно эта широта возможностей в одной плотной модели. К тому же она выходит под Apache 2.0, то есть её можно без лицензионной головной боли использовать коммерчески и в продакшене.

Характеристики

Параметры27B

Контекстное окно256K токенов

РазработчикAlibaba

ЛицензияApache 2.0

Дата выхода2026-04

Лучше всего дляЧат, Рассуждения, Код, Изображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	11.3 GB	16 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	16.4 GB	24 GB	Рекомендуется
Q5_K_M	5.65	19.1 GB	32 GB	Высокое
Q8_0	8.5	28.7 GB	48 GB	Почти оригинал
F16	16	54.0 GB	96 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~0.9 GB	~17.3 GB
8K токенов	~1.8 GB	~18.2 GB
32K токенов	~7.3 GB	~23.7 GB
128K токенов	~29.0 GB	~45.4 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~52 tok/s
Apple M-series (base)	100 GB/s	~5 tok/s
Apple M-series Pro	270 GB/s	~14 tok/s
Apple M-series Max	410 GB/s	~21 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run qwen3.6:27b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от Alibaba.