Сколько RAM нужно для запуска Qwen 3.5 4B?

Около 6 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 2.4 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Qwen 3.5 4B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Qwen 3.5 4B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Qwen 3.5 4B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Qwen 3.5 4B занимает примерно 48 GB памяти GPU, а QLoRA снижает требования примерно до 6 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Qwen 3.5 4B?

Модели Qwen 3.5 4B от Alibaba нужно около 6 GB RAM при рекомендуемой 4-битной квантизации (загрузка 2.4 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~126 tok/s на NVIDIA RTX 3060 12GB.

Считываем характеристики вашего железа…

Заметки из практики

Qwen 3.5 4B — это небольшая плотная (dense) модель для тех, кому нужен толковый локальный ассистент, почти не нагружающий железо. В 4-битной квантизации она занимает около 2.4 GB, поэтому помещается практически в любую современную GPU с запасом, спокойно работает в унифицированной памяти на Mac с Apple Silicon, а минимум в 6 GB RAM означает, что её потянет даже старый ноутбук. Кроме чата она умеет работать с изображениями (vision), что редкость для такого размера. Лицензия Apache 2.0 разрешает коммерческое использование и запуск в продакшене без каких-либо ограничений.

В повседневной работе она быстрая. На RTX 4090 вы получите около 353 tok/s, а средняя RTX 3060 всё ещё выдаёт примерно 126 tok/s — обе скорости намного выше, чем вы способны читать. M-series Max держится около 144 tok/s, и даже чистый CPU на DDR5 осиливает порядка 21 tok/s, если вы готовы подождать. Контекстное окно в 256K щедрое, но воспринимайте его как запас, а не как значение по умолчанию. По мере заполнения память растёт круто: при контексте 128K общий объём достигает примерно 14.7 GB, что переполнит большинство потребительских карт, поэтому держите рабочий контекст скромным, если у вас нет лишней памяти.

Внутри своего семейства она заметно выше крошечных Qwen 3 1.7B и 0.6B, которые больше подходят для телефонов и встраиваемых задач, чем на роль основного ассистента. По сравнению с Phi-4 Mini 3.8B, Qwen 3.5 4B обычно ощущается более универсальной благодаря поддержке vision и более длинному контексту, тогда как Phi-4 Mini лучше держится на узко очерченных задачах рассуждения. Главное достоинство здесь — отдача за такой объём: мультимодальная модель на 4B, которая быстро работает на скромном железе под полностью свободной лицензией, — редкое сочетание, и это делает её удобным выбором по умолчанию для лёгкой локальной сборки.

Характеристики

Параметры4B

Контекстное окно256K токенов

РазработчикAlibaba

ЛицензияApache 2.0

Дата выхода2026-03

Лучше всего дляЧат, Изображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	1.7 GB	4 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	2.4 GB	6 GB	Рекомендуется
Q5_K_M	5.65	2.8 GB	6 GB	Высокое
Q8_0	8.5	4.3 GB	8 GB	Почти оригинал
F16	16	8.0 GB	12 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~0.4 GB	~2.8 GB
8K токенов	~0.8 GB	~3.2 GB
32K токенов	~3.1 GB	~5.5 GB
128K токенов	~12.3 GB	~14.7 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	~126 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~353 tok/s
Apple M-series (base)	100 GB/s	~35 tok/s
Apple M-series Pro	270 GB/s	~95 tok/s
Apple M-series Max	410 GB/s	~144 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~21 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run qwen3.5:4b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от Alibaba.