Сколько RAM нужно для запуска Qwen 3.5 35B-A3B?

Около 32 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 21.2 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Qwen 3.5 35B-A3B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Qwen 3.5 35B-A3B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Qwen 3.5 35B-A3B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Qwen 3.5 35B-A3B занимает примерно 420 GB памяти GPU, а QLoRA снижает требования примерно до 53 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Qwen 3.5 35B-A3B?

Модели Qwen 3.5 35B-A3B от Alibaba нужно около 32 GB RAM при рекомендуемой 4-битной квантизации (загрузка 21.2 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~192 tok/s на Apple M-series Max.

Считываем характеристики вашего железа…

Заметки из практики

Qwen 3.5 35B-A3B — это mixture-of-experts модель с полезным приёмом в основе: из 35B общих параметров на каждый токен активны лишь около 3B. Поэтому она генерирует со скоростью маленькой модели, опираясь при этом на знания большой. Подвох — в памяти. Модель целиком держится в RAM, так что рассчитывайте на полный объём, а не на активную часть. В 4-bit она занимает около 21 GB, и системной памяти нужно минимум 32 GB. RTX 3060 на 12 GB её не вместит, так что на практике это GPU на 24 GB или Apple Silicon с большим объёмом памяти.

Когда модель помещается, архитектура MoE окупается, и для своего класса она ощущается быстрой. На RTX 4090 можно увидеть около 471 tok/s, на Apple M Max — примерно 192, и в обоих случаях ответ опережает ваше чтение. CPU на DDR5 выдаёт около 28 tok/s — медленно, но пригодно для пакетной работы. Модель справляется с чатом, рассуждениями, кодом и зрением, с щедрым окном контекста на 256K. Но к этому потолку относитесь осторожно: при 128K контекста общий объём памяти вырастает примерно до 53.8 GB, так что для длинного контекста нужна по-настоящему большая машина, а не просто та, что вмещает веса.

В сравнении с Command R 35B — плотной моделью того же размера, которую стоит взять для ориентира, — реальная разница не в числе параметров, а в архитектуре MoE: номинальный размер тот же, но Qwen обычно работает заметно быстрее на токен, потому что активны лишь 3B. Именно это соотношение скорости к возможностям — её главная черта: почти мгновенная генерация при объёме знаний на уровне 35B плюс мультимодальная поддержка зрения. Если вы ограничены в памяти и нужен лишь базовый чат, лучше взять меньшие Qwen 3 0.6B и 1.7B. С лицензией всё просто: Apache 2.0 означает, что вы можете свободно использовать модель, в том числе коммерчески и в продакшене, без специфичных условий от поставщика.

Характеристики

Параметры35B (3B активных)

Контекстное окно256K токенов

РазработчикAlibaba

ЛицензияApache 2.0

Дата выхода2026-02

Лучше всего дляЧат, Рассуждения, Код, Изображения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	14.7 GB	24 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	21.2 GB	32 GB	Рекомендуется
Q5_K_M	5.65	24.7 GB	48 GB	Высокое
Q8_0	8.5	37.2 GB	48 GB	Почти оригинал
F16	16	70.0 GB	96 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~1.0 GB	~22.2 GB
8K токенов	~2.0 GB	~23.2 GB
32K токенов	~8.1 GB	~29.3 GB
128K токенов	~32.6 GB	~53.8 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~471 tok/s
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run qwen3.5:35b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от Alibaba.