Сколько RAM нужно для запуска Qwen3-VL 32B?

Около 32 GB общей памяти для рекомендуемой 4-битной сборки (Q4_K_M) — это загрузка размером 20.0 GB. Больше RAM позволит использовать квантизации повыше качеством или более длинный контекст.

Запустится ли Qwen3-VL 32B без дискретной видеокарты (GPU)?

Да — Ollama и llama.cpp запускают её на CPU, если модель помещается в RAM. GPU или Apple Silicon ускоряют генерацию в несколько раз, но это необязательно.

Какую квантизацию Qwen3-VL 32B скачать?

Q4_K_M — золотая середина почти для всех: примерно в 4 раза меньше оригинала при минимальной потере качества. Берите Q5 или Q8, если памяти с запасом, а Q2 — только когда больше ничего не помещается.

Могу ли я дообучить Qwen3-VL 32B на своей машине?

Файнтюнинг требует куда больше памяти, чем инференс. Полное дообучение Qwen3-VL 32B занимает примерно 396 GB памяти GPU, а QLoRA снижает требования примерно до 50 GB. Для большинства практичный путь — QLoRA на арендованном GPU.

Что лучше: модель побольше в Q2/Q3 или поменьше в Q4/Q5?

Обычно второе. Ниже Q3 качество резко падает — модель поменьше в Q4_K_M, как правило, обходит более крупную, ужатую в Q2. Опускайтесь ниже Q4 только тогда, когда в память не помещается ничего другого.

← Все моделиПРОВЕРКА МОДЕЛИ

Могу ли я запустить Qwen3-VL 32B?

Модели Qwen3-VL 32B от Alibaba нужно около 32 GB RAM при рекомендуемой 4-битной квантизации (загрузка 20.0 GB). Проверка вашего железа — ниже: мгновенно, ничего не покидает ваш браузер. Ожидайте примерно ~17 tok/s на Apple M-series Max.

Считываем характеристики вашего железа…

Заметки из практики

Qwen3-VL 32B — это модель Alibaba для зрения и рассуждений, рассчитанная на тех, кому нужен локальный ассистент, действительно умеющий смотреть на изображения, а не только читать текст. С её 33B плотных параметров нагрузка ощутимо выше, чем у привычных стартовых моделей на 7-8B: 4-битная квантизация занимает около 20 GB, а чтобы комфортно держать модель целиком, нужно минимум 32 GB системной RAM. Это сразу исключает карты на 12 GB вроде RTX 3060 — туда она попросту не помещается. Реалистично это GPU на 24 GB или хорошо укомплектованная машина на Apple Silicon, а не случайный ноутбук.

В повседневной работе модель ощущается способной, но скорее вдумчивой, чем шустрой. На RTX 4090 при 4-битной квантизации можно рассчитывать примерно на 43 токена в секунду — этого достаточно для комфортного общения и вопросов по картинкам; на Mac с M-Max получается ближе к 17 токенам в секунду — терпимо, но медленнее, чем хотелось бы в долгих сессиях, а вариант только на CPU с примерно 3 токенами в секунду — это крайняя мера. Контекстное окно в 256K щедрое, но память с ним растёт быстро: даже на 128K общий объём поднимается примерно до 51.7 GB, так что без запаса по памяти держите рабочий контекст скромным.

В сравнении с EXAONE 4.5 33B — очевидным соперником того же размера, который тоже работает со зрением и рассуждениями, — обе модели идут вровень, и выбор сводится к инструментарию и тому, какой экосистеме вы уже доверяете; сильная сторона Qwen3-VL — зрелое и широко поддерживаемое семейство с простой загрузкой через Ollama по тегу qwen3-vl:32b. Её главная отличительная черта — по-настоящему сильное мультимодальное рассуждение при размере, который ещё можно хостить у себя на одном GPU. А с лицензией всё просто: Apache 2.0 означает, что вы можете использовать модель свободно, в том числе в коммерческой и продакшен-работе, без особых условий от поставщика.

Характеристики

Параметры33B

Контекстное окно256K токенов

РазработчикAlibaba

ЛицензияApache 2.0

Дата выхода2025-10

Лучше всего дляИзображения, Чат, Рассуждения

Размер по квантизации

Квантизация	Бит/вес	Загрузка	Мин. RAM	Качество
Q2_K	3.35	13.8 GB	24 GB	Заметная потеря
Q4_K_MРекомендуется	4.85	20.0 GB	32 GB	Рекомендуется
Q5_K_M	5.65	23.3 GB	32 GB	Высокое
Q8_0	8.5	35.1 GB	48 GB	Почти оригинал
F16	16	66.0 GB	96 GB	Оригинал

Размеры рассчитаны как число параметров × бит на вес; реальные сборки GGUF немного отличаются. · Данные обновлены: 2026-06-11 · Как мы считаем эти цифры →

Память в зависимости от длины контекста

Контекст	KV-кэш (оценка)	Всего памяти (Q4)
4K токенов	~1.0 GB	~21.0 GB
8K токенов	~2.0 GB	~22.0 GB
32K токенов	~7.9 GB	~27.9 GB
128K токенов	~31.7 GB	~51.7 GB

KV-кэш растёт вместе с длиной контекста — модель, которая помещается при 4K, может упереться в нехватку памяти при 32K. Оценки предполагают FP16-кэш с grouped-query attention; реальное потребление зависит от рантайма.

Оценка скорости по железу

Железо	Пропускная способность	~Скорость
NVIDIA RTX 3060 12GB	360 GB/s	Не поместится в VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~43 tok/s
Apple M-series (base)	100 GB/s	~4 tok/s
Apple M-series Pro	270 GB/s	~11 tok/s
Apple M-series Max	410 GB/s	~17 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s

Генерация токенов упирается в пропускную способность памяти: tok/s ≈ пропускная способность × 0,85 ÷ размер модели при Q4. Реальные цифры зависят от рантайма и длины контекста.

Запустите локально

Проще всего через Ollama — одна команда, и можно общаться:

ollama run qwen3-vl:32b

Источники и загрузки

Ollama Library

Скачайте и запустите модель одной командой.

ollama.com

Hugging Face

Веса модели, файлы и подробности лицензии.

huggingface.co

Официальный репозиторий на GitHub

Исходный код, релизы и issues от Alibaba.