← モデル一覧へデバイスチェック

NVIDIA RTX 4090で動くLLMは?

NVIDIA RTX 4090はVRAM 24 GBを搭載し、メモリ帯域幅は約1008 GB/sです。以下は、カタログの中で収まる全モデルと生成速度の目安です。 動く最大のモデルはQwen 3.5 35B-A3B — およそ ~471 tok/s が目安です。

スペック

メモリVRAM 24 GB
帯域幅~1008 GB/s
メモリの種類専用VRAM
公開日2022-10

NVIDIA RTX 4090で動くモデル

62 / 73 モデル
モデルダウンロード(Q4)収まる?速度目安
Qwen 3.5 35B-A3B21.2 GB動く~471 tok/s
Qwen 3.6 35B-A3B21.2 GB動く~471 tok/s
Command R 35B21.2 GB動く~40 tok/s
Qwen3-VL 32B20.0 GB動く~43 tok/s
EXAONE 4.5 33B20.0 GB動く~43 tok/s
Qwen 3 32B19.9 GB動く~43 tok/s
Qwen 2.5 Coder 32B19.9 GB動く~43 tok/s
QwQ 32B19.9 GB動く~43 tok/s
DeepSeek R1 32B19.9 GB動く~43 tok/s
Granite 4.0 H Small19.4 GB動く~157 tok/s
Nemotron 3 Nano 30B-A3B19.2 GB動く~393 tok/s
Gemma 4 31B18.6 GB動く~46 tok/s
Qwen 3 30B-A3B18.5 GB動く~428 tok/s
Qwen3-VL 30B-A3B18.2 GB動く~471 tok/s
Gemma 3 27B16.6 GB動く~52 tok/s
Qwen 3.5 27B16.4 GB動く~52 tok/s
Qwen 3.6 27B16.4 GB動く~52 tok/s
Gemma 4 26B A4B15.3 GB動く~372 tok/s
Mistral Small 3.1 24B14.6 GB動く~59 tok/s
Devstral 24B14.6 GB動く~59 tok/s
Magistral Small 1.214.6 GB動く~59 tok/s
Devstral Small 2 24B14.6 GB動く~59 tok/s
Codestral 22B13.5 GB動く~64 tok/s
GPT-OSS 20B12.7 GB動く~393 tok/s
Phi-4 Reasoning Vision 15B9.1 GB動く~94 tok/s
Qwen 3 14B9.0 GB動く~95 tok/s
DeepSeek R1 14B9.0 GB動く~95 tok/s
Phi-4 14B8.9 GB動く~96 tok/s
Ministral 3 14B8.5 GB動く~101 tok/s
OLMo 2 13B8.3 GB動く~103 tok/s
Gemma 3 12B7.4 GB動く~116 tok/s
Mistral Nemo 12B7.4 GB動く~116 tok/s
Gemma 4 12B7.3 GB動く~118 tok/s
Mellum 2 12B-A2.5B7.3 GB動く~565 tok/s
Qwen 3.5 9B5.5 GB動く~157 tok/s
GLM-4.6V-Flash5.5 GB動く~157 tok/s
Qwen 2.5 VL 7B5.0 GB動く~170 tok/s
Qwen 3 8B5.0 GB動く~172 tok/s
Granite 3.3 8B5.0 GB動く~172 tok/s
Llama 3.1 8B4.9 GB動く~177 tok/s
DeepSeek R1 8B4.9 GB動く~177 tok/s
Gemma 4 E4B4.9 GB動く~314 tok/s
Qwen3-VL 8B4.9 GB動く~177 tok/s
Ministral 3 8B4.9 GB動く~177 tok/s
Gemma 3n E4B4.7 GB動く~353 tok/s
Qwen 2.5 Coder 7B4.6 GB動く~186 tok/s
DeepSeek R1 7B4.6 GB動く~186 tok/s
Mistral 7B4.4 GB動く~196 tok/s
Gemma 4 E2B3.1 GB動く~614 tok/s
Gemma 3 4B2.6 GB動く~329 tok/s
Qwen 3 4B2.4 GB動く~353 tok/s
Qwen 3.5 4B2.4 GB動く~353 tok/s
Phi-4 Mini 3.8B2.3 GB動く~372 tok/s
Llama 3.2 3B1.9 GB動く~442 tok/s
DeepSeek-OCR1.8 GB動く~2479 tok/s
Ministral 3 3B1.8 GB動く~471 tok/s
DeepSeek R1 1.5B1.1 GB動く~785 tok/s
Qwen 3 1.7B1.0 GB動く~831 tok/s
SmolLM2 1.7B1.0 GB動く~831 tok/s
Llama 3.2 1B0.7 GB動く~1178 tok/s
Gemma 3 1B0.6 GB動く~1413 tok/s
Qwen 3 0.6B0.4 GB動く~2355 tok/s

GPUでフル動作させるには、4bitビルドがVRAMに収まる必要があります。収まらないモデルもCPU+システムRAMで動かせますが、数倍遅くなります。 · データ更新日: 2026-06-11 · 数値の算出方法 →

よくある質問

NVIDIA RTX 4090で動くLLMは?(VRAM 24 GB)— ブラウザで即チェック