¿Puede una NVIDIA RTX 4090 ejecutar Llama 3.1 8B?

Sí — la build de 4 bits es una descarga de 4.9 GB y cabe en 24 GB de VRAM. Espera aproximadamente ~177 tok/s.

¿Cuál es el LLM más grande que puede ejecutar una NVIDIA RTX 4090?

Qwen 3.5 35B-A3B es el modelo más grande de nuestro catálogo que cabe (21.2 GB a 4 bits). Espera unos ~471 tok/s.

¿Qué tan rápida es la NVIDIA RTX 4090 para LLM locales?

La generación de tokens está limitada por el ancho de banda de memoria. A aproximadamente 1008 GB/s, la NVIDIA RTX 4090 genera unos ~177 tok/s con un modelo de clase 8B a 4 bits — la velocidad escala de forma inversa al tamaño del modelo.

¿Tiene que caber todo el modelo en la VRAM?

Para la velocidad máxima de la GPU, sí. Runtimes como llama.cpp pueden repartir capas entre la VRAM y la RAM del sistema, pero cada capa que se desborda a la RAM ralentiza mucho la generación.

← Todos los modelosCOMPROBACIÓN DE DISPOSITIVO

¿Qué LLM puede ejecutar una NVIDIA RTX 4090?

La NVIDIA RTX 4090 tiene 24 GB de VRAM y aproximadamente 1008 GB/s de ancho de banda de memoria. Abajo tienes todos los modelos de nuestro catálogo que caben, con la velocidad de generación estimada. El más grande que cabe: Qwen 3.5 35B-A3B a ~471 tok/s.

Especificaciones

Memoria24 GB de VRAM

Ancho de banda~1008 GB/s

Tipo de memoriaVRAM dedicada

Lanzamiento2022-10

Modelos en la NVIDIA RTX 4090

62 / 73 modelos

Modelo	Descarga (Q4)	¿Cabe?	~Velocidad
Qwen 3.5 35B-A3BAlibaba	21.2 GB	Funciona	~471 tok/s
Qwen 3.6 35B-A3BAlibaba	21.2 GB	Funciona	~471 tok/s
Command R 35BCohere	21.2 GB	Funciona	~40 tok/s
Qwen3-VL 32BAlibaba	20.0 GB	Funciona	~43 tok/s
EXAONE 4.5 33BLG AI Research	20.0 GB	Funciona	~43 tok/s
Qwen 3 32BAlibaba	19.9 GB	Funciona	~43 tok/s
Qwen 2.5 Coder 32BAlibaba	19.9 GB	Funciona	~43 tok/s
QwQ 32BAlibaba	19.9 GB	Funciona	~43 tok/s
DeepSeek R1 32BDeepSeek	19.9 GB	Funciona	~43 tok/s
Granite 4.0 H SmallIBM	19.4 GB	Funciona	~157 tok/s
Nemotron 3 Nano 30B-A3BNVIDIA	19.2 GB	Funciona	~393 tok/s
Gemma 4 31BGoogle	18.6 GB	Funciona	~46 tok/s
Qwen 3 30B-A3BAlibaba	18.5 GB	Funciona	~428 tok/s
Qwen3-VL 30B-A3BAlibaba	18.2 GB	Funciona	~471 tok/s
Gemma 3 27BGoogle	16.6 GB	Funciona	~52 tok/s
Qwen 3.5 27BAlibaba	16.4 GB	Funciona	~52 tok/s
Qwen 3.6 27BAlibaba	16.4 GB	Funciona	~52 tok/s
Gemma 4 26B A4BGoogle	15.3 GB	Funciona	~372 tok/s
Mistral Small 3.1 24BMistral AI	14.6 GB	Funciona	~59 tok/s
Devstral 24BMistral AI	14.6 GB	Funciona	~59 tok/s
Magistral Small 1.2Mistral AI	14.6 GB	Funciona	~59 tok/s
Devstral Small 2 24BMistral AI	14.6 GB	Funciona	~59 tok/s
Codestral 22BMistral AI	13.5 GB	Funciona	~64 tok/s
GPT-OSS 20BOpenAI	12.7 GB	Funciona	~393 tok/s
Phi-4 Reasoning Vision 15BMicrosoft	9.1 GB	Funciona	~94 tok/s
Qwen 3 14BAlibaba	9.0 GB	Funciona	~95 tok/s
DeepSeek R1 14BDeepSeek	9.0 GB	Funciona	~95 tok/s
Phi-4 14BMicrosoft	8.9 GB	Funciona	~96 tok/s
Ministral 3 14BMistral AI	8.5 GB	Funciona	~101 tok/s
OLMo 2 13BAi2	8.3 GB	Funciona	~103 tok/s
Gemma 3 12BGoogle	7.4 GB	Funciona	~116 tok/s
Mistral Nemo 12BMistral AI	7.4 GB	Funciona	~116 tok/s
Gemma 4 12BGoogle	7.3 GB	Funciona	~118 tok/s
Mellum 2 12B-A2.5BJetBrains	7.3 GB	Funciona	~565 tok/s
Qwen 3.5 9BAlibaba	5.5 GB	Funciona	~157 tok/s
GLM-4.6V-FlashZ.ai	5.5 GB	Funciona	~157 tok/s
Qwen 2.5 VL 7BAlibaba	5.0 GB	Funciona	~170 tok/s
Qwen 3 8BAlibaba	5.0 GB	Funciona	~172 tok/s
Granite 3.3 8BIBM	5.0 GB	Funciona	~172 tok/s
Llama 3.1 8BMeta	4.9 GB	Funciona	~177 tok/s
DeepSeek R1 8BDeepSeek	4.9 GB	Funciona	~177 tok/s
Gemma 4 E4BGoogle	4.9 GB	Funciona	~314 tok/s
Qwen3-VL 8BAlibaba	4.9 GB	Funciona	~177 tok/s
Ministral 3 8BMistral AI	4.9 GB	Funciona	~177 tok/s
Gemma 3n E4BGoogle	4.7 GB	Funciona	~353 tok/s
Qwen 2.5 Coder 7BAlibaba	4.6 GB	Funciona	~186 tok/s
DeepSeek R1 7BDeepSeek	4.6 GB	Funciona	~186 tok/s
Mistral 7BMistral AI	4.4 GB	Funciona	~196 tok/s
Gemma 4 E2BGoogle	3.1 GB	Funciona	~614 tok/s
Gemma 3 4BGoogle	2.6 GB	Funciona	~329 tok/s
Qwen 3 4BAlibaba	2.4 GB	Funciona	~353 tok/s
Qwen 3.5 4BAlibaba	2.4 GB	Funciona	~353 tok/s
Phi-4 Mini 3.8BMicrosoft	2.3 GB	Funciona	~372 tok/s
Llama 3.2 3BMeta	1.9 GB	Funciona	~442 tok/s
DeepSeek-OCRDeepSeek	1.8 GB	Funciona	~2479 tok/s
Ministral 3 3BMistral AI	1.8 GB	Funciona	~471 tok/s
DeepSeek R1 1.5BDeepSeek	1.1 GB	Funciona	~785 tok/s
Qwen 3 1.7BAlibaba	1.0 GB	Funciona	~831 tok/s
SmolLM2 1.7BHugging Face	1.0 GB	Funciona	~831 tok/s
Llama 3.2 1BMeta	0.7 GB	Funciona	~1178 tok/s
Gemma 3 1BGoogle	0.6 GB	Funciona	~1413 tok/s
Qwen 3 0.6BAlibaba	0.4 GB	Funciona	~2355 tok/s

Para ejecutarse por completo en la GPU, la build de 4 bits debe caber en la VRAM. Los modelos que no caben aún pueden funcionar en CPU + RAM del sistema, varias veces más lento. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →