¿Puede una NVIDIA RTX 4060 ejecutar Llama 3.1 8B?

Sí — la build de 4 bits es una descarga de 4.9 GB y cabe en 8 GB de VRAM. Espera aproximadamente ~48 tok/s.

¿Cuál es el LLM más grande que puede ejecutar una NVIDIA RTX 4060?

Gemma 3 12B es el modelo más grande de nuestro catálogo que cabe (7.4 GB a 4 bits). Espera unos ~31 tok/s.

¿Qué tan rápida es la NVIDIA RTX 4060 para LLM locales?

La generación de tokens está limitada por el ancho de banda de memoria. A aproximadamente 272 GB/s, la NVIDIA RTX 4060 genera unos ~48 tok/s con un modelo de clase 8B a 4 bits — la velocidad escala de forma inversa al tamaño del modelo.

¿Tiene que caber todo el modelo en la VRAM?

Para la velocidad máxima de la GPU, sí. Runtimes como llama.cpp pueden repartir capas entre la VRAM y la RAM del sistema, pero cada capa que se desborda a la RAM ralentiza mucho la generación.

← Todos los modelosCOMPROBACIÓN DE DISPOSITIVO

¿Qué LLM puede ejecutar una NVIDIA RTX 4060?

La NVIDIA RTX 4060 tiene 8 GB de VRAM y aproximadamente 272 GB/s de ancho de banda de memoria. Abajo tienes todos los modelos de nuestro catálogo que caben, con la velocidad de generación estimada. El más grande que cabe: Gemma 3 12B a ~31 tok/s.

Especificaciones

Memoria8 GB de VRAM

Ancho de banda~272 GB/s

Tipo de memoriaVRAM dedicada

Lanzamiento2023-06

Modelos en la NVIDIA RTX 4060

32 / 73 modelos

Modelo	Descarga (Q4)	¿Cabe?	~Velocidad
Gemma 3 12BGoogle	7.4 GB	Funciona	~31 tok/s
Mistral Nemo 12BMistral AI	7.4 GB	Funciona	~31 tok/s
Gemma 4 12BGoogle	7.3 GB	Funciona	~32 tok/s
Mellum 2 12B-A2.5BJetBrains	7.3 GB	Funciona	~153 tok/s
Qwen 3.5 9BAlibaba	5.5 GB	Funciona	~42 tok/s
GLM-4.6V-FlashZ.ai	5.5 GB	Funciona	~42 tok/s
Qwen 2.5 VL 7BAlibaba	5.0 GB	Funciona	~46 tok/s
Qwen 3 8BAlibaba	5.0 GB	Funciona	~47 tok/s
Granite 3.3 8BIBM	5.0 GB	Funciona	~47 tok/s
Llama 3.1 8BMeta	4.9 GB	Funciona	~48 tok/s
DeepSeek R1 8BDeepSeek	4.9 GB	Funciona	~48 tok/s
Gemma 4 E4BGoogle	4.9 GB	Funciona	~85 tok/s
Qwen3-VL 8BAlibaba	4.9 GB	Funciona	~48 tok/s
Ministral 3 8BMistral AI	4.9 GB	Funciona	~48 tok/s
Gemma 3n E4BGoogle	4.7 GB	Funciona	~95 tok/s
Qwen 2.5 Coder 7BAlibaba	4.6 GB	Funciona	~50 tok/s
DeepSeek R1 7BDeepSeek	4.6 GB	Funciona	~50 tok/s
Mistral 7BMistral AI	4.4 GB	Funciona	~53 tok/s
Gemma 4 E2BGoogle	3.1 GB	Funciona	~166 tok/s
Gemma 3 4BGoogle	2.6 GB	Funciona	~89 tok/s
Qwen 3 4BAlibaba	2.4 GB	Funciona	~95 tok/s
Qwen 3.5 4BAlibaba	2.4 GB	Funciona	~95 tok/s
Phi-4 Mini 3.8BMicrosoft	2.3 GB	Funciona	~100 tok/s
Llama 3.2 3BMeta	1.9 GB	Funciona	~119 tok/s
DeepSeek-OCRDeepSeek	1.8 GB	Funciona	~669 tok/s
Ministral 3 3BMistral AI	1.8 GB	Funciona	~127 tok/s
DeepSeek R1 1.5BDeepSeek	1.1 GB	Funciona	~212 tok/s
Qwen 3 1.7BAlibaba	1.0 GB	Funciona	~224 tok/s
SmolLM2 1.7BHugging Face	1.0 GB	Funciona	~224 tok/s
Llama 3.2 1BMeta	0.7 GB	Funciona	~318 tok/s
Gemma 3 1BGoogle	0.6 GB	Funciona	~381 tok/s
Qwen 3 0.6BAlibaba	0.4 GB	Funciona	~636 tok/s

Para ejecutarse por completo en la GPU, la build de 4 bits debe caber en la VRAM. Los modelos que no caben aún pueden funcionar en CPU + RAM del sistema, varias veces más lento. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →