¿Puede una NVIDIA RTX 3060 ejecutar Llama 3.1 8B?

Sí — la build de 4 bits es una descarga de 4.9 GB y cabe en 12 GB de VRAM. Espera aproximadamente ~63 tok/s.

¿Cuál es el LLM más grande que puede ejecutar una NVIDIA RTX 3060?

Phi-4 Reasoning Vision 15B es el modelo más grande de nuestro catálogo que cabe (9.1 GB a 4 bits). Espera unos ~34 tok/s.

¿Qué tan rápida es la NVIDIA RTX 3060 para LLM locales?

La generación de tokens está limitada por el ancho de banda de memoria. A aproximadamente 360 GB/s, la NVIDIA RTX 3060 genera unos ~63 tok/s con un modelo de clase 8B a 4 bits — la velocidad escala de forma inversa al tamaño del modelo.

¿Tiene que caber todo el modelo en la VRAM?

Para la velocidad máxima de la GPU, sí. Runtimes como llama.cpp pueden repartir capas entre la VRAM y la RAM del sistema, pero cada capa que se desborda a la RAM ralentiza mucho la generación.

← Todos los modelosCOMPROBACIÓN DE DISPOSITIVO

¿Qué LLM puede ejecutar una NVIDIA RTX 3060?

La NVIDIA RTX 3060 tiene 12 GB de VRAM y aproximadamente 360 GB/s de ancho de banda de memoria. Abajo tienes todos los modelos de nuestro catálogo que caben, con la velocidad de generación estimada. El más grande que cabe: Phi-4 Reasoning Vision 15B a ~34 tok/s.

Especificaciones

Memoria12 GB de VRAM

Ancho de banda~360 GB/s

Tipo de memoriaVRAM dedicada

Lanzamiento2021-02

Modelos en la NVIDIA RTX 3060

38 / 73 modelos

Modelo	Descarga (Q4)	¿Cabe?	~Velocidad
Phi-4 Reasoning Vision 15BMicrosoft	9.1 GB	Funciona	~34 tok/s
Qwen 3 14BAlibaba	9.0 GB	Funciona	~34 tok/s
DeepSeek R1 14BDeepSeek	9.0 GB	Funciona	~34 tok/s
Phi-4 14BMicrosoft	8.9 GB	Funciona	~34 tok/s
Ministral 3 14BMistral AI	8.5 GB	Funciona	~36 tok/s
OLMo 2 13BAi2	8.3 GB	Funciona	~37 tok/s
Gemma 3 12BGoogle	7.4 GB	Funciona	~41 tok/s
Mistral Nemo 12BMistral AI	7.4 GB	Funciona	~41 tok/s
Gemma 4 12BGoogle	7.3 GB	Funciona	~42 tok/s
Mellum 2 12B-A2.5BJetBrains	7.3 GB	Funciona	~202 tok/s
Qwen 3.5 9BAlibaba	5.5 GB	Funciona	~56 tok/s
GLM-4.6V-FlashZ.ai	5.5 GB	Funciona	~56 tok/s
Qwen 2.5 VL 7BAlibaba	5.0 GB	Funciona	~61 tok/s
Qwen 3 8BAlibaba	5.0 GB	Funciona	~62 tok/s
Granite 3.3 8BIBM	5.0 GB	Funciona	~62 tok/s
Llama 3.1 8BMeta	4.9 GB	Funciona	~63 tok/s
DeepSeek R1 8BDeepSeek	4.9 GB	Funciona	~63 tok/s
Gemma 4 E4BGoogle	4.9 GB	Funciona	~112 tok/s
Qwen3-VL 8BAlibaba	4.9 GB	Funciona	~63 tok/s
Ministral 3 8BMistral AI	4.9 GB	Funciona	~63 tok/s
Gemma 3n E4BGoogle	4.7 GB	Funciona	~126 tok/s
Qwen 2.5 Coder 7BAlibaba	4.6 GB	Funciona	~66 tok/s
DeepSeek R1 7BDeepSeek	4.6 GB	Funciona	~66 tok/s
Mistral 7BMistral AI	4.4 GB	Funciona	~70 tok/s
Gemma 4 E2BGoogle	3.1 GB	Funciona	~219 tok/s
Gemma 3 4BGoogle	2.6 GB	Funciona	~117 tok/s
Qwen 3 4BAlibaba	2.4 GB	Funciona	~126 tok/s
Qwen 3.5 4BAlibaba	2.4 GB	Funciona	~126 tok/s
Phi-4 Mini 3.8BMicrosoft	2.3 GB	Funciona	~133 tok/s
Llama 3.2 3BMeta	1.9 GB	Funciona	~158 tok/s
DeepSeek-OCRDeepSeek	1.8 GB	Funciona	~886 tok/s
Ministral 3 3BMistral AI	1.8 GB	Funciona	~168 tok/s
DeepSeek R1 1.5BDeepSeek	1.1 GB	Funciona	~280 tok/s
Qwen 3 1.7BAlibaba	1.0 GB	Funciona	~297 tok/s
SmolLM2 1.7BHugging Face	1.0 GB	Funciona	~297 tok/s
Llama 3.2 1BMeta	0.7 GB	Funciona	~421 tok/s
Gemma 3 1BGoogle	0.6 GB	Funciona	~505 tok/s
Qwen 3 0.6BAlibaba	0.4 GB	Funciona	~841 tok/s

Para ejecutarse por completo en la GPU, la build de 4 bits debe caber en la VRAM. Los modelos que no caben aún pueden funcionar en CPU + RAM del sistema, varias veces más lento. · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →