¿Puede una Apple M4 ejecutar Llama 3.1 8B?

Sí — la build de 4 bits es una descarga de 4.9 GB y cabe en 16–32 GB de memoria unificada. Espera aproximadamente ~21 tok/s.

¿Cuál es el LLM más grande que puede ejecutar una Apple M4?

Qwen 3.5 35B-A3B es el modelo más grande de nuestro catálogo que cabe (21.2 GB a 4 bits). Espera unos ~56 tok/s.

¿Qué tan rápida es la Apple M4 para LLM locales?

La generación de tokens está limitada por el ancho de banda de memoria. A aproximadamente 120 GB/s, la Apple M4 genera unos ~21 tok/s con un modelo de clase 8B a 4 bits — la velocidad escala de forma inversa al tamaño del modelo.

¿Es buena la memoria unificada de Apple para LLM locales?

Sí — la GPU puede usar casi todo el grupo de memoria, así que un Mac de 32 GB puede con modelos que requerirían una GPU dedicada carísima. El límite de velocidad suele ser el ancho de banda, no la capacidad.

← Todos los modelosCOMPROBACIÓN DE DISPOSITIVO

¿Qué LLM puede ejecutar una Apple M4?

La Apple M4 tiene 16–32 GB de memoria unificada y aproximadamente 120 GB/s de ancho de banda de memoria. Abajo tienes todos los modelos de nuestro catálogo que caben, con la velocidad de generación estimada. El más grande que cabe: Qwen 3.5 35B-A3B a ~56 tok/s.

Especificaciones

Memoria16–32 GB de memoria unificada

Ancho de banda~120 GB/s

Tipo de memoriaMemoria unificada

Lanzamiento2024-05

Modelos en la Apple M4

62 / 73 modelos

Modelo	Descarga (Q4)	16 GB	24 GB	32 GB	~Velocidad
Qwen 3.5 35B-A3BAlibaba	21.2 GB	No cabe	No cabe	Funciona	~56 tok/s
Qwen 3.6 35B-A3BAlibaba	21.2 GB	No cabe	No cabe	Funciona	~56 tok/s
Command R 35BCohere	21.2 GB	No cabe	No cabe	Funciona	~5 tok/s
Qwen3-VL 32BAlibaba	20.0 GB	No cabe	No cabe	Funciona	~5 tok/s
EXAONE 4.5 33BLG AI Research	20.0 GB	No cabe	No cabe	Funciona	~5 tok/s
Qwen 3 32BAlibaba	19.9 GB	No cabe	No cabe	Funciona	~5 tok/s
Qwen 2.5 Coder 32BAlibaba	19.9 GB	No cabe	No cabe	Funciona	~5 tok/s
QwQ 32BAlibaba	19.9 GB	No cabe	No cabe	Funciona	~5 tok/s
DeepSeek R1 32BDeepSeek	19.9 GB	No cabe	No cabe	Funciona	~5 tok/s
Granite 4.0 H SmallIBM	19.4 GB	No cabe	No cabe	Funciona	~19 tok/s
Nemotron 3 Nano 30B-A3BNVIDIA	19.2 GB	No cabe	No cabe	Funciona	~47 tok/s
Gemma 4 31BGoogle	18.6 GB	No cabe	No cabe	Funciona	~5 tok/s
Qwen 3 30B-A3BAlibaba	18.5 GB	No cabe	No cabe	Funciona	~51 tok/s
Qwen3-VL 30B-A3BAlibaba	18.2 GB	No cabe	No cabe	Funciona	~56 tok/s
Gemma 3 27BGoogle	16.6 GB	No cabe	Funciona	Funciona	~6 tok/s
Qwen 3.5 27BAlibaba	16.4 GB	No cabe	Funciona	Funciona	~6 tok/s
Qwen 3.6 27BAlibaba	16.4 GB	No cabe	Funciona	Funciona	~6 tok/s
Gemma 4 26B A4BGoogle	15.3 GB	No cabe	Funciona	Funciona	~44 tok/s
Mistral Small 3.1 24BMistral AI	14.6 GB	No cabe	Funciona	Funciona	~7 tok/s
Devstral 24BMistral AI	14.6 GB	No cabe	Funciona	Funciona	~7 tok/s
Magistral Small 1.2Mistral AI	14.6 GB	No cabe	Funciona	Funciona	~7 tok/s
Devstral Small 2 24BMistral AI	14.6 GB	No cabe	Funciona	Funciona	~7 tok/s
Codestral 22BMistral AI	13.5 GB	No cabe	Funciona	Funciona	~8 tok/s
GPT-OSS 20BOpenAI	12.7 GB	No cabe	Funciona	Funciona	~47 tok/s
Phi-4 Reasoning Vision 15BMicrosoft	9.1 GB	Funciona	Funciona	Funciona	~11 tok/s
Qwen 3 14BAlibaba	9.0 GB	Funciona	Funciona	Funciona	~11 tok/s
DeepSeek R1 14BDeepSeek	9.0 GB	Funciona	Funciona	Funciona	~11 tok/s
Phi-4 14BMicrosoft	8.9 GB	Funciona	Funciona	Funciona	~11 tok/s
Ministral 3 14BMistral AI	8.5 GB	Funciona	Funciona	Funciona	~12 tok/s
OLMo 2 13BAi2	8.3 GB	Funciona	Funciona	Funciona	~12 tok/s
Gemma 3 12BGoogle	7.4 GB	Funciona	Funciona	Funciona	~14 tok/s
Mistral Nemo 12BMistral AI	7.4 GB	Funciona	Funciona	Funciona	~14 tok/s
Gemma 4 12BGoogle	7.3 GB	Funciona	Funciona	Funciona	~14 tok/s
Mellum 2 12B-A2.5BJetBrains	7.3 GB	Funciona	Funciona	Funciona	~67 tok/s
Qwen 3.5 9BAlibaba	5.5 GB	Funciona	Funciona	Funciona	~19 tok/s
GLM-4.6V-FlashZ.ai	5.5 GB	Funciona	Funciona	Funciona	~19 tok/s
Qwen 2.5 VL 7BAlibaba	5.0 GB	Funciona	Funciona	Funciona	~20 tok/s
Qwen 3 8BAlibaba	5.0 GB	Funciona	Funciona	Funciona	~21 tok/s
Granite 3.3 8BIBM	5.0 GB	Funciona	Funciona	Funciona	~21 tok/s
Llama 3.1 8BMeta	4.9 GB	Funciona	Funciona	Funciona	~21 tok/s
DeepSeek R1 8BDeepSeek	4.9 GB	Funciona	Funciona	Funciona	~21 tok/s
Gemma 4 E4BGoogle	4.9 GB	Funciona	Funciona	Funciona	~37 tok/s
Qwen3-VL 8BAlibaba	4.9 GB	Funciona	Funciona	Funciona	~21 tok/s
Ministral 3 8BMistral AI	4.9 GB	Funciona	Funciona	Funciona	~21 tok/s
Gemma 3n E4BGoogle	4.7 GB	Funciona	Funciona	Funciona	~42 tok/s
Qwen 2.5 Coder 7BAlibaba	4.6 GB	Funciona	Funciona	Funciona	~22 tok/s
DeepSeek R1 7BDeepSeek	4.6 GB	Funciona	Funciona	Funciona	~22 tok/s
Mistral 7BMistral AI	4.4 GB	Funciona	Funciona	Funciona	~23 tok/s
Gemma 4 E2BGoogle	3.1 GB	Funciona	Funciona	Funciona	~73 tok/s
Gemma 3 4BGoogle	2.6 GB	Funciona	Funciona	Funciona	~39 tok/s
Qwen 3 4BAlibaba	2.4 GB	Funciona	Funciona	Funciona	~42 tok/s
Qwen 3.5 4BAlibaba	2.4 GB	Funciona	Funciona	Funciona	~42 tok/s
Phi-4 Mini 3.8BMicrosoft	2.3 GB	Funciona	Funciona	Funciona	~44 tok/s
Llama 3.2 3BMeta	1.9 GB	Funciona	Funciona	Funciona	~53 tok/s
DeepSeek-OCRDeepSeek	1.8 GB	Funciona	Funciona	Funciona	~295 tok/s
Ministral 3 3BMistral AI	1.8 GB	Funciona	Funciona	Funciona	~56 tok/s
DeepSeek R1 1.5BDeepSeek	1.1 GB	Funciona	Funciona	Funciona	~93 tok/s
Qwen 3 1.7BAlibaba	1.0 GB	Funciona	Funciona	Funciona	~99 tok/s
SmolLM2 1.7BHugging Face	1.0 GB	Funciona	Funciona	Funciona	~99 tok/s
Llama 3.2 1BMeta	0.7 GB	Funciona	Funciona	Funciona	~140 tok/s
Gemma 3 1BGoogle	0.6 GB	Funciona	Funciona	Funciona	~168 tok/s
Qwen 3 0.6BAlibaba	0.4 GB	Funciona	Funciona	Funciona	~280 tok/s

Apple Silicon comparte un único grupo de memoria entre CPU y GPU, así que casi toda la memoria unificada está disponible para el modelo (menos la sobrecarga del sistema operativo). · Datos actualizados: 2026-06-11 · Cómo calculamos estos números →