Kann eine Apple M3 Llama 3.1 8B ausführen?

Ja — der 4-Bit-Build ist ein 4.9 GB großer Download und passt in 8–24 GB gemeinsamer Speicher. Rechnen Sie mit rund ~18 tok/s.

Was ist das größte LLM, das eine Apple M3 ausführen kann?

Gemma 3 27B ist das größte Modell in unserem Katalog, das passt (16.6 GB bei 4 Bit). Rechnen Sie mit etwa ~5 tok/s.

Wie schnell ist die Apple M3 für lokale LLMs?

Die Token-Generierung ist durch die Speicherbandbreite begrenzt. Mit rund 102 GB/s erzeugt die Apple M3 etwa ~18 tok/s bei einem Modell der 8B-Klasse mit 4 Bit — die Geschwindigkeit sinkt proportional zur Modellgröße.

Ist Apples gemeinsamer Speicher gut für lokale LLMs?

Ja — die GPU kann fast den gesamten Speicherpool nutzen, sodass ein Mac mit 32 GB Modelle fasst, die sonst eine sehr teure dedizierte GPU bräuchten. Limitierend ist meist die Bandbreite, nicht die Kapazität.

← Alle ModelleGERÄTE-CHECK

Welche LLMs schafft eine Apple M3?

Die Apple M3 hat 8–24 GB gemeinsamer Speicher und rund 102 GB/s Speicherbandbreite. Unten steht jedes Modell aus unserem Katalog, das passt — mit geschätzter Generierungsgeschwindigkeit. Größte Empfehlung: Gemma 3 27B mit ~5 tok/s.

Technische Daten

Speicher8–24 GB gemeinsamer Speicher

Bandbreite~102 GB/s

SpeichertypGemeinsamer Speicher

Veröffentlicht2023-10

Modelle auf der Apple M3

48 / 73 Modelle

Modell	Download (Q4)	8 GB	16 GB	24 GB	~Tempo
Gemma 3 27BGoogle	16.6 GB	Passt nicht	Passt nicht	Läuft	~5 tok/s
Qwen 3.5 27BAlibaba	16.4 GB	Passt nicht	Passt nicht	Läuft	~5 tok/s
Qwen 3.6 27BAlibaba	16.4 GB	Passt nicht	Passt nicht	Läuft	~5 tok/s
Gemma 4 26B A4BGoogle	15.3 GB	Passt nicht	Passt nicht	Läuft	~38 tok/s
Mistral Small 3.1 24BMistral AI	14.6 GB	Passt nicht	Passt nicht	Läuft	~6 tok/s
Devstral 24BMistral AI	14.6 GB	Passt nicht	Passt nicht	Läuft	~6 tok/s
Magistral Small 1.2Mistral AI	14.6 GB	Passt nicht	Passt nicht	Läuft	~6 tok/s
Devstral Small 2 24BMistral AI	14.6 GB	Passt nicht	Passt nicht	Läuft	~6 tok/s
Codestral 22BMistral AI	13.5 GB	Passt nicht	Passt nicht	Läuft	~6 tok/s
GPT-OSS 20BOpenAI	12.7 GB	Passt nicht	Passt nicht	Läuft	~40 tok/s
Phi-4 Reasoning Vision 15BMicrosoft	9.1 GB	Passt nicht	Läuft	Läuft	~10 tok/s
Qwen 3 14BAlibaba	9.0 GB	Passt nicht	Läuft	Läuft	~10 tok/s
DeepSeek R1 14BDeepSeek	9.0 GB	Passt nicht	Läuft	Läuft	~10 tok/s
Phi-4 14BMicrosoft	8.9 GB	Passt nicht	Läuft	Läuft	~10 tok/s
Ministral 3 14BMistral AI	8.5 GB	Passt nicht	Läuft	Läuft	~10 tok/s
OLMo 2 13BAi2	8.3 GB	Passt nicht	Läuft	Läuft	~10 tok/s
Gemma 3 12BGoogle	7.4 GB	Passt nicht	Läuft	Läuft	~12 tok/s
Mistral Nemo 12BMistral AI	7.4 GB	Passt nicht	Läuft	Läuft	~12 tok/s
Gemma 4 12BGoogle	7.3 GB	Passt nicht	Läuft	Läuft	~12 tok/s
Mellum 2 12B-A2.5BJetBrains	7.3 GB	Passt nicht	Läuft	Läuft	~57 tok/s
Qwen 3.5 9BAlibaba	5.5 GB	Passt nicht	Läuft	Läuft	~16 tok/s
GLM-4.6V-FlashZ.ai	5.5 GB	Passt nicht	Läuft	Läuft	~16 tok/s
Qwen 2.5 VL 7BAlibaba	5.0 GB	Läuft	Läuft	Läuft	~17 tok/s
Qwen 3 8BAlibaba	5.0 GB	Läuft	Läuft	Läuft	~17 tok/s
Granite 3.3 8BIBM	5.0 GB	Läuft	Läuft	Läuft	~17 tok/s
Llama 3.1 8BMeta	4.9 GB	Läuft	Läuft	Läuft	~18 tok/s
DeepSeek R1 8BDeepSeek	4.9 GB	Läuft	Läuft	Läuft	~18 tok/s
Gemma 4 E4BGoogle	4.9 GB	Läuft	Läuft	Läuft	~32 tok/s
Qwen3-VL 8BAlibaba	4.9 GB	Läuft	Läuft	Läuft	~18 tok/s
Ministral 3 8BMistral AI	4.9 GB	Läuft	Läuft	Läuft	~18 tok/s
Gemma 3n E4BGoogle	4.7 GB	Läuft	Läuft	Läuft	~36 tok/s
Qwen 2.5 Coder 7BAlibaba	4.6 GB	Läuft	Läuft	Läuft	~19 tok/s
DeepSeek R1 7BDeepSeek	4.6 GB	Läuft	Läuft	Läuft	~19 tok/s
Mistral 7BMistral AI	4.4 GB	Läuft	Läuft	Läuft	~20 tok/s
Gemma 4 E2BGoogle	3.1 GB	Läuft	Läuft	Läuft	~62 tok/s
Gemma 3 4BGoogle	2.6 GB	Läuft	Läuft	Läuft	~33 tok/s
Qwen 3 4BAlibaba	2.4 GB	Läuft	Läuft	Läuft	~36 tok/s
Qwen 3.5 4BAlibaba	2.4 GB	Läuft	Läuft	Läuft	~36 tok/s
Phi-4 Mini 3.8BMicrosoft	2.3 GB	Läuft	Läuft	Läuft	~38 tok/s
Llama 3.2 3BMeta	1.9 GB	Läuft	Läuft	Läuft	~45 tok/s
DeepSeek-OCRDeepSeek	1.8 GB	Läuft	Läuft	Läuft	~251 tok/s
Ministral 3 3BMistral AI	1.8 GB	Läuft	Läuft	Läuft	~48 tok/s
DeepSeek R1 1.5BDeepSeek	1.1 GB	Läuft	Läuft	Läuft	~79 tok/s
Qwen 3 1.7BAlibaba	1.0 GB	Läuft	Läuft	Läuft	~84 tok/s
SmolLM2 1.7BHugging Face	1.0 GB	Läuft	Läuft	Läuft	~84 tok/s
Llama 3.2 1BMeta	0.7 GB	Läuft	Läuft	Läuft	~119 tok/s
Gemma 3 1BGoogle	0.6 GB	Läuft	Läuft	Läuft	~143 tok/s
Qwen 3 0.6BAlibaba	0.4 GB	Läuft	Läuft	Läuft	~238 tok/s

Apple Silicon teilt sich einen Speicherpool zwischen CPU und GPU, daher steht dem Modell fast der gesamte Speicher zur Verfügung (abzüglich Betriebssystem-Overhead). · Daten aktualisiert: 2026-06-11 · So berechnen wir diese Zahlen →