Question 1

Was ist das beste lokale LLM für 16 GB RAM?

Accepted Answer

Phi-4 Reasoning Vision 15B ist das stärkste Allround-Modell, das bequem in 16 GB läuft — ein 9.1 GB großer Download bei der empfohlenen 4-Bit-Quantisierung. Zum Programmieren ist Gemma 4 12B die Top-Empfehlung.

Question 2

Wie viele LLMs kann ein Rechner mit 16 GB ausführen?

Accepted Answer

38 der 73 Open-Weight-Modelle in unserem Katalog laufen bequem mit 16 GB Gesamtspeicher bei 4-Bit-Quantisierung — mit genügend Reserve für Betriebssystem und KV-Cache.

Question 3

Kann ich ein größeres Modell in 16 GB quetschen?

Accepted Answer

Manchmal — mit einer 2–3-Bit-Quantisierung passt unter Umständen ein größeres Modell, doch unterhalb von Q3 bricht die Qualität deutlich ein. Ein kleineres Modell mit Q4_K_M schlägt in der Regel ein größeres, das in Q2 gequetscht wurde.

Question 4

Ändern sich diese Zahlen, wenn ich eine GPU habe?

Accepted Answer

Ob ein Modell passt, entscheidet der Speicher, nicht die Rechenleistung. Auf einem PC muss das Modell in den VRAM passen, um vollständig auf der GPU zu laufen; andernfalls läuft es aus dem System-RAM auf der CPU, nur langsamer. Auf Apple Silicon sind RAM und VRAM derselbe gemeinsame Speicherpool.

Question 5

Woher wissen Sie, was in 16 GB passt?

Accepted Answer

Wir schätzen die 4-Bit-Download-Größe aus der Parameterzahl (Parameter × 4,85 ÷ 8), addieren 25 % Laufzeit-Overhead plus 1,5 GB für das Betriebssystem und runden auf eine Standard-Speichergröße auf. Alle Formeln finden Sie auf unserer Methodik-Seite.

Modell	Parameter	Download (Q4)	Min. RAM	Am besten für
Phi-4 Reasoning Vision 15BMicrosoft	15B	9.1 GB	16 GB	Bilderkennung, Logisches Denken
Qwen 3 14BAlibaba	14.8B	9.0 GB	16 GB	Chat, Logisches Denken
DeepSeek R1 14BDeepSeek	14.8B	9.0 GB	16 GB	Logisches Denken
Phi-4 14BMicrosoft	14.7B	8.9 GB	16 GB	Chat, Logisches Denken
Ministral 3 14BMistral AI	14B	8.5 GB	16 GB	Chat, Bilderkennung
OLMo 2 13BAi2	13.7B	8.3 GB	12 GB	Chat
Gemma 3 12BGoogle	12.2B	7.4 GB	12 GB	Chat, Bilderkennung
Mistral Nemo 12BMistral AI	12.2B	7.4 GB	12 GB	Chat
Gemma 4 12BGoogle	12B	7.3 GB	12 GB	Chat, Programmieren, Logisches Denken, Bilderkennung
Mellum 2 12B-A2.5BJetBrains	12B (A2.5B)	7.3 GB	12 GB	Programmieren
Qwen 3.5 9BAlibaba	9B	5.5 GB	12 GB	Chat, Logisches Denken, Bilderkennung
GLM-4.6V-FlashZ.ai	9B	5.5 GB	12 GB	Bilderkennung, Chat
Qwen 2.5 VL 7BAlibaba	8.3B	5.0 GB	8 GB	Bilderkennung, Chat
Qwen 3 8BAlibaba	8.2B	5.0 GB	8 GB	Chat, Logisches Denken
Granite 3.3 8BIBM	8.2B	5.0 GB	8 GB	Chat
Llama 3.1 8BMeta	8B	4.9 GB	8 GB	Chat
DeepSeek R1 8BDeepSeek	8B	4.9 GB	8 GB	Logisches Denken
Gemma 4 E4BGoogle	8B (A4.5B)	4.9 GB	8 GB	Chat, Bilderkennung
Qwen3-VL 8BAlibaba	8B	4.9 GB	8 GB	Bilderkennung, Chat
Ministral 3 8BMistral AI	8B	4.9 GB	8 GB	Chat, Bilderkennung
Gemma 3n E4BGoogle	7.8B (A4B)	4.7 GB	8 GB	Chat, Bilderkennung
Qwen 2.5 Coder 7BAlibaba	7.6B	4.6 GB	8 GB	Programmieren
DeepSeek R1 7BDeepSeek	7.6B	4.6 GB	8 GB	Logisches Denken
Mistral 7BMistral AI	7.2B	4.4 GB	8 GB	Chat
Gemma 4 E2BGoogle	5.1B (A2.3B)	3.1 GB	6 GB	Chat, Bilderkennung
Gemma 3 4BGoogle	4.3B	2.6 GB	6 GB	Chat, Bilderkennung
Qwen 3 4BAlibaba	4B	2.4 GB	6 GB	Chat, Logisches Denken
Qwen 3.5 4BAlibaba	4B	2.4 GB	6 GB	Chat, Bilderkennung
Phi-4 Mini 3.8BMicrosoft	3.8B	2.3 GB	6 GB	Chat
Llama 3.2 3BMeta	3.2B	1.9 GB	4 GB	Chat
DeepSeek-OCRDeepSeek	3B (A0.57B)	1.8 GB	4 GB	Bilderkennung
Ministral 3 3BMistral AI	3B	1.8 GB	4 GB	Chat, Bilderkennung
DeepSeek R1 1.5BDeepSeek	1.8B	1.1 GB	3 GB	Logisches Denken
Qwen 3 1.7BAlibaba	1.7B	1.0 GB	3 GB	Chat
SmolLM2 1.7BHugging Face	1.7B	1.0 GB	3 GB	Chat
Llama 3.2 1BMeta	1.2B	0.7 GB	3 GB	Chat
Gemma 3 1BGoogle	1B	0.6 GB	3 GB	Chat
Qwen 3 0.6BAlibaba	0.6B	0.4 GB	2 GB	Chat

Beste lokale LLMs für 16 GB RAM

Häufig gestellte Fragen