كم أحتاج من RAM لتشغيل Gemma 4 E2B؟

نحو 6 GB من ذاكرة النظام الإجمالية للنسخة الموصى بها بدقة 4 بت (Q4_K_M)، وهي تنزيل بحجم 3.1 GB. كلما زادت RAM أمكنك استخدام تكميم أعلى جودة أو سياق أطول.

هل يعمل Gemma 4 E2B دون GPU مخصص؟

نعم — أدوات مثل Ollama وllama.cpp تشغّله على CPU ما دام يتسع في RAM. وجود GPU أو Apple Silicon يجعل التوليد أسرع بعدة مرات، لكنه اختياري.

أي تكميم من Gemma 4 E2B ينبغي أن أنزّله؟

Q4_K_M هو الخيار الأمثل لمعظم المستخدمين — أصغر بنحو 4 أضعاف من الأصل مع خسارة طفيفة في الجودة. اختر Q5 أو Q8 إن كانت لديك RAM وافرة، وQ2 فقط عندما لا يتسع غيره.

هل يمكنني إجراء الضبط الدقيق (fine-tuning) لـ Gemma 4 E2B على جهازي؟

يتطلب الضبط الدقيق ذاكرة أكبر بكثير من الاستدلال. يحتاج الضبط الدقيق الكامل لـ Gemma 4 E2B إلى نحو 61 GB من ذاكرة GPU، بينما تخفّضه QLoRA إلى نحو 8 GB. لمعظم المستخدمين، يبقى QLoRA على GPU مستأجر هو الخيار العملي.

هل نموذج أكبر بدقة Q2/Q3 أفضل من نموذج أصغر بدقة Q4/Q5؟

غالباً لا. فدون Q3 تتدهور الجودة بشكل حاد — والنموذج الأصغر بدقة Q4_K_M يتفوق عادةً على نموذج أكبر مضغوط إلى Q2. لا تنزل دون Q4 إلا عندما لا يتسع أي خيار آخر في ذاكرتك.

← جميع النماذجفحص النموذج

هل يمكنني تشغيل Gemma 4 E2B؟

يحتاج Gemma 4 E2B من Google إلى نحو 6 GB من RAM عند التكميم الموصى به بدقة 4 بت (تنزيل بحجم 3.1 GB). نفحص عتاد جهازك أدناه — فوراً، ولا شيء يغادر متصفحك. توقّع نحو ~219 tok/s على NVIDIA RTX 3060 12GB.

نقرأ مؤشرات عتاد جهازك…

ملاحظات من الواقع

Gemma 4 E2B هو نموذج Google الصغير القائم على مزيج الخبراء (mixture-of-experts)، والجزء المثير فيه هو الحساب: يحمل 5.1B معامل إجمالاً لكنه يُفعّل نحو 2.3B فقط لكل توكن. هذا يعني أنه يعمل بسرعة نموذج أصغر بكثير بينما لا يزال يحتاج ذاكرة تكفي للمجموعة كاملة. تبلغ نسخة الكمّنة 4-bit نحو 3.1 GB، وستحتاج تقريباً إلى 6 GB من RAM كحد أدنى لاستيعاب كامل الأوزان. هذا يتسع داخل بطاقة GPU مبتدئة بسعة 8 GB أو أي جهاز Mac بمعالج Apple Silicon مع مساحة فائضة، وهو يتعامل مع المحادثة والرؤية معاً، فيمكنك تغذيته بالصور لا بالنص وحده.

في الاستخدام اليومي تؤتي حيلة المعاملات المُفعَّلة ثمارها في الإنتاجية الخام. على بطاقة RTX 3060 12GB يدفع نحو 219 tok/s بدقة 4-bit، وترفع RTX 4090 هذا الرقم إلى ما بعد 600؛ بينما يستقر معالج M-series Max قرب 250. تتدفق الردود أسرع بكثير مما تقرأ. سياق 128K هو المأخذ الذي يجب الانتباه إليه: املأه فترتفع الذاكرة الكلية إلى نحو 16.8 GB، أي أبعد بكثير من 6 GB التي تحتاجها عند سياق قصير. على بطاقة صغيرة، أبقِ سياق العمل عند بضعة آلاف توكن وإلا فإن ذاكرة الـ KV cache ستتجاوز حجم النموذج نفسه.

أمام عائلته نفسها، يُعد Gemma 3 4B البديل الكثيف (dense) إن كنت تفضّل تجنب البصمة الذاكرية لبنية MoE، وعادةً ما يتفوق Qwen 3 4B في الاستدلال متعدد الخطوات لأن ذلك هو تركيزه المُعلن. ما يميز Gemma 4 E2B هو نسبة السرعة إلى القدرة إضافةً إلى الرؤية الأصلية ضمن حزمة بهذا الخفّة، وهو أمر نادر في هذا الحجم. رخصته Apache 2.0، لذا وعلى عكس شروط Gemma الأقدم من Google، يمكنك استخدامه تجارياً في الإنتاج دون رخصة خاصة عليك قراءتها. شغّله عبر ollama run gemma4:e2b وتكون جاهزاً.

المواصفات

المعاملات5.1B (2.3B نشطة)

نافذة السياق128K رمز

المطوِّرGoogle

الرخصةApache 2.0

تاريخ الإصدار2026-04

الأفضل فيمحادثة, رؤية

الحجم حسب التكميم

التكميم	بت/وزن	حجم التنزيل	الحد الأدنى من RAM	الجودة
Q2_K	3.35	2.1 GB	6 GB	فقدان ملحوظ
Q4_K_Mموصى به	4.85	3.1 GB	6 GB	موصى به
Q5_K_M	5.65	3.6 GB	6 GB	عالية
Q8_0	8.5	5.4 GB	12 GB	شبه أصلية
F16	16	10.2 GB	16 GB	أصلية

الأحجام تقديرات محسوبة من عدد المعاملات × عدد البتات لكل وزن؛ وتختلف نسخ GGUF الفعلية قليلاً. · آخر تحديث للبيانات: 2026-06-11 · كيف نحسب هذه الأرقام →

الذاكرة المطلوبة حسب طول السياق

السياق	ذاكرة KV cache (تقديرياً)	إجمالي الذاكرة (Q4)
4K رمز	~0.4 GB	~3.5 GB
8K رمز	~0.9 GB	~4.0 GB
32K رمز	~3.4 GB	~6.5 GB
128K رمز	~13.7 GB	~16.8 GB

تنمو ذاكرة KV cache مع طول السياق — فالنموذج الذي يتسع عند 4K قد تنفد ذاكرته عند 32K. التقديرات تفترض ذاكرة تخزين بدقة FP16 مع grouped-query attention؛ ويختلف الاستهلاك الفعلي حسب بيئة التشغيل.

السرعة التقديرية حسب العتاد

العتاد	عرض النطاق	السرعة التقريبية
NVIDIA RTX 3060 12GB	360 GB/s	~219 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~614 tok/s
Apple M-series (base)	100 GB/s	~61 tok/s
Apple M-series Pro	270 GB/s	~165 tok/s
Apple M-series Max	410 GB/s	~250 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~37 tok/s