كم أحتاج من RAM لتشغيل Gemma 4 26B A4B؟

نحو 24 GB من ذاكرة النظام الإجمالية للنسخة الموصى بها بدقة 4 بت (Q4_K_M)، وهي تنزيل بحجم 15.3 GB. كلما زادت RAM أمكنك استخدام تكميم أعلى جودة أو سياق أطول.

هل يعمل Gemma 4 26B A4B دون GPU مخصص؟

نعم — أدوات مثل Ollama وllama.cpp تشغّله على CPU ما دام يتسع في RAM. وجود GPU أو Apple Silicon يجعل التوليد أسرع بعدة مرات، لكنه اختياري.

أي تكميم من Gemma 4 26B A4B ينبغي أن أنزّله؟

Q4_K_M هو الخيار الأمثل لمعظم المستخدمين — أصغر بنحو 4 أضعاف من الأصل مع خسارة طفيفة في الجودة. اختر Q5 أو Q8 إن كانت لديك RAM وافرة، وQ2 فقط عندما لا يتسع غيره.

هل يمكنني إجراء الضبط الدقيق (fine-tuning) لـ Gemma 4 26B A4B على جهازي؟

يتطلب الضبط الدقيق ذاكرة أكبر بكثير من الاستدلال. يحتاج الضبط الدقيق الكامل لـ Gemma 4 26B A4B إلى نحو 302 GB من ذاكرة GPU، بينما تخفّضه QLoRA إلى نحو 38 GB. لمعظم المستخدمين، يبقى QLoRA على GPU مستأجر هو الخيار العملي.

هل نموذج أكبر بدقة Q2/Q3 أفضل من نموذج أصغر بدقة Q4/Q5؟

غالباً لا. فدون Q3 تتدهور الجودة بشكل حاد — والنموذج الأصغر بدقة Q4_K_M يتفوق عادةً على نموذج أكبر مضغوط إلى Q2. لا تنزل دون Q4 إلا عندما لا يتسع أي خيار آخر في ذاكرتك.

← جميع النماذجفحص النموذج

هل يمكنني تشغيل Gemma 4 26B A4B؟

يحتاج Gemma 4 26B A4B من Google إلى نحو 24 GB من RAM عند التكميم الموصى به بدقة 4 بت (تنزيل بحجم 15.3 GB). نفحص عتاد جهازك أدناه — فوراً، ولا شيء يغادر متصفحك. توقّع نحو ~151 tok/s على Apple M-series Max.

نقرأ مؤشرات عتاد جهازك…

ملاحظات من الواقع

Gemma 4 26B A4B هو نموذج Google من نوع mixture-of-experts (MoE)، والحيلة كامنة في الاسم نفسه: يحمل 25.2B معاملاً إجمالاً لكنه يوجّه 3.8B منها فقط لكل توكن. هذا يعني أنه يولّد النص بسرعة نموذج صغير، غير أنك تحتاج إلى احتواء النموذج كاملاً في الذاكرة. مع تكميم 4-bit يستقر عند نحو 15.3 GB، وتحتاج إلى 24 GB من RAM على الأقل لتحميله بأريحية. وهذا يستبعد تماماً بطاقة بسعة 12 GB مثل RTX 3060؛ فالنموذج ببساطة لا يتسع فيها، ويوجّهك إما إلى GPU بسعة 24 GB أو إلى جهاز Apple Silicon بذاكرة موحّدة وفيرة.

في الاستخدام اليومي يُثبت تصميم MoE جدارته. على بطاقة RTX 4090 يولّد نحو 372 توكن في الثانية، أي تدفق أسرع بكثير من سرعة قراءتك، وشريحة M-series Max لا تزال تعطي قرابة 151 tok/s. أما التشغيل على المعالج وحده مع DDR5 فيهبط إلى نحو 22 tok/s؛ يفي بالغرض للمهام الدفعية لكن ليس للدردشة التفاعلية. نافذة السياق سخية وتبلغ 256K، لكن اعتبرها سقفاً أعلى: عند سياق 128K يرتفع إجمالي بصمة الذاكرة إلى نحو 43.4 GB. لذلك على إعداد بسعة 24 GB ستُبقي سياق العمل معتدلاً ما لم تنزل إلى إصدار q2 الذي يبلغ 10.6 GB.

بالمقارنة مع Mistral Small 3.1 24B، وهو نموذج رؤية كثيف (dense) قريب في الحجم، يبدو Gemma 4 أكثر رشاقة لكل توكن بفضل التوجيه المتفرّق (sparse)، وإن كانت النماذج الكثيفة من هذه الفئة قد تتفوّق في أصعب مهام الاستدلال ذات المرور الواحد. ميزته البارزة هي نسبة السرعة إلى القدرة هذه، إلى جانب دعم حقيقي للرؤية والبرمجة في حزمة واحدة. رخصته Apache 2.0، أي يمكنك استخدامه تجارياً وفي بيئات الإنتاج دون قيود خاصة بالمزوّد؛ وهو أمر نادر في هذا الحجم وميزة قوية تصب في صالح النموذج. يمكنك سحبه عبر ollama باسم gemma4:26b.

المواصفات

المعاملات25.2B (3.8B نشطة)

نافذة السياق256K رمز

المطوِّرGoogle

الرخصةApache 2.0

تاريخ الإصدار2026-04

الأفضل فيمحادثة, برمجة, استدلال, رؤية

الحجم حسب التكميم

التكميم	بت/وزن	حجم التنزيل	الحد الأدنى من RAM	الجودة
Q2_K	3.35	10.6 GB	16 GB	فقدان ملحوظ
Q4_K_Mموصى به	4.85	15.3 GB	24 GB	موصى به
Q5_K_M	5.65	17.8 GB	24 GB	عالية
Q8_0	8.5	26.8 GB	48 GB	شبه أصلية
F16	16	50.4 GB	96 GB	أصلية

الأحجام تقديرات محسوبة من عدد المعاملات × عدد البتات لكل وزن؛ وتختلف نسخ GGUF الفعلية قليلاً. · آخر تحديث للبيانات: 2026-06-11 · كيف نحسب هذه الأرقام →

الذاكرة المطلوبة حسب طول السياق

السياق	ذاكرة KV cache (تقديرياً)	إجمالي الذاكرة (Q4)
4K رمز	~0.9 GB	~16.2 GB
8K رمز	~1.8 GB	~17.1 GB
32K رمز	~7.0 GB	~22.3 GB
128K رمز	~28.1 GB	~43.4 GB

تنمو ذاكرة KV cache مع طول السياق — فالنموذج الذي يتسع عند 4K قد تنفد ذاكرته عند 32K. التقديرات تفترض ذاكرة تخزين بدقة FP16 مع grouped-query attention؛ ويختلف الاستهلاك الفعلي حسب بيئة التشغيل.

السرعة التقديرية حسب العتاد

العتاد	عرض النطاق	السرعة التقريبية
NVIDIA RTX 3060 12GB	360 GB/s	لا يتسع في VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~372 tok/s
Apple M-series (base)	100 GB/s	~37 tok/s
Apple M-series Pro	270 GB/s	~100 tok/s
Apple M-series Max	410 GB/s	~151 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~22 tok/s