كم أحتاج من RAM لتشغيل Gemma 4 31B؟

نحو 32 GB من ذاكرة النظام الإجمالية للنسخة الموصى بها بدقة 4 بت (Q4_K_M)، وهي تنزيل بحجم 18.6 GB. كلما زادت RAM أمكنك استخدام تكميم أعلى جودة أو سياق أطول.

هل يعمل Gemma 4 31B دون GPU مخصص؟

نعم — أدوات مثل Ollama وllama.cpp تشغّله على CPU ما دام يتسع في RAM. وجود GPU أو Apple Silicon يجعل التوليد أسرع بعدة مرات، لكنه اختياري.

أي تكميم من Gemma 4 31B ينبغي أن أنزّله؟

Q4_K_M هو الخيار الأمثل لمعظم المستخدمين — أصغر بنحو 4 أضعاف من الأصل مع خسارة طفيفة في الجودة. اختر Q5 أو Q8 إن كانت لديك RAM وافرة، وQ2 فقط عندما لا يتسع غيره.

هل يمكنني إجراء الضبط الدقيق (fine-tuning) لـ Gemma 4 31B على جهازي؟

يتطلب الضبط الدقيق ذاكرة أكبر بكثير من الاستدلال. يحتاج الضبط الدقيق الكامل لـ Gemma 4 31B إلى نحو 368 GB من ذاكرة GPU، بينما تخفّضه QLoRA إلى نحو 46 GB. لمعظم المستخدمين، يبقى QLoRA على GPU مستأجر هو الخيار العملي.

هل نموذج أكبر بدقة Q2/Q3 أفضل من نموذج أصغر بدقة Q4/Q5؟

غالباً لا. فدون Q3 تتدهور الجودة بشكل حاد — والنموذج الأصغر بدقة Q4_K_M يتفوق عادةً على نموذج أكبر مضغوط إلى Q2. لا تنزل دون Q4 إلا عندما لا يتسع أي خيار آخر في ذاكرتك.

← جميع النماذجفحص النموذج

هل يمكنني تشغيل Gemma 4 31B؟

يحتاج Gemma 4 31B من Google إلى نحو 32 GB من RAM عند التكميم الموصى به بدقة 4 بت (تنزيل بحجم 18.6 GB). نفحص عتاد جهازك أدناه — فوراً، ولا شيء يغادر متصفحك. توقّع نحو ~19 tok/s على Apple M-series Max.

نقرأ مؤشرات عتاد جهازك…

ملاحظات من الواقع

Gemma 4 31B هو نموذج Google متوسط-كبير مفتوح الأوزان بحجم 30.7B معامل، مبني للدردشة والبرمجة والاستدلال والرؤية في حزمة واحدة. هذا ليس نموذجًا تشغّله على حاسوب محمول وتمضي؛ فبكمّنة 4-bit يزن نحو 18.6 GB، وتحتاج إلى 32 GB من RAM على الأقل لمجرد تحميله، ولهذا فإن بطاقة بسعة 12 GB مثل RTX 3060 لا تتسع له ببساطة. موطنه الواقعي هو بطاقة GPU بسعة 24 GB مثل RTX 4090، أو حاسوب Apple Silicon Mac بذاكرة موحّدة وفيرة. إن أردت نموذجًا شاملاً قادرًا وتملك العتاد المناسب، فهذه هي الفئة التي تبدأ عندها النماذج المحلية في الشعور بأنها مفيدة فعلاً.

في الاستخدام اليومي يكون مريحًا أكثر منه خاطفًا. على RTX 4090 يمكنك توقّع نحو 46 tok/s عند 4-bit، وهي سرعة كافية لتقرأ معه أثناء بثّ النص؛ وعلى Apple M Max يستقر أقرب إلى 19 tok/s، وهو ما يظل جيدًا للعمل التفاعلي. أما على CPU وحده فوق DDR5 فينخفض إلى نحو 3 tok/s، وهي منطقة لا تصلح إلا لمن يملك صبرًا. نافذة السياق 256K سخيّة لكنها مكلفة: مجرد الاقتراب من 128K يستهلك بالفعل نحو 49.3 GB من إجمالي الذاكرة، لذا عامِل النافذة الكاملة كسقف واحرص على إبقاء سياق العمل متواضعًا ما لم يكن لديك فائض يتسع لذلك.

أمام Qwen 3 30B-A3B، وهو شقيق شبه مطابق بحجم 30.5B، تكون المقايضة معمارية: تصميم mixture-of-experts في Qwen يميل إلى استهلاك أخفّ لكل توكن، بينما Gemma 4 31B نموذج كثيف (dense) يستخدم كامل وزنه في كل تمريرة ويبدو عمومًا أكثر ثباتًا في الرؤية واتّباع التعليمات الواسعة. وإن أردت شيئًا أصغر بكثير، فإن Gemma 3 4B هو الخيار الأخفّ. الميزة البارزة هنا هي الشمول: نموذج واحد يغطّي الدردشة والبرمجة والاستدلال والصور، وذلك تحت رخصة Apache 2.0 نظيفة يمكنك استخدامها تجاريًا وفي الإنتاج دون قيود خاصة بمزوّد معيّن.

المواصفات

المعاملات30.7B

نافذة السياق256K رمز

المطوِّرGoogle

الرخصةApache 2.0

تاريخ الإصدار2026-04

الأفضل فيمحادثة, برمجة, استدلال, رؤية

الحجم حسب التكميم

التكميم	بت/وزن	حجم التنزيل	الحد الأدنى من RAM	الجودة
Q2_K	3.35	12.9 GB	24 GB	فقدان ملحوظ
Q4_K_Mموصى به	4.85	18.6 GB	32 GB	موصى به
Q5_K_M	5.65	21.7 GB	32 GB	عالية
Q8_0	8.5	32.6 GB	48 GB	شبه أصلية
F16	16	61.4 GB	96 GB	أصلية

الأحجام تقديرات محسوبة من عدد المعاملات × عدد البتات لكل وزن؛ وتختلف نسخ GGUF الفعلية قليلاً. · آخر تحديث للبيانات: 2026-06-11 · كيف نحسب هذه الأرقام →

الذاكرة المطلوبة حسب طول السياق

السياق	ذاكرة KV cache (تقديرياً)	إجمالي الذاكرة (Q4)
4K رمز	~1.0 GB	~19.6 GB
8K رمز	~1.9 GB	~20.5 GB
32K رمز	~7.7 GB	~26.3 GB
128K رمز	~30.7 GB	~49.3 GB

تنمو ذاكرة KV cache مع طول السياق — فالنموذج الذي يتسع عند 4K قد تنفد ذاكرته عند 32K. التقديرات تفترض ذاكرة تخزين بدقة FP16 مع grouped-query attention؛ ويختلف الاستهلاك الفعلي حسب بيئة التشغيل.

السرعة التقديرية حسب العتاد

العتاد	عرض النطاق	السرعة التقريبية
NVIDIA RTX 3060 12GB	360 GB/s	لا يتسع في VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~46 tok/s
Apple M-series (base)	100 GB/s	~5 tok/s
Apple M-series Pro	270 GB/s	~12 tok/s
Apple M-series Max	410 GB/s	~19 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~3 tok/s