كم أحتاج من RAM لتشغيل Mellum 2 12B-A2.5B؟

نحو 12 GB من ذاكرة النظام الإجمالية للنسخة الموصى بها بدقة 4 بت (Q4_K_M)، وهي تنزيل بحجم 7.3 GB. كلما زادت RAM أمكنك استخدام تكميم أعلى جودة أو سياق أطول.

هل يعمل Mellum 2 12B-A2.5B دون GPU مخصص؟

نعم — أدوات مثل Ollama وllama.cpp تشغّله على CPU ما دام يتسع في RAM. وجود GPU أو Apple Silicon يجعل التوليد أسرع بعدة مرات، لكنه اختياري.

أي تكميم من Mellum 2 12B-A2.5B ينبغي أن أنزّله؟

Q4_K_M هو الخيار الأمثل لمعظم المستخدمين — أصغر بنحو 4 أضعاف من الأصل مع خسارة طفيفة في الجودة. اختر Q5 أو Q8 إن كانت لديك RAM وافرة، وQ2 فقط عندما لا يتسع غيره.

هل يمكنني إجراء الضبط الدقيق (fine-tuning) لـ Mellum 2 12B-A2.5B على جهازي؟

يتطلب الضبط الدقيق ذاكرة أكبر بكثير من الاستدلال. يحتاج الضبط الدقيق الكامل لـ Mellum 2 12B-A2.5B إلى نحو 144 GB من ذاكرة GPU، بينما تخفّضه QLoRA إلى نحو 18 GB. لمعظم المستخدمين، يبقى QLoRA على GPU مستأجر هو الخيار العملي.

هل نموذج أكبر بدقة Q2/Q3 أفضل من نموذج أصغر بدقة Q4/Q5؟

غالباً لا. فدون Q3 تتدهور الجودة بشكل حاد — والنموذج الأصغر بدقة Q4_K_M يتفوق عادةً على نموذج أكبر مضغوط إلى Q2. لا تنزل دون Q4 إلا عندما لا يتسع أي خيار آخر في ذاكرتك.

← جميع النماذجفحص النموذج

هل يمكنني تشغيل Mellum 2 12B-A2.5B؟

يحتاج Mellum 2 12B-A2.5B من JetBrains إلى نحو 12 GB من RAM عند التكميم الموصى به بدقة 4 بت (تنزيل بحجم 7.3 GB). نفحص عتاد جهازك أدناه — فوراً، ولا شيء يغادر متصفحك. توقّع نحو ~202 tok/s على NVIDIA RTX 3060 12GB.

نقرأ مؤشرات عتاد جهازك…

ملاحظات من الواقع

Mellum 2 هو نموذج JetBrains المتخصص في البرمجة، وقد بُني بأسلوب mixture-of-experts: 12B معاملاً إجمالاً لكن نحو 2.5B فقط نشطة لكل token. هذا هو جوهر التصميم بالضبط. تحصل على سرعة نموذج بحجم 2-3B تقريباً، لكنك تبقي الـ 12B كاملة في الذاكرة، فلا تنخدع بعدد المعاملات النشطة. عند تكميم 4-bit يصل حجمه إلى نحو 7.3 GB، مع حدّ أدنى عملي يقارب 12 GB من الـ RAM. هذا يناسب بطاقة بسعة 12 GB مثل RTX 3060 أو الذاكرة الموحّدة في أجهزة Mac بمعالج Apple Silicon، لكن 8 GB ضيّقة جداً. إن كنت تعيش داخل بيئات JetBrains وتريد إكمال كود محلياً، فهو مصمّم لك تماماً.

في الاستخدام اليومي يؤتي تصميم MoE ثماره: يبدو أسرع بكثير مما يوحي به حجمه. على RTX 3060 12GB يمكنك توقّع نحو 202 token في الثانية عند 4-bit، بينما تتجاوز RTX 4090 حاجز 565 — وهو نطاق تصل فيه الإكمالات قبل أن تنتهي من كتابة السطر التالي. سياق 128K كبير فعلاً بالنسبة لنموذج برمجة، ومفيد لتلقيمه ملفات كاملة أو رؤوس مستودع بأكمله، لكنه ليس مجانياً. إن ملأته بالكامل ترتفع الذاكرة الإجمالية إلى نحو 27.4 GB، أي أبعد بكثير مما تستوعبه بطاقة واحدة بسعة 12 GB، لذا أبقِ سياق العمل معتدلاً ما لم تملك بطاقة GPU بسعة 24 GB أو ذاكرة موحّدة سخيّة.

من الإنصاف توضيح النطاق: هذا متخصص في البرمجة، وليس مساعداً عاماً. للدردشة أو الاستدلال أو أي شيء يتعلق بالصور، يخدمك عادةً نموذج 12B أوسع مثل Gemma 4 12B بشكل أفضل، ويميل Mistral Nemo 12B لأن يكون الخيار الألطف للمحادثات المفتوحة. ميزة Mellum 2 البارزة هي نسبة السرعة إلى الحجم التي يوفّرها أسلوب MoE في مهام الإكمال، مقترنةً بتكامل من الدرجة الأولى مع بيئة التطوير من الجهة نفسها التي تصنع محرّرك. أما الرخصة فهي الجزء السهل: Apache 2.0، فيمكنك استخدامه تجارياً وفي بيئة الإنتاج دون قلق قانوني. إن كان عملك الأساسي هو الكود ولديك بطاقة بسعة 12 GB، فهو خيار محلي قوي وسريع.

المواصفات

المعاملات12B (2.5B نشطة)

نافذة السياق128K رمز

المطوِّرJetBrains

الرخصةApache 2.0

تاريخ الإصدار2026-06

الأفضل فيبرمجة

الحجم حسب التكميم

التكميم	بت/وزن	حجم التنزيل	الحد الأدنى من RAM	الجودة
Q2_K	3.35	5.0 GB	8 GB	فقدان ملحوظ
Q4_K_Mموصى به	4.85	7.3 GB	12 GB	موصى به
Q5_K_M	5.65	8.5 GB	16 GB	عالية
Q8_0	8.5	12.8 GB	24 GB	شبه أصلية
F16	16	24.0 GB	32 GB	أصلية

الأحجام تقديرات محسوبة من عدد المعاملات × عدد البتات لكل وزن؛ وتختلف نسخ GGUF الفعلية قليلاً. · آخر تحديث للبيانات: 2026-06-11 · كيف نحسب هذه الأرقام →

الذاكرة المطلوبة حسب طول السياق

السياق	ذاكرة KV cache (تقديرياً)	إجمالي الذاكرة (Q4)
4K رمز	~0.6 GB	~7.9 GB
8K رمز	~1.3 GB	~8.6 GB
32K رمز	~5.0 GB	~12.3 GB
128K رمز	~20.1 GB	~27.4 GB

تنمو ذاكرة KV cache مع طول السياق — فالنموذج الذي يتسع عند 4K قد تنفد ذاكرته عند 32K. التقديرات تفترض ذاكرة تخزين بدقة FP16 مع grouped-query attention؛ ويختلف الاستهلاك الفعلي حسب بيئة التشغيل.

السرعة التقديرية حسب العتاد

العتاد	عرض النطاق	السرعة التقريبية
NVIDIA RTX 3060 12GB	360 GB/s	~202 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~565 tok/s
Apple M-series (base)	100 GB/s	~56 tok/s
Apple M-series Pro	270 GB/s	~151 tok/s
Apple M-series Max	410 GB/s	~230 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~34 tok/s