كم أحتاج من RAM لتشغيل Qwen 3.5 122B-A10B؟

نحو 96 GB من ذاكرة النظام الإجمالية للنسخة الموصى بها بدقة 4 بت (Q4_K_M)، وهي تنزيل بحجم 74.0 GB. كلما زادت RAM أمكنك استخدام تكميم أعلى جودة أو سياق أطول.

هل يعمل Qwen 3.5 122B-A10B دون GPU مخصص؟

نعم — أدوات مثل Ollama وllama.cpp تشغّله على CPU ما دام يتسع في RAM. وجود GPU أو Apple Silicon يجعل التوليد أسرع بعدة مرات، لكنه اختياري.

أي تكميم من Qwen 3.5 122B-A10B ينبغي أن أنزّله؟

Q4_K_M هو الخيار الأمثل لمعظم المستخدمين — أصغر بنحو 4 أضعاف من الأصل مع خسارة طفيفة في الجودة. اختر Q5 أو Q8 إن كانت لديك RAM وافرة، وQ2 فقط عندما لا يتسع غيره.

هل يمكنني إجراء الضبط الدقيق (fine-tuning) لـ Qwen 3.5 122B-A10B على جهازي؟

يتطلب الضبط الدقيق ذاكرة أكبر بكثير من الاستدلال. يحتاج الضبط الدقيق الكامل لـ Qwen 3.5 122B-A10B إلى نحو 1464 GB من ذاكرة GPU، بينما تخفّضه QLoRA إلى نحو 183 GB. لمعظم المستخدمين، يبقى QLoRA على GPU مستأجر هو الخيار العملي.

هل نموذج أكبر بدقة Q2/Q3 أفضل من نموذج أصغر بدقة Q4/Q5؟

غالباً لا. فدون Q3 تتدهور الجودة بشكل حاد — والنموذج الأصغر بدقة Q4_K_M يتفوق عادةً على نموذج أكبر مضغوط إلى Q2. لا تنزل دون Q4 إلا عندما لا يتسع أي خيار آخر في ذاكرتك.

← جميع النماذجفحص النموذج

هل يمكنني تشغيل Qwen 3.5 122B-A10B؟

يحتاج Qwen 3.5 122B-A10B من Alibaba إلى نحو 96 GB من RAM عند التكميم الموصى به بدقة 4 بت (تنزيل بحجم 74.0 GB). نفحص عتاد جهازك أدناه — فوراً، ولا شيء يغادر متصفحك. توقّع نحو ~57 tok/s على Apple M-series Max.

نقرأ مؤشرات عتاد جهازك…

ملاحظات من الواقع

Qwen 3.5 122B-A10B هو نموذج ضخم من نوع mixture-of-experts (MoE) لمن يريد تشغيل محادثة وتفكير منطقي وبرمجة وفهم بصري بمستوى الطليعة على عتاده الخاص. تصميم MoE هو جوهر الأمر: من بين 122B معامل إجمالي، يُفعَّل 10B فقط لكل token، لذا يولّد النص أسرع بكثير مما يحققه نموذج كثيف (dense) بهذا الحجم. المشكلة الحقيقية هي الذاكرة، لأنك ما زلت بحاجة لإبقاء النموذج كاملًا محمَّلًا. بتكميم 4-bit يبلغ ذلك نحو 74 GB، وتحتاج إلى ما يقارب 96 GB من RAM لمجرد تحميله. عمليًا يعني هذا محطة عمل عالية الذاكرة أو جهاز Apple Silicon Mac بذاكرة موحَّدة وافرة؛ فهو لا يتسع في RTX 4090 بسعة 24 GB، ولا يقترب إطلاقًا من بطاقة بسعة 12 GB.

حيثما يتسع، يبدو سريعًا بشكل مفاجئ بالنسبة لحجمه بفضل تلك المعاملات الـ 10B النشطة. على جهاز M Max يمكنك توقّع نحو 57 tok/s، وهي سرعة كافية لقراءة النص مريحًا أثناء تدفّقه. على جهاز DDR5 يعمل بالمعالج وحده تنخفض السرعة إلى نحو 8 tok/s تقريبًا، مما يجعله أنسب للمهام المجمَّعة (batch) منه للمحادثة الحيّة. نافذة السياق تصل حتى 256K، لكن اعتبرها سقفًا. الذاكرة تنمو مع ما تملؤه فعليًا، وعند سياق 128K يرتفع إجمالي البصمة إلى نحو 131 GB؛ أي أن أرقام السياق الطويل تفترض جهازًا مُجهَّزًا خصيصًا لذلك.

بالمقارنة مع Devstral 2 123B الذي يقف عند عدد معاملات شبه مطابق، يقايض Qwen 3.5 التركيز المحض على البرمجة باتساع القدرات: فبدلًا من التخصص في نموذج واحد، يقدّم المحادثة والتفكير المنطقي والفهم البصري معًا. هذا التنوّع هو ميزته البارزة؛ أما حين تحتاج فقط إلى محادثة خفيفة على عتاد متواضع، فإن شقيقيه الأصغر Qwen 3 0.6B و1.7B يبقيان خيارًا منطقيًا. رخصته Apache 2.0، لذا يمكنك استخدامه تجاريًا وفي الإنتاج دون قيود؛ وهذا أمر نادر عند هذا المستوى من القدرة، وسبب وجيه فعلًا لاختياره بدلًا من أوزان أكثر تقييدًا.

المواصفات

المعاملات122B (10B نشطة)

نافذة السياق256K رمز

المطوِّرAlibaba

الرخصةApache 2.0

تاريخ الإصدار2026-02

الأفضل فيمحادثة, استدلال, برمجة, رؤية

الحجم حسب التكميم

التكميم	بت/وزن	حجم التنزيل	الحد الأدنى من RAM	الجودة
Q2_K	3.35	51.1 GB	96 GB	فقدان ملحوظ
Q4_K_Mموصى به	4.85	74.0 GB	96 GB	موصى به
Q5_K_M	5.65	86.2 GB	128 GB	عالية
Q8_0	8.5	129.6 GB	192 GB	شبه أصلية
F16	16	244.0 GB	256 GB	أصلية

الأحجام تقديرات محسوبة من عدد المعاملات × عدد البتات لكل وزن؛ وتختلف نسخ GGUF الفعلية قليلاً. · آخر تحديث للبيانات: 2026-06-11 · كيف نحسب هذه الأرقام →

الذاكرة المطلوبة حسب طول السياق

السياق	ذاكرة KV cache (تقديرياً)	إجمالي الذاكرة (Q4)
4K رمز	~1.8 GB	~75.8 GB
8K رمز	~3.6 GB	~77.6 GB
32K رمز	~14.3 GB	~88.3 GB
128K رمز	~57.2 GB	~131.2 GB

تنمو ذاكرة KV cache مع طول السياق — فالنموذج الذي يتسع عند 4K قد تنفد ذاكرته عند 32K. التقديرات تفترض ذاكرة تخزين بدقة FP16 مع grouped-query attention؛ ويختلف الاستهلاك الفعلي حسب بيئة التشغيل.

السرعة التقديرية حسب العتاد

العتاد	عرض النطاق	السرعة التقريبية
NVIDIA RTX 3060 12GB	360 GB/s	لا يتسع في VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	لا يتسع في VRAM
Apple M-series (base)	100 GB/s	~14 tok/s
Apple M-series Pro	270 GB/s	~38 tok/s
Apple M-series Max	410 GB/s	~57 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~8 tok/s