كم أحتاج من RAM لتشغيل Qwen3-VL 30B-A3B؟

نحو 32 GB من ذاكرة النظام الإجمالية للنسخة الموصى بها بدقة 4 بت (Q4_K_M)، وهي تنزيل بحجم 18.2 GB. كلما زادت RAM أمكنك استخدام تكميم أعلى جودة أو سياق أطول.

هل يعمل Qwen3-VL 30B-A3B دون GPU مخصص؟

نعم — أدوات مثل Ollama وllama.cpp تشغّله على CPU ما دام يتسع في RAM. وجود GPU أو Apple Silicon يجعل التوليد أسرع بعدة مرات، لكنه اختياري.

أي تكميم من Qwen3-VL 30B-A3B ينبغي أن أنزّله؟

Q4_K_M هو الخيار الأمثل لمعظم المستخدمين — أصغر بنحو 4 أضعاف من الأصل مع خسارة طفيفة في الجودة. اختر Q5 أو Q8 إن كانت لديك RAM وافرة، وQ2 فقط عندما لا يتسع غيره.

هل يمكنني إجراء الضبط الدقيق (fine-tuning) لـ Qwen3-VL 30B-A3B على جهازي؟

يتطلب الضبط الدقيق ذاكرة أكبر بكثير من الاستدلال. يحتاج الضبط الدقيق الكامل لـ Qwen3-VL 30B-A3B إلى نحو 360 GB من ذاكرة GPU، بينما تخفّضه QLoRA إلى نحو 45 GB. لمعظم المستخدمين، يبقى QLoRA على GPU مستأجر هو الخيار العملي.

هل نموذج أكبر بدقة Q2/Q3 أفضل من نموذج أصغر بدقة Q4/Q5؟

غالباً لا. فدون Q3 تتدهور الجودة بشكل حاد — والنموذج الأصغر بدقة Q4_K_M يتفوق عادةً على نموذج أكبر مضغوط إلى Q2. لا تنزل دون Q4 إلا عندما لا يتسع أي خيار آخر في ذاكرتك.

← جميع النماذجفحص النموذج

هل يمكنني تشغيل Qwen3-VL 30B-A3B؟

يحتاج Qwen3-VL 30B-A3B من Alibaba إلى نحو 32 GB من RAM عند التكميم الموصى به بدقة 4 بت (تنزيل بحجم 18.2 GB). نفحص عتاد جهازك أدناه — فوراً، ولا شيء يغادر متصفحك. توقّع نحو ~192 tok/s على Apple M-series Max.

نقرأ مؤشرات عتاد جهازك…

ملاحظات من الواقع

Qwen3-VL 30B-A3B هو نموذج الرؤية القائم على مزيج الخبراء (MoE) من Alibaba، وحيلته الأساسية مذكورة في اسمه: 30B معامل إجمالي لكن 3B فقط نشطة لكل توكِن. هذا يعني أنه يعمل بسرعة نموذج صغير بينما يظل بحاجة إلى ذاكرة تكفي للنموذج كاملاً. بتكميم 4-bit يصل حجمه إلى نحو 18.2 GB، وتحتاج إلى 32 GB من RAM على الأقل لتشغيله براحة. لا يتسع في بطاقة بسعة 12 GB مثل RTX 3060، لكن جهاز Apple Silicon بذاكرة موحدة وفيرة أو معالج رسوميات بسعة 24 GB هو بيئته الطبيعية. صُمِّم لمن يريدون فهم الصور إلى جانب المحادثة والاستدلال محلياً.

في الاستخدام اليومي يؤتي تصميم الـ3B النشطة ثماره: على RTX 4090 يمكنك رؤية نحو 471 tok/s، وحتى Apple M Max يبقى سريعاً عند 192 tok/s تقريباً، وهي سرعة تجعل إجابات الرؤية تبدو فورية. على معالج مركزي مع ذاكرة DDR5 تنخفض إلى نحو 28 tok/s، وهو معدل قابل للاستخدام لكنه لم يعد سريعاً. نافذة السياق 256K هي السقف التسويقي وليست وجبة مجانية؛ فملؤها مكلف: عند سياق 128K يرتفع إجمالي النموذج مع الذاكرة المؤقتة إلى نحو 48.6 GB، لذا خطّط لذاكرتك وفق السياق الذي تستخدمه فعلاً لا وفق الحد الأقصى المذكور في ورقة المواصفات.

بالمقارنة مع Gemma 4 31B، وهو أقرب نموذج مرتبط هنا، يقع الاثنان في نطاق متقارب من حيث الحجم، لكن Gemma 4 نموذج كثيف بحجم 30.7B يُفعِّل كل معامل، لذا يبدو Qwen3-VL أسرع عموماً بالنسبة لبصمته في الذاكرة، بينما يميل Gemma إلى ثبات أكبر في الاستدلال الخالص والبرمجة. السمة المميزة لـ Qwen3-VL هي قدرة الرؤية المدمجة في نموذج بهذه السرعة على العتاد الاستهلاكي، وهو أمر لا يزال غير شائع محلياً. يأتي برخصة Apache 2.0، فيمكنك استخدامه تجارياً وفي الإنتاج دون قيود خاصة بالمزوِّد. اسحبه عبر وسم Ollama المسمى qwen3-vl:30b وابدأ.

المواصفات

المعاملات30B (3B نشطة)

نافذة السياق256K رمز

المطوِّرAlibaba

الرخصةApache 2.0

تاريخ الإصدار2025-10

الأفضل فيرؤية, محادثة, استدلال

الحجم حسب التكميم

التكميم	بت/وزن	حجم التنزيل	الحد الأدنى من RAM	الجودة
Q2_K	3.35	12.6 GB	24 GB	فقدان ملحوظ
Q4_K_Mموصى به	4.85	18.2 GB	32 GB	موصى به
Q5_K_M	5.65	21.2 GB	32 GB	عالية
Q8_0	8.5	31.9 GB	48 GB	شبه أصلية
F16	16	60.0 GB	96 GB	أصلية

الأحجام تقديرات محسوبة من عدد المعاملات × عدد البتات لكل وزن؛ وتختلف نسخ GGUF الفعلية قليلاً. · آخر تحديث للبيانات: 2026-06-11 · كيف نحسب هذه الأرقام →

الذاكرة المطلوبة حسب طول السياق

السياق	ذاكرة KV cache (تقديرياً)	إجمالي الذاكرة (Q4)
4K رمز	~1.0 GB	~19.2 GB
8K رمز	~1.9 GB	~20.1 GB
32K رمز	~7.6 GB	~25.8 GB
128K رمز	~30.4 GB	~48.6 GB

تنمو ذاكرة KV cache مع طول السياق — فالنموذج الذي يتسع عند 4K قد تنفد ذاكرته عند 32K. التقديرات تفترض ذاكرة تخزين بدقة FP16 مع grouped-query attention؛ ويختلف الاستهلاك الفعلي حسب بيئة التشغيل.

السرعة التقديرية حسب العتاد

العتاد	عرض النطاق	السرعة التقريبية
NVIDIA RTX 3060 12GB	360 GB/s	لا يتسع في VRAM
NVIDIA RTX 4090 24GB	1008 GB/s	~471 tok/s
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s