Question 1

كم أحتاج من RAM لتشغيل GLM-4.6V-Flash؟

Accepted Answer

نحو 12 GB من ذاكرة النظام الإجمالية للنسخة الموصى بها بدقة 4 بت (Q4_K_M)، وهي تنزيل بحجم 5.5 GB. كلما زادت RAM أمكنك استخدام تكميم أعلى جودة أو سياق أطول.

Question 2

هل يعمل GLM-4.6V-Flash دون GPU مخصص؟

Accepted Answer

نعم — أدوات مثل Ollama وllama.cpp تشغّله على CPU ما دام يتسع في RAM. وجود GPU أو Apple Silicon يجعل التوليد أسرع بعدة مرات، لكنه اختياري.

Question 3

أي تكميم من GLM-4.6V-Flash ينبغي أن أنزّله؟

Accepted Answer

Q4_K_M هو الخيار الأمثل لمعظم المستخدمين — أصغر بنحو 4 أضعاف من الأصل مع خسارة طفيفة في الجودة. اختر Q5 أو Q8 إن كانت لديك RAM وافرة، وQ2 فقط عندما لا يتسع غيره.

Question 4

هل يمكنني إجراء الضبط الدقيق (fine-tuning) لـ GLM-4.6V-Flash على جهازي؟

Accepted Answer

يتطلب الضبط الدقيق ذاكرة أكبر بكثير من الاستدلال. يحتاج الضبط الدقيق الكامل لـ GLM-4.6V-Flash إلى نحو 108 GB من ذاكرة GPU، بينما تخفّضه QLoRA إلى نحو 14 GB. لمعظم المستخدمين، يبقى QLoRA على GPU مستأجر هو الخيار العملي.

Question 5

هل نموذج أكبر بدقة Q2/Q3 أفضل من نموذج أصغر بدقة Q4/Q5؟

Accepted Answer

غالباً لا. فدون Q3 تتدهور الجودة بشكل حاد — والنموذج الأصغر بدقة Q4_K_M يتفوق عادةً على نموذج أكبر مضغوط إلى Q2. لا تنزل دون Q4 إلا عندما لا يتسع أي خيار آخر في ذاكرتك.

التكميم	بت/وزن	حجم التنزيل	الحد الأدنى من RAM	الجودة
Q2_K	3.35	3.8 GB	8 GB	فقدان ملحوظ
Q4_K_Mموصى به	4.85	5.5 GB	12 GB	موصى به
Q5_K_M	5.65	6.4 GB	12 GB	عالية
Q8_0	8.5	9.6 GB	16 GB	شبه أصلية
F16	16	18.0 GB	24 GB	أصلية

السياق	ذاكرة KV cache (تقديرياً)	إجمالي الذاكرة (Q4)
4K رمز	~0.6 GB	~6.1 GB
8K رمز	~1.1 GB	~6.6 GB
32K رمز	~4.4 GB	~9.9 GB
128K رمز	~17.7 GB	~23.2 GB

العتاد	عرض النطاق	السرعة التقريبية
NVIDIA RTX 3060 12GB	360 GB/s	~56 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~157 tok/s
Apple M-series (base)	100 GB/s	~16 tok/s
Apple M-series Pro	270 GB/s	~42 tok/s
Apple M-series Max	410 GB/s	~64 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~9 tok/s

هل يمكنني تشغيل GLM-4.6V-Flash؟

الأسئلة الشائعة