كيف نحسب متطلبات عتاد نماذج LLM

كل رقم في هذه الصفحات مستمد من الصيَغ أدناه — لا سحر خفي ولا جداول مواصفات منسوخة. إنها تقديرات تقريبية، ونوضح حدودها.

حجم التنزيل حسب التكميم

size_GB = params_B × bits_per_weight ÷ 8

حجم ملف النموذج = عدد المعاملات × عدد البتات لكل وزن ÷ 8. تتضمن قيم البتات لكل وزن الحمل الإضافي لصيغة GGUF — فمثلاً Q4_K_M يعادل 4.85 بت فعلية، لذا يبلغ حجم نموذج 8B نحو 8 × 4.85 ÷ 8 ≈ 4.9 GB. وتختلف نسخ GGUF الفعلية ببضع نقاط مئوية.

الحد الأدنى من ذاكرة النظام

min_RAM = size_GB × 1.25 + 1.5 → next standard tier

نأخذ حجم Q4_K_M في الذاكرة، ونضيف 25% كحمل تشغيلي (التفعيلات والمخازن المؤقتة) إضافة إلى 1.5 GB لنظام التشغيل، ثم نقرّب لأعلى إلى أقرب سعة ذاكرة قياسية (8 و12 و16 و24 و32 GB وهكذا). هذه القيمة المقرّبة هي «الحد الأدنى من RAM» المعروض في كل جدول.

ذاكرة KV cache حسب طول السياق

kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45

تنمو ذاكرة KV cache خطياً مع طول السياق. نعتمد Llama 3.1 8B مع grouped-query attention مرجعاً — 32 طبقة × 8 رؤوس KV × 128 بعداً للرأس × 2 (K وV) × 2 بايت ≈ 131 kB لكل رمز — ونوسّع القياس بشكل دون خطي مع عدد المعاملات (أس 0.45)، لأن العمق وعرض KV ينموان أبطأ من إجمالي المعاملات. لهذا قد تنفد ذاكرة نموذج يتسع عند سياق 4K حين يصل إلى 32K.

تقديرات السرعة (tok/s)

tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GB

توليد الرموز محكوم بعرض نطاق الذاكرة: فإنتاج رمز واحد يقرأ جميع الأوزان النشطة مرة واحدة. لذا tok/s ≈ عرض النطاق × 0.85 ÷ حجم النموذج عند Q4، حيث 0.85 معامل كفاءة تجريبي مقارنةً باختبار نسخ خام. وفي نماذج MoE تُحتسب المعاملات النشطة فقط — ولهذا قد يكون نموذج MoE بحجم 30B أسرع من نموذج كثيف بحجم 8B.

اختبار عرض النطاق داخل المتصفح

يقيس الاختبار الاختياري عرض نطاق ذاكرة GPU الفعلي عبر عمليات نسخ كبيرة متكررة بين مخازن WebGPU ويستغرق نحو 1–2 ثانية. يعمل بالكامل داخل متصفحك؛ لا يُرفع شيء ولا يُخزَّن شيء. وعلى Apple Silicon يساعد عرض النطاق المقاس أيضاً في تحسين تخمين فئة الشريحة (الأساسية / Pro / Max / Ultra).

الحدود المعروفة

هذه تقديرات للتخطيط، لا اختبارات أداء لجهازك بعينه. تختلف السرعة الفعلية حسب بيئة التشغيل (llama.cpp وMLX وvLLM) وطول السياق وحجم الدفعة والحرارة. أحكام التوافق تفترض النسخة الموصى بها Q4_K_M وجهازاً شبه خامل — وحين يكون النموذج على الحافة، توقّع أن تغلق التطبيقات أو تنزل مستوى تكميم واحداً.

البتات الفعلية لكل وزن

التكميم	بت/وزن	الجودة
Q2_K	3.35	فقدان ملحوظ
Q4_K_M	4.85	موصى به
Q5_K_M	5.65	عالية
Q8_0	8.5	شبه أصلية
F16	16	أصلية

الأحجام تقديرات محسوبة من عدد المعاملات × عدد البتات لكل وزن؛ وتختلف نسخ GGUF الفعلية قليلاً. · آخر تحديث للبيانات: 2026-06-11