كيف نحسب متطلبات عتاد نماذج LLM
كل رقم في هذه الصفحات مستمد من الصيَغ أدناه — لا سحر خفي ولا جداول مواصفات منسوخة. إنها تقديرات تقريبية، ونوضح حدودها.
حجم التنزيل حسب التكميم
size_GB = params_B × bits_per_weight ÷ 8حجم ملف النموذج = عدد المعاملات × عدد البتات لكل وزن ÷ 8. تتضمن قيم البتات لكل وزن الحمل الإضافي لصيغة GGUF — فمثلاً Q4_K_M يعادل 4.85 بت فعلية، لذا يبلغ حجم نموذج 8B نحو 8 × 4.85 ÷ 8 ≈ 4.9 GB. وتختلف نسخ GGUF الفعلية ببضع نقاط مئوية.
الحد الأدنى من ذاكرة النظام
min_RAM = size_GB × 1.25 + 1.5 → next standard tierنأخذ حجم Q4_K_M في الذاكرة، ونضيف 25% كحمل تشغيلي (التفعيلات والمخازن المؤقتة) إضافة إلى 1.5 GB لنظام التشغيل، ثم نقرّب لأعلى إلى أقرب سعة ذاكرة قياسية (8 و12 و16 و24 و32 GB وهكذا). هذه القيمة المقرّبة هي «الحد الأدنى من RAM» المعروض في كل جدول.
ذاكرة KV cache حسب طول السياق
kv_bytes/token ≈ 131 072 × (params_B ÷ 8)^0.45تنمو ذاكرة KV cache خطياً مع طول السياق. نعتمد Llama 3.1 8B مع grouped-query attention مرجعاً — 32 طبقة × 8 رؤوس KV × 128 بعداً للرأس × 2 (K وV) × 2 بايت ≈ 131 kB لكل رمز — ونوسّع القياس بشكل دون خطي مع عدد المعاملات (أس 0.45)، لأن العمق وعرض KV ينموان أبطأ من إجمالي المعاملات. لهذا قد تنفد ذاكرة نموذج يتسع عند سياق 4K حين يصل إلى 32K.
تقديرات السرعة (tok/s)
tok/s ≈ bandwidth_GBs × 0.85 ÷ active_size_GBتوليد الرموز محكوم بعرض نطاق الذاكرة: فإنتاج رمز واحد يقرأ جميع الأوزان النشطة مرة واحدة. لذا tok/s ≈ عرض النطاق × 0.85 ÷ حجم النموذج عند Q4، حيث 0.85 معامل كفاءة تجريبي مقارنةً باختبار نسخ خام. وفي نماذج MoE تُحتسب المعاملات النشطة فقط — ولهذا قد يكون نموذج MoE بحجم 30B أسرع من نموذج كثيف بحجم 8B.
اختبار عرض النطاق داخل المتصفح
يقيس الاختبار الاختياري عرض نطاق ذاكرة GPU الفعلي عبر عمليات نسخ كبيرة متكررة بين مخازن WebGPU ويستغرق نحو 1–2 ثانية. يعمل بالكامل داخل متصفحك؛ لا يُرفع شيء ولا يُخزَّن شيء. وعلى Apple Silicon يساعد عرض النطاق المقاس أيضاً في تحسين تخمين فئة الشريحة (الأساسية / Pro / Max / Ultra).
الحدود المعروفة
هذه تقديرات للتخطيط، لا اختبارات أداء لجهازك بعينه. تختلف السرعة الفعلية حسب بيئة التشغيل (llama.cpp وMLX وvLLM) وطول السياق وحجم الدفعة والحرارة. أحكام التوافق تفترض النسخة الموصى بها Q4_K_M وجهازاً شبه خامل — وحين يكون النموذج على الحافة، توقّع أن تغلق التطبيقات أو تنزل مستوى تكميم واحداً.
البتات الفعلية لكل وزن
| التكميم | بت/وزن | الجودة |
|---|---|---|
| Q2_K | 3.35 | فقدان ملحوظ |
| Q4_K_M | 4.85 | موصى به |
| Q5_K_M | 5.65 | عالية |
| Q8_0 | 8.5 | شبه أصلية |
| F16 | 16 | أصلية |
الأحجام تقديرات محسوبة من عدد المعاملات × عدد البتات لكل وزن؛ وتختلف نسخ GGUF الفعلية قليلاً. · آخر تحديث للبيانات: 2026-06-11