هل يستطيع NVIDIA RTX 4090 تشغيل Llama 3.1 8B؟

نعم — نسخة 4 بت تنزيل بحجم 4.9 GB وتتسع في 24 GB من VRAM. توقّع نحو ~177 tok/s.

ما أكبر نموذج LLM يستطيع NVIDIA RTX 4090 تشغيله؟

Qwen 3.5 35B-A3B هو أكبر نموذج في كتالوجنا يتسع فيه (21.2 GB بدقة 4 بت). توقّع نحو ~471 tok/s.

ما مدى سرعة NVIDIA RTX 4090 في تشغيل نماذج LLM المحلية؟

توليد الرموز محكوم بعرض نطاق الذاكرة. عند نحو 1008 GB/s، يولّد NVIDIA RTX 4090 نحو ~177 tok/s على نموذج من فئة 8B بدقة 4 بت — والسرعة تتناسب عكسياً مع حجم النموذج.

هل يجب أن يتسع النموذج كاملاً في VRAM؟

للحصول على سرعة GPU الكاملة، نعم. بيئات تشغيل مثل llama.cpp تستطيع توزيع الطبقات بين VRAM وذاكرة النظام، لكن كل طبقة تنتقل إلى RAM تبطئ التوليد بشكل حاد.

← جميع النماذجفحص الجهاز

ما نماذج LLM التي يستطيع NVIDIA RTX 4090 تشغيلها؟

يمتلك NVIDIA RTX 4090 ذاكرة 24 GB من VRAM ونحو 1008 GB/s من عرض نطاق الذاكرة. أدناه كل نموذج في كتالوجنا يتسع فيه، مع سرعة التوليد التقديرية. أكبر خيار: Qwen 3.5 35B-A3B بسرعة ~471 tok/s تقريباً.

المواصفات

الذاكرة24 GB من VRAM

عرض النطاق~1008 GB/s

نوع الذاكرةVRAM مخصصة

تاريخ الإصدار2022-10

النماذج على NVIDIA RTX 4090

62 / 73 من النماذج

النموذج	حجم التنزيل (Q4)	يتسع؟	السرعة التقريبية
Qwen 3.5 35B-A3BAlibaba	21.2 GB	يعمل	~471 tok/s
Qwen 3.6 35B-A3BAlibaba	21.2 GB	يعمل	~471 tok/s
Command R 35BCohere	21.2 GB	يعمل	~40 tok/s
Qwen3-VL 32BAlibaba	20.0 GB	يعمل	~43 tok/s
EXAONE 4.5 33BLG AI Research	20.0 GB	يعمل	~43 tok/s
Qwen 3 32BAlibaba	19.9 GB	يعمل	~43 tok/s
Qwen 2.5 Coder 32BAlibaba	19.9 GB	يعمل	~43 tok/s
QwQ 32BAlibaba	19.9 GB	يعمل	~43 tok/s
DeepSeek R1 32BDeepSeek	19.9 GB	يعمل	~43 tok/s
Granite 4.0 H SmallIBM	19.4 GB	يعمل	~157 tok/s
Nemotron 3 Nano 30B-A3BNVIDIA	19.2 GB	يعمل	~393 tok/s
Gemma 4 31BGoogle	18.6 GB	يعمل	~46 tok/s
Qwen 3 30B-A3BAlibaba	18.5 GB	يعمل	~428 tok/s
Qwen3-VL 30B-A3BAlibaba	18.2 GB	يعمل	~471 tok/s
Gemma 3 27BGoogle	16.6 GB	يعمل	~52 tok/s
Qwen 3.5 27BAlibaba	16.4 GB	يعمل	~52 tok/s
Qwen 3.6 27BAlibaba	16.4 GB	يعمل	~52 tok/s
Gemma 4 26B A4BGoogle	15.3 GB	يعمل	~372 tok/s
Mistral Small 3.1 24BMistral AI	14.6 GB	يعمل	~59 tok/s
Devstral 24BMistral AI	14.6 GB	يعمل	~59 tok/s
Magistral Small 1.2Mistral AI	14.6 GB	يعمل	~59 tok/s
Devstral Small 2 24BMistral AI	14.6 GB	يعمل	~59 tok/s
Codestral 22BMistral AI	13.5 GB	يعمل	~64 tok/s
GPT-OSS 20BOpenAI	12.7 GB	يعمل	~393 tok/s
Phi-4 Reasoning Vision 15BMicrosoft	9.1 GB	يعمل	~94 tok/s
Qwen 3 14BAlibaba	9.0 GB	يعمل	~95 tok/s
DeepSeek R1 14BDeepSeek	9.0 GB	يعمل	~95 tok/s
Phi-4 14BMicrosoft	8.9 GB	يعمل	~96 tok/s
Ministral 3 14BMistral AI	8.5 GB	يعمل	~101 tok/s
OLMo 2 13BAi2	8.3 GB	يعمل	~103 tok/s
Gemma 3 12BGoogle	7.4 GB	يعمل	~116 tok/s
Mistral Nemo 12BMistral AI	7.4 GB	يعمل	~116 tok/s
Gemma 4 12BGoogle	7.3 GB	يعمل	~118 tok/s
Mellum 2 12B-A2.5BJetBrains	7.3 GB	يعمل	~565 tok/s
Qwen 3.5 9BAlibaba	5.5 GB	يعمل	~157 tok/s
GLM-4.6V-FlashZ.ai	5.5 GB	يعمل	~157 tok/s
Qwen 2.5 VL 7BAlibaba	5.0 GB	يعمل	~170 tok/s
Qwen 3 8BAlibaba	5.0 GB	يعمل	~172 tok/s
Granite 3.3 8BIBM	5.0 GB	يعمل	~172 tok/s
Llama 3.1 8BMeta	4.9 GB	يعمل	~177 tok/s
DeepSeek R1 8BDeepSeek	4.9 GB	يعمل	~177 tok/s
Gemma 4 E4BGoogle	4.9 GB	يعمل	~314 tok/s
Qwen3-VL 8BAlibaba	4.9 GB	يعمل	~177 tok/s
Ministral 3 8BMistral AI	4.9 GB	يعمل	~177 tok/s
Gemma 3n E4BGoogle	4.7 GB	يعمل	~353 tok/s
Qwen 2.5 Coder 7BAlibaba	4.6 GB	يعمل	~186 tok/s
DeepSeek R1 7BDeepSeek	4.6 GB	يعمل	~186 tok/s
Mistral 7BMistral AI	4.4 GB	يعمل	~196 tok/s
Gemma 4 E2BGoogle	3.1 GB	يعمل	~614 tok/s
Gemma 3 4BGoogle	2.6 GB	يعمل	~329 tok/s
Qwen 3 4BAlibaba	2.4 GB	يعمل	~353 tok/s
Qwen 3.5 4BAlibaba	2.4 GB	يعمل	~353 tok/s
Phi-4 Mini 3.8BMicrosoft	2.3 GB	يعمل	~372 tok/s
Llama 3.2 3BMeta	1.9 GB	يعمل	~442 tok/s
DeepSeek-OCRDeepSeek	1.8 GB	يعمل	~2479 tok/s
Ministral 3 3BMistral AI	1.8 GB	يعمل	~471 tok/s
DeepSeek R1 1.5BDeepSeek	1.1 GB	يعمل	~785 tok/s
Qwen 3 1.7BAlibaba	1.0 GB	يعمل	~831 tok/s
SmolLM2 1.7BHugging Face	1.0 GB	يعمل	~831 tok/s
Llama 3.2 1BMeta	0.7 GB	يعمل	~1178 tok/s
Gemma 3 1BGoogle	0.6 GB	يعمل	~1413 tok/s
Qwen 3 0.6BAlibaba	0.4 GB	يعمل	~2355 tok/s

ليعمل النموذج بالكامل على GPU، يجب أن تتسع نسخة 4 بت في VRAM. النماذج التي لا تتسع يمكنها مع ذلك العمل على CPU + ذاكرة النظام، لكن أبطأ بعدة مرات. · آخر تحديث للبيانات: 2026-06-11 · كيف نحسب هذه الأرقام →