Combien de RAM faut-il pour faire tourner Ministral 3 3B ?

Environ 4 GB de mémoire système au total pour le build 4 bits recommandé (Q4_K_M), soit 1.8 GB à télécharger. Plus de RAM vous permet d'utiliser des quantisations de meilleure qualité ou un contexte plus long.

Ministral 3 3B peut-il tourner sans GPU dédié ?

Oui — des outils comme Ollama et llama.cpp le font tourner sur le CPU tant qu'il tient en RAM. Un GPU ou une puce Apple Silicon accélère la génération plusieurs fois, mais reste optionnel.

Quelle quantisation de Ministral 3 3B télécharger ?

Q4_K_M est le meilleur compromis pour presque tout le monde — environ 4× plus petit que l'original avec une perte de qualité minime. Prenez Q5 ou Q8 si vous avez beaucoup de RAM, et Q2 seulement quand rien d'autre ne passe.

Puis-je faire du fine-tuning de Ministral 3 3B sur ma propre machine ?

Le fine-tuning demande bien plus de mémoire que l'inférence. Un fine-tuning complet de Ministral 3 3B requiert environ 36 GB de mémoire GPU, tandis que QLoRA ramène cela à environ 5 GB. Pour la plupart des gens, QLoRA sur un GPU loué est la voie pratique.

Un modèle plus gros en Q2/Q3 vaut-il mieux qu'un plus petit en Q4/Q5 ?

Généralement non. En dessous de Q3, la qualité se dégrade fortement — un modèle plus petit en Q4_K_M bat le plus souvent un plus gros compressé en Q2. Ne descendez sous Q4 que lorsque rien d'autre ne tient dans votre mémoire.

← Tous les modèlesTEST DU MODÈLE

Puis-je faire tourner Ministral 3 3B ?

Ministral 3 3B de Mistral AI demande environ 4 GB de RAM avec la quantisation 4 bits recommandée (1.8 GB à télécharger). Votre matériel est vérifié ci-dessous — instantanément, rien ne quitte votre navigateur. Comptez environ ~168 tok/s sur un NVIDIA RTX 3060 12GB.

Lecture des signaux matériels…

Notes pratiques

Le Ministral 3 3B est la réponse de Mistral à la question "quel est le plus petit modèle qui ressemble encore à un vrai assistant ?". Avec 3B de paramètres, il est conçu pour le chat et des tâches légères de vision sur le matériel que vous possédez déjà. Une quantification en 4 bits tient autour de 1.8 GB, et vous pouvez réduire la version q2 à 1.3 GB si vous êtes vraiment à court d'espace. Avec seulement 4 GB de RAM au minimum, il tourne sur un ordinateur portable d'entrée de gamme, un vieux GPU de 4 GB ou n'importe quel Mac Apple Silicon sans que vous ayez à vous soucier de la mémoire. C'est le modèle vers lequel on se tourne quand un plus gros ne rentre pas.

À l'usage quotidien, c'est la vitesse qui marque le plus. Sur une RTX 3060, vous voyez environ 168 tokens par seconde, un M-series Max approche les 192 tok/s, et une 4090 atteint près de 471 tok/s - le tout bien plus rapide que ce que vous pouvez lire, si bien que les réponses semblent instantanées. En CPU seul sur de la DDR5, vous obtenez encore ~28 tok/s, ce qui reste utilisable pour du traitement par lots. La fenêtre de contexte est généreuse à 256K, mais voyez-la comme un plafond. La remplir devient vite coûteux : à 128K de contexte, la charge mémoire totale grimpe à environ 12.6 GB, bien au-delà de l'empreinte du modèle lui-même - gardez donc un contexte de travail modeste sur les petites machines.

Pour être honnête, en 3B vous échangez un peu de profondeur contre cette vitesse et cette empreinte minuscule. Mistral 7B tient généralement mieux sur du raisonnement plus difficile et de longues chaînes d'instructions, et Mistral Nemo 12B reprend nettement l'avantage si vous avez de la mémoire à revendre. Là où le Ministral 3 3B gagne, c'est dans la combinaison d'un débit brut et du fait qu'il gère aussi la vision - ce que les plus gros Mistral, dédiés uniquement au chat, ne font pas. Il est distribué sous licence Apache 2.0, vous pouvez donc l'utiliser commercialement sans aucune contrainte. Pour un petit modèle rapide, gratuit et polyvalent, il mérite sa place.

Caractéristiques

Paramètres3B

Fenêtre de contexte256K tokens

ÉditeurMistral AI

LicenceApache 2.0

Sortie2025-12

Idéal pourChat, Vision

Taille selon la quantisation

Quantisation	Bits/poids	Téléchargement	RAM min.	Qualité
Q2_K	3.35	1.3 GB	4 GB	Perte sensible
Q4_K_MRecommandée	4.85	1.8 GB	4 GB	Recommandée
Q5_K_M	5.65	2.1 GB	6 GB	Élevée
Q8_0	8.5	3.2 GB	6 GB	Quasi originale
F16	16	6.0 GB	12 GB	Originale

Les tailles sont estimées à partir du nombre de paramètres × bits par poids ; les builds GGUF réels varient légèrement. · Données mises à jour: 2026-06-11 · Comment nous calculons ces chiffres →

Mémoire nécessaire selon la longueur de contexte

Contexte	Cache KV (est.)	Mémoire totale (Q4)
4K tokens	~0.3 GB	~2.1 GB
8K tokens	~0.7 GB	~2.5 GB
32K tokens	~2.7 GB	~4.5 GB
128K tokens	~10.8 GB	~12.6 GB

Le cache KV grossit avec la longueur du contexte — un modèle qui tient à 4K peut manquer de mémoire à 32K. Les estimations supposent un cache FP16 avec grouped-query attention ; l'usage réel varie selon le runtime.

Vitesse estimée selon le matériel

Matériel	Bande passante	~Vitesse
NVIDIA RTX 3060 12GB	360 GB/s	~168 tok/s
NVIDIA RTX 4090 24GB	1008 GB/s	~471 tok/s
Apple M-series (base)	100 GB/s	~47 tok/s
Apple M-series Pro	270 GB/s	~126 tok/s
Apple M-series Max	410 GB/s	~192 tok/s
CPU only (dual-channel DDR5)	60 GB/s	~28 tok/s

La génération de tokens est limitée par la bande passante mémoire : tok/s ≈ bande passante × 0,85 ÷ taille du modèle en Q4. Les chiffres réels varient selon le runtime et la longueur du contexte.

Le faire tourner en local

Le chemin le plus simple est Ollama — une commande et vous discutez :

ollama run ministral-3:3b

Sources et téléchargements

Ollama Library

Téléchargez et lancez le modèle avec une seule commande.

ollama.com

Hugging Face

Poids du modèle, fichiers et détails de la licence.

huggingface.co

Mistral AI — page officielle

Page officielle et documentation de Mistral AI.