2x RTX 3090 (48 Go VRAM) : quels modeles IA faire tourner en local ?
Deux RTX 3090, c'est 48 Go de VRAM pour moins de 1500 euros en occasion. C'est la configuration enthusiaste par excellence pour l'IA locale en 2026 : elle ouvre la porte aux modeles de 70 milliards de parametres et au-dela, des modeles qui rivalisent avec GPT-4 en qualite de reponse. Ce guide detaille tout ce que vous pouvez faire tourner sur cette config, comment configurer le multi-GPU, et comment monter votre machine.
Comment fonctionne le multi-GPU pour l'IA
Le multi-GPU pour l'inference fonctionne via le tensor parallelism : le modele est decoupe en couches, et chaque GPU charge une partie. Vous combinez ainsi la VRAM des deux cartes. Bonne nouvelle : le NVLink n'est PAS necessaire. Le tensor parallelism fonctionne tres bien via PCIe 3.0 x16 (~16 Go/s), avec seulement 5-10% de perte de performance par rapport au NVLink.
Outils compatibles multi-GPU
✅ Compatible multi-GPU
- llama.cpp - Split automatique entre GPU
- Ollama - Repartition par layers entre GPU
- vLLM - Tensor parallelism natif
- text-generation-inference - Support multi-GPU complet
- ExLlamaV2 - Split VRAM personnalisable
❌ Pas de multi-GPU
- LM Studio - Un seul GPU supporte (en 2026)
- Si vous utilisez LM Studio, seul un GPU sera utilise (24 Go max)
Modeles que vous pouvez faire tourner sur 48 Go VRAM
| Modele | Taille | Quantisation | VRAM | Tokens/s | Qualite |
|---|---|---|---|---|---|
| Llama 3 70B | 70B | Q4_K_M | ~40 Go | 15-25 t/s | ⭐⭐⭐⭐⭐ |
| Mixtral 8x7B | 47B (MoE) | FP16 | ~45 Go | 20-30 t/s | ⭐⭐⭐⭐⭐ |
| Qwen 2.5 72B | 72B | Q4_K_M | ~42 Go | 12-20 t/s | ⭐⭐⭐⭐⭐ |
| DeepSeek Coder V2 236B | 236B (MoE) | Q2_K | ~48 Go | 5-10 t/s | ⭐⭐⭐⭐ |
| Command R+ 104B | 104B | Q3_K_M | ~45 Go | 8-15 t/s | ⭐⭐⭐⭐ |
| Mistral Large 123B | 123B | Q3_K_S | ~46 Go | 6-12 t/s | ⭐⭐⭐⭐ |
| Yi 34B | 34B | FP16 | ~34 Go | 25-35 t/s | ⭐⭐⭐⭐ |
🏆 Le champion : Llama 3 70B Q4
Le Llama 3 70B Q4 est le modele ideal pour dual RTX 3090 : 40 Go de VRAM, 15-25 tokens/s, qualite comparable a GPT-3.5 Turbo. Installez-le via Ollama en une commande.
Comparaison avec d'autres configs
| Configuration | VRAM | Modeles max | Prix GPU | Verdict |
|---|---|---|---|---|
| 1x RTX 4090 | 24 Go | 34B Q4, 13B FP16 | ~1600 euros | Rapide mais limite en taille |
| 1x RTX 3090 | 24 Go | 34B Q4, 13B FP16 | ~700 euros | Bon debut, meme limites |
| 2x RTX 3090 | 48 Go | 70B Q4, 34B FP16 | ~1400 euros | Le sweet spot ! |
| Mac Studio M4 192 Go | 192 Go (unifiee) | 70B FP16, 405B Q4 | ~5000+ euros | Plus de VRAM mais plus lent/token |
Conseils pratiques pour une config dual RTX 3090
⚡ Alimentation : 1000W minimum
2x 350W GPU + systeme = 1000W minimum requis. Choisissez du 80+ Gold. Budget : ~120 euros.
🖥 Carte mere : 2 slots PCIe x16
Verifiez l'espacement entre les slots pour deux cartes triple slot. MSI B550-A Pro ou Gigabyte B660 suffisent.
🌀 Refroidissement CRITIQUE
Boitier airflow (Meshify C, Lancool II Mesh). Ventilateurs extraction haut + arriere. Cible : moins de 83 degres C.
💾 SSD NVMe obligatoire
Un NVMe charge un modele 70B en 10-15s. Un HDD prendrait des minutes. Minimum 1 To.
Configuration recommandee complete
Config Dual RTX 3090 - La Bete
~2000 eurosAvec Ollama, le multi-GPU est automatique : lancez ollama run llama3:70b-instruct-q4_K_M et Ollama repartit les couches entre vos deux GPU. Pour llama.cpp, utilisez --tensor-split 24,24.