Accueil Blog Dual RTX 3090 pour IA locale
Materiel & GPU

2x RTX 3090 (48 Go VRAM) : quels modeles IA faire tourner en local ?

Par L equipe OutilsIA avril 2026 15 min de lecture

Deux RTX 3090, c'est 48 Go de VRAM pour moins de 1500 euros en occasion. C'est la configuration enthusiaste par excellence pour l'IA locale en 2026 : elle ouvre la porte aux modeles de 70 milliards de parametres et au-dela, des modeles qui rivalisent avec GPT-4 en qualite de reponse. Ce guide detaille tout ce que vous pouvez faire tourner sur cette config, comment configurer le multi-GPU, et comment monter votre machine.

Comment fonctionne le multi-GPU pour l'IA

Le multi-GPU pour l'inference fonctionne via le tensor parallelism : le modele est decoupe en couches, et chaque GPU charge une partie. Vous combinez ainsi la VRAM des deux cartes. Bonne nouvelle : le NVLink n'est PAS necessaire. Le tensor parallelism fonctionne tres bien via PCIe 3.0 x16 (~16 Go/s), avec seulement 5-10% de perte de performance par rapport au NVLink.

Outils compatibles multi-GPU

✅ Compatible multi-GPU

  • llama.cpp - Split automatique entre GPU
  • Ollama - Repartition par layers entre GPU
  • vLLM - Tensor parallelism natif
  • text-generation-inference - Support multi-GPU complet
  • ExLlamaV2 - Split VRAM personnalisable

❌ Pas de multi-GPU

  • LM Studio - Un seul GPU supporte (en 2026)
  • Si vous utilisez LM Studio, seul un GPU sera utilise (24 Go max)

Modeles que vous pouvez faire tourner sur 48 Go VRAM

Modele Taille Quantisation VRAM Tokens/s Qualite
Llama 3 70B 70B Q4_K_M ~40 Go 15-25 t/s ⭐⭐⭐⭐⭐
Mixtral 8x7B 47B (MoE) FP16 ~45 Go 20-30 t/s ⭐⭐⭐⭐⭐
Qwen 2.5 72B 72B Q4_K_M ~42 Go 12-20 t/s ⭐⭐⭐⭐⭐
DeepSeek Coder V2 236B 236B (MoE) Q2_K ~48 Go 5-10 t/s ⭐⭐⭐⭐
Command R+ 104B 104B Q3_K_M ~45 Go 8-15 t/s ⭐⭐⭐⭐
Mistral Large 123B 123B Q3_K_S ~46 Go 6-12 t/s ⭐⭐⭐⭐
Yi 34B 34B FP16 ~34 Go 25-35 t/s ⭐⭐⭐⭐

🏆 Le champion : Llama 3 70B Q4

Le Llama 3 70B Q4 est le modele ideal pour dual RTX 3090 : 40 Go de VRAM, 15-25 tokens/s, qualite comparable a GPT-3.5 Turbo. Installez-le via Ollama en une commande.

Comparaison avec d'autres configs

Configuration VRAM Modeles max Prix GPU Verdict
1x RTX 4090 24 Go 34B Q4, 13B FP16 ~1600 euros Rapide mais limite en taille
1x RTX 3090 24 Go 34B Q4, 13B FP16 ~700 euros Bon debut, meme limites
2x RTX 3090 48 Go 70B Q4, 34B FP16 ~1400 euros Le sweet spot !
Mac Studio M4 192 Go 192 Go (unifiee) 70B FP16, 405B Q4 ~5000+ euros Plus de VRAM mais plus lent/token

Conseils pratiques pour une config dual RTX 3090

⚡ Alimentation : 1000W minimum

2x 350W GPU + systeme = 1000W minimum requis. Choisissez du 80+ Gold. Budget : ~120 euros.

🖥 Carte mere : 2 slots PCIe x16

Verifiez l'espacement entre les slots pour deux cartes triple slot. MSI B550-A Pro ou Gigabyte B660 suffisent.

🌀 Refroidissement CRITIQUE

Boitier airflow (Meshify C, Lancool II Mesh). Ventilateurs extraction haut + arriere. Cible : moins de 83 degres C.

💾 SSD NVMe obligatoire

Un NVMe charge un modele 70B en 10-15s. Un HDD prendrait des minutes. Minimum 1 To.

Configuration recommandee complete

Config Dual RTX 3090 - La Bete

~2000 euros
GPU
2x RTX 3090 24 Go (~700 euros chaque = 1400 euros)
CPU
Ryzen 7 5800X ou Intel i7-12700 (~200 euros)
RAM
64 Go DDR4 (~100 euros)
Stockage
SSD 1 To NVMe (~80 euros)
Alimentation + Boitier
1000W 80+ Gold + ATX airflow (~200 euros)

Avec Ollama, le multi-GPU est automatique : lancez ollama run llama3:70b-instruct-q4_K_M et Ollama repartit les couches entre vos deux GPU. Pour llama.cpp, utilisez --tensor-split 24,24.

Questions frequentes

Non. Le tensor parallelism (llama.cpp, Ollama, vLLM) fonctionne via PCIe standard. Le NVLink apporte 5-10% de gain mais il est couteux et rare. Economisez cet argent.
2x 350W GPU = 700W, plus ~200W pour le reste = ~900W sous charge. En idle, ~120W. Comptez 15-20 euros/mois en electricite si le systeme tourne 8h par jour.
Sous charge IA, le bruit atteint 45 a 55 dB. Choisissez des modeles avec bons refroidisseurs (EVGA FTW3, MSI Suprim), ajustez les ventilateurs via MSI Afterburner, et placez la machine sous le bureau ou dans une piece separee.