2x RTX 3090 (48 Go VRAM) : quels modeles IA faire tourner en local ?

Deux RTX 3090, c'est 48 Go de VRAM pour moins de 1500 euros en occasion. C'est la configuration enthusiaste par excellence pour l'IA locale en 2026 : elle ouvre la porte aux modeles de 70 milliards de parametres et au-dela, des modeles qui rivalisent avec GPT-4 en qualite de reponse. Ce guide detaille tout ce que vous pouvez faire tourner sur cette config, comment configurer le multi-GPU, et comment monter votre machine.

Comment fonctionne le multi-GPU pour l'IA

Le multi-GPU pour l'inference fonctionne via le tensor parallelism : le modele est decoupe en couches, et chaque GPU charge une partie. Vous combinez ainsi la VRAM des deux cartes. Bonne nouvelle : le NVLink n'est PAS necessaire. Le tensor parallelism fonctionne tres bien via PCIe 3.0 x16 (~16 Go/s), avec seulement 5-10% de perte de performance par rapport au NVLink.

Outils compatibles multi-GPU

✅ Compatible multi-GPU

llama.cpp - Split automatique entre GPU
Ollama - Repartition par layers entre GPU
vLLM - Tensor parallelism natif
text-generation-inference - Support multi-GPU complet
ExLlamaV2 - Split VRAM personnalisable

❌ Pas de multi-GPU

LM Studio - Un seul GPU supporte (en 2026)
Si vous utilisez LM Studio, seul un GPU sera utilise (24 Go max)

Modeles que vous pouvez faire tourner sur 48 Go VRAM

Modele	Taille	Quantisation	VRAM	Tokens/s	Qualite
Llama 3 70B	70B	Q4_K_M	~40 Go	15-25 t/s	⭐⭐⭐⭐⭐
Mixtral 8x7B	47B (MoE)	FP16	~45 Go	20-30 t/s	⭐⭐⭐⭐⭐
Qwen 2.5 72B	72B	Q4_K_M	~42 Go	12-20 t/s	⭐⭐⭐⭐⭐
DeepSeek Coder V2 236B	236B (MoE)	Q2_K	~48 Go	5-10 t/s	⭐⭐⭐⭐
Command R+ 104B	104B	Q3_K_M	~45 Go	8-15 t/s	⭐⭐⭐⭐
Mistral Large 123B	123B	Q3_K_S	~46 Go	6-12 t/s	⭐⭐⭐⭐
Yi 34B	34B	FP16	~34 Go	25-35 t/s	⭐⭐⭐⭐

🏆 Le champion : Llama 3 70B Q4

Le Llama 3 70B Q4 est le modele ideal pour dual RTX 3090 : 40 Go de VRAM, 15-25 tokens/s, qualite comparable a GPT-3.5 Turbo. Installez-le via Ollama en une commande.

Comparaison avec d'autres configs

Configuration	VRAM	Modeles max	Prix GPU	Verdict
1x RTX 4090	24 Go	34B Q4, 13B FP16	~1600 euros	Rapide mais limite en taille
1x RTX 3090	24 Go	34B Q4, 13B FP16	~700 euros	Bon debut, meme limites
2x RTX 3090	48 Go	70B Q4, 34B FP16	~1400 euros	Le sweet spot !
Mac Studio M4 192 Go	192 Go (unifiee)	70B FP16, 405B Q4	~5000+ euros	Plus de VRAM mais plus lent/token

Conseils pratiques pour une config dual RTX 3090

⚡ Alimentation : 1000W minimum

2x 350W GPU + systeme = 1000W minimum requis. Choisissez du 80+ Gold. Budget : ~120 euros.

🖥 Carte mere : 2 slots PCIe x16

Verifiez l'espacement entre les slots pour deux cartes triple slot. MSI B550-A Pro ou Gigabyte B660 suffisent.

🌀 Refroidissement CRITIQUE

Boitier airflow (Meshify C, Lancool II Mesh). Ventilateurs extraction haut + arriere. Cible : moins de 83 degres C.

💾 SSD NVMe obligatoire

Un NVMe charge un modele 70B en 10-15s. Un HDD prendrait des minutes. Minimum 1 To.

Configuration recommandee complete

Config Dual RTX 3090 - La Bete

~2000 euros

GPU

2x RTX 3090 24 Go (~700 euros chaque = 1400 euros)

CPU

Ryzen 7 5800X ou Intel i7-12700 (~200 euros)

RAM

64 Go DDR4 (~100 euros)

Stockage

SSD 1 To NVMe (~80 euros)

Alimentation + Boitier

1000W 80+ Gold + ATX airflow (~200 euros)

Avec Ollama, le multi-GPU est automatique : lancez ollama run llama3:70b-instruct-q4_K_M et Ollama repartit les couches entre vos deux GPU. Pour llama.cpp, utilisez --tensor-split 24,24.