Installer Ollama : guide complet en 5 minutes
Ollama est l'outil le plus simple pour faire tourner une IA directement sur votre ordinateur, sans connexion internet, gratuitement et de maniere 100% privee. En une seule commande, vous pouvez telecharger et lancer des modeles comme Llama 3, Mistral, Phi ou Qwen. Ce guide vous montre comment installer Ollama sur Windows, Mac et Linux en moins de 5 minutes.
📋 Pre-requis
8 Go (16 Go recommande)
10 Go minimum (par modele)
NVIDIA 6 Go+ VRAM ou Apple Silicon
Ollama fonctionne aussi sans GPU (sur CPU), mais les reponses seront plus lentes. Pour choisir le bon GPU, consultez notre guide GPU pour IA locale.
Qu'est-ce que Ollama ?
Ollama est un outil open source qui permet de telecharger, gerer et executer des modeles d'IA (LLM) en local sur votre machine. C'est un peu comme Docker, mais pour les modeles d'IA : une commande suffit pour telecharger un modele et commencer a discuter avec. Ollama gere automatiquement la detection du GPU, le chargement en memoire, et l'optimisation des performances.
Pourquoi utiliser Ollama plutot que ChatGPT ? Trois raisons : vie privee (vos donnees ne quittent jamais votre PC), gratuit (aucun abonnement, usage illimite), et hors-ligne (fonctionne sans internet apres le telechargement du modele).
Installation par systeme d'exploitation
🏳 Installation sur Windows
- 1. Rendez-vous sur
ollama.com/download - 2. Cliquez sur "Download for Windows"
- 3. Executez le fichier
OllamaSetup.exe - 4. Suivez les instructions d'installation (cliquez "Next" a chaque etape)
- 5. Ouvrez un terminal (PowerShell ou CMD) et tapez :
ollama run llama3.1
Windows 10 ou 11 requis. Les GPU NVIDIA avec CUDA sont automatiquement detectes.
🍎 Installation sur Mac
- 1. Rendez-vous sur
ollama.com/download - 2. Cliquez sur "Download for macOS"
- 3. Ouvrez le fichier
.dmget glissez Ollama dans Applications - 4. Lancez Ollama depuis Applications
- 5. Ouvrez le Terminal et tapez :
ollama run llama3.1
Les Mac Apple Silicon (M1, M2, M3, M4) sont excellents pour l'IA locale grace a leur memoire unifiee.
🐧 Installation sur Linux
Une seule commande suffit :
curl -fsSL https://ollama.com/install.sh | sh
Puis lancez votre premier modele :
ollama run llama3.1
Compatible Ubuntu, Debian, Fedora, Arch Linux. Les GPU NVIDIA (drivers 525+) et AMD (ROCm) sont supportes.
Commandes essentielles Ollama
| Commande | Description |
|---|---|
| ollama run llama3.1 | Telecharge et lance Llama 3.1 (8B) |
| ollama run mistral | Lance Mistral 7B (IA francaise) |
| ollama list | Liste les modeles installes |
| ollama pull phi3 | Telecharge un modele sans le lancer |
| ollama rm llama3.1 | Supprime un modele |
| ollama serve | Lance le serveur API (port 11434) |
Meilleurs modeles a tester
Le modele polyvalent de Meta. Excellent rapport qualite/taille. Necessite ~5 Go de VRAM.
ollama run llama3.1
IA francaise, tres bon en francais. Leger et rapide. ~4.5 Go de VRAM.
ollama run mistral
Modele Microsoft ultra-leger. Ideal pour les PC sans GPU. ~2.5 Go.
ollama run phi3
Modele d'Alibaba, performant en multilingue et code. ~4.5 Go de VRAM.
ollama run qwen2.5
Utiliser l'API Ollama
Ollama expose une API REST locale sur le port 11434, compatible avec le format OpenAI. Vous pouvez l'utiliser dans vos scripts Python, vos applications web, ou avec des interfaces comme Open WebUI. Voici un exemple avec curl :
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "Explique le machine learning en 3 phrases"
}'
L'API locale d'Ollama est particulierement utile pour les developpeurs qui veulent integrer l'IA dans leurs projets sans dependre de services cloud payants. Combinez-la avec une interface graphique comme Open WebUI pour avoir votre propre "ChatGPT maison". Pour optimiser les performances, assurez-vous d'avoir un bon GPU : consultez notre guide des meilleurs GPU pour IA locale. Et pour en savoir plus sur Mistral AI et ses modeles locaux, consultez notre article dedie.
💡 Astuces
- • Utilisez
ollama run llama3.1:70bpour la version 70 milliards de parametres (necessite 40 Go+ de VRAM) - • Creez un fichier
Modelfilepour personnaliser le comportement de votre modele - • Ajoutez
--verbosepour voir la vitesse de generation (tokens/seconde) - • Les modeles sont stockes dans
~/.ollama/modelssur Linux/Mac