Ollama - Inférence LLM Locale
Vue d'ensemble
Ollama permet d'exécuter des modèles de langage (LLM) localement sur le serveur.
Accès
- API: https://ollama.srv759970.hstgr.cloud
- Port: 11434
Modèles disponibles
- Llama 3: Modèle général performant
- Mistral: Modèle français optimisé
- Qwen: Modèle multilingue
- Code Llama: Spécialisé pour le code
Endpoints
POST /api/generate
Génération de texte.
Exemple:
curl https://ollama.srv759970.hstgr.cloud/api/generate -d '{
"model": "mistral",
"prompt": "Explique-moi le machine learning"
}'
POST /api/chat
Mode conversation.
Exemple:
curl https://ollama.srv759970.hstgr.cloud/api/chat -d '{
"model": "llama3",
"messages": [
{"role": "user", "content": "Bonjour!"}
]
}'
POST /api/embeddings
Génération d'embeddings pour recherche sémantique.
Exemple:
curl https://ollama.srv759970.hstgr.cloud/api/embeddings -d '{
"model": "nomic-embed-text",
"prompt": "Texte à vectoriser"
}'
Gestion des modèles
Lister les modèles
Télécharger un modèle
Configuration
- GPU: Aucun (CPU uniquement)
- RAM: 8 GB recommandés
- Stockage modèles: /root/.ollama/models
Performance
| Modèle | Taille | Vitesse (tokens/s) |
|---|---|---|
| Llama 3 8B | 4.7 GB | ~15 |
| Mistral 7B | 4.1 GB | ~20 |
| Qwen 7B | 4.4 GB | ~18 |