Ollama - Inférence LLM Locale

Vue d'ensemble

Ollama permet d'exécuter des modèles de langage (LLM) localement sur le serveur.

Accès

API: https://ollama.srv759970.hstgr.cloud
Port: 11434

Modèles disponibles

Llama 3: Modèle général performant
Mistral: Modèle français optimisé
Qwen: Modèle multilingue
Code Llama: Spécialisé pour le code

Endpoints

POST /api/generate

Génération de texte.

Exemple:

curl https://ollama.srv759970.hstgr.cloud/api/generate   -d '{
    "model": "mistral",
    "prompt": "Explique-moi le machine learning"
  }'

POST /api/chat

Mode conversation.

Exemple:

curl https://ollama.srv759970.hstgr.cloud/api/chat   -d '{
    "model": "llama3",
    "messages": [
      {"role": "user", "content": "Bonjour!"}
    ]
  }'

POST /api/embeddings

Génération d'embeddings pour recherche sémantique.

Exemple:

curl https://ollama.srv759970.hstgr.cloud/api/embeddings   -d '{
    "model": "nomic-embed-text",
    "prompt": "Texte à vectoriser"
  }'

Gestion des modèles

Lister les modèles

curl https://ollama.srv759970.hstgr.cloud/api/tags

Télécharger un modèle

ssh root@srv759970.hstgr.cloud "ollama pull llama3"

Configuration

GPU: Aucun (CPU uniquement)
RAM: 8 GB recommandés
Stockage modèles: /root/.ollama/models

Performance

Modèle	Taille	Vitesse (tokens/s)
Llama 3 8B	4.7 GB	~15
Mistral 7B	4.1 GB	~20
Qwen 7B	4.4 GB	~18

Ollama - Inférence LLM Locale

Vue d'ensemble

Accès

Modèles disponibles

Endpoints

POST /api/generate

POST /api/chat

POST /api/embeddings

Gestion des modèles

Lister les modèles

Télécharger un modèle

Configuration

Performance

Ressources