Zum Hauptinhalt springen

Ollama (Lokal)

Ollama ermöglicht es Ihnen, Open-Source-LLMs lokal auf Ihrem eigenen Computer auszuführen. AISCouncil verbindet sich direkt aus dem Browser mit Ihrer lokalen Ollama-Instanz -- kein Cloud-API-Schlüssel erforderlich, und Ihre Daten verlassen niemals Ihr Gerät.

Warum lokal ausführen?

  • Vollständige Privatsphäre -- Ihre Gespräche verlassen niemals Ihren Computer
  • Keine API-Kosten -- kostenlos nutzbar, keine Abrechnung pro Token
  • Keine Ratenlimits -- nur durch Ihre Hardware begrenzt
  • Funktioniert offline -- keine Internetverbindung nach Modelldownload erforderlich
  • Kein API-Schlüssel -- nichts zu verwalten oder zu rotieren

Ollama installieren

  1. Laden Sie Ollama herunter und installieren Sie es von ollama.com
  2. Pullen Sie mindestens ein Modell:
# Beliebte Allzweckmodelle
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B, leichtgewichtig)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2

# Code-fokussierte Modelle
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # Alibaba Qwen 2.5 Coder

# Reasoning-Modelle
ollama pull deepseek-r1 # DeepSeek R1 (verschiedene Größen)

# Vision-Modelle
ollama pull llava # LLaVA (Vision + Sprache)
ollama pull llama3.2-vision # Llama 3.2 Vision
  1. Starten Sie den Ollama-Server (er läuft nach der Installation auf den meisten Systemen automatisch):
ollama serve

Der Server läuft standardmäßig auf http://localhost:11434.

CORS-Konfiguration

Erforderlicher Schritt

Browser erzwingen Cross-Origin-Beschränkungen, daher müssen Sie die AISCouncil-Origin zulassen, bevor Ollama funktioniert. Setzen Sie die Umgebungsvariable OLLAMA_ORIGINS, bevor Sie Ollama starten:

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

Um es dauerhaft zu machen (macOS/Linux), fügen Sie zu Ihrem Shell-Profil hinzu (~/.bashrc, ~/.zshrc):

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (dauerhaft): Setzen Sie OLLAMA_ORIGINS als System-Umgebungsvariable über Systemeigenschaften > Umgebungsvariablen.

Ohne diese Einstellung wird der Browser alle Anfragen an die Ollama-API mit einem CORS-Fehler blockieren.

Kein API-Schlüssel erforderlich

Ollama erfordert keinen API-Schlüssel. AISCouncil verwendet einen internen Platzhalterwert (ollama) für das Schlüsselfeld. Sie müssen nichts in den API-Schlüssel-Einstellungen eingeben.

Automatische Modellerkennung

Beim Laden der Seite fragt AISCouncil GET /api/tags am Ollama-Endpunkt ab, um alle lokal installierten Modelle zu entdecken. Diese Modelle erscheinen automatisch im Modell-Auswahldialog, wenn Sie Ollama als Anbieter wählen.

Keine Modelle sind fest codiert -- alles, was Sie lokal gepullt haben, ist verfügbar. Wenn Sie neue Modelle pullen, während die App geöffnet ist, laden Sie die Seite neu, um sie zu erkennen.

Benutzerdefinierter Endpunkt

Wenn Ollama auf einer nicht-Standard-Adresse läuft (z.B. ein anderer Port, eine entfernte Maschine oder hinter einem Reverse-Proxy), können Sie den Endpunkt konfigurieren:

  1. Öffnen Sie Einstellungen > KI-Modell
  2. Finden Sie den Abschnitt Ollama
  3. Geben Sie Ihre benutzerdefinierte Endpunkt-URL ein (z.B. http://192.168.1.100:11434)

Der benutzerdefinierte Endpunkt wird unter dem Schlüssel ais-ollama-endpoint in localStorage gespeichert.

Fernzugriff

Wenn Sie Ollama auf einer entfernten Maschine ausführen, stellen Sie sicher:

  1. Der Ollama-Server bindet an 0.0.0.0 (nicht nur localhost): OLLAMA_HOST=0.0.0.0 ollama serve
  2. OLLAMA_ORIGINS=* ist auf der entfernten Maschine gesetzt
  3. Der Port (Standard 11434) ist vom Netzwerk Ihres Browsers aus erreichbar

Unterstützte Modelle

Jedes Modell in der Ollama-Modellbibliothek verfügbar kann verwendet werden. Beliebte Auswahl:

KategorieModelleBeschreibung
AllgemeinLlama 3.3, Mistral, Gemma 2, Phi-3Allzweck-Chat und Reasoning
CodeCodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoderCodegenerierung und -analyse
ReasoningDeepSeek R1, Qwen2.5Chain-of-Thought-Reasoning
VisionLLaVA, Llama 3.2 VisionBildverständnis
KleinPhi-3 Mini, Gemma 2B, TinyLlamaGeräte mit wenig Ressourcen

Hardware-Anforderungen

Die Ollama-Leistung hängt vollständig von Ihrer lokalen Hardware ab:

ModellgrößeRAM erforderlichGPU empfohlenBeispielmodelle
1-3B4 GBOptionalTinyLlama, Phi-3 Mini
7-8B8 GB6+ GB VRAMMistral 7B, Llama 3.1 8B
13B16 GB8+ GB VRAMCodeLlama 13B
70B64 GB40+ GB VRAMLlama 3.3 70B
Tipp

Für das beste Erlebnis verwenden Sie ein Modell, das in den VRAM Ihrer GPU passt. CPU-only-Inferenz funktioniert, ist aber deutlich langsamer. Modelle, die auf 4-Bit (Q4) quantisiert sind, benötigen etwa die Hälfte des RAMs vollpräziser Versionen.

Konfiguration

Wenn Sie ein Bot-Profil erstellen, wählen Sie Ollama als Anbieter und wählen Sie aus Ihren lokal verfügbaren Modellen. Ollama verwendet die OpenAI-kompatible Chat Completions API mit SSE-Streaming, sodass es sich aus der Chat-Schnittstellen-Perspektive identisch zu Cloud-Anbietern verhält.

Einschränkungen

  • Ollama muss laufen und erreichbar vom Browser sein
  • Modellqualität und Geschwindigkeit hängen vollständig von Ihrer lokalen Hardware ab
  • Vision- und Tool-Calling-Unterstützung variiert je nach Modell -- nicht alle Ollama-Modelle unterstützen diese Funktionen
  • Erste Antwort nach Modellladen kann langsam sein (Modell wird bei erster Verwendung in den Speicher geladen)
  • Keine Thinking/Reasoning-UI-Integration für lokale Reasoning-Modelle (Reasoning-Ausgabe erscheint inline)

Fehlerbehebung

ProblemLösung
"Failed to fetch" oder CORS-FehlerSetzen Sie OLLAMA_ORIGINS=* und starten Sie Ollama neu
Keine Modelle im DropdownStellen Sie sicher, dass ollama serve läuft und Sie mindestens ein Modell gepullt haben
Sehr langsame AntwortenModell passt möglicherweise nicht in GPU-VRAM; versuchen Sie ein kleineres Modell oder quantisierte Version
Verbindung abgelehntPrüfen Sie, dass Ollama auf dem erwarteten Port läuft (Standard: 11434)
Benutzerdefinierter Endpunkt funktioniert nichtStellen Sie sicher, dass die URL das Protokoll (http://) enthält und keinen abschließenden Schrägstrich