Ollama (Lokal)

Ollama ermöglicht es Ihnen, Open-Source-LLMs lokal auf Ihrem eigenen Computer auszuführen. AISCouncil verbindet sich direkt aus dem Browser mit Ihrer lokalen Ollama-Instanz -- kein Cloud-API-Schlüssel erforderlich, und Ihre Daten verlassen niemals Ihr Gerät.

Warum lokal ausführen?

Vollständige Privatsphäre -- Ihre Gespräche verlassen niemals Ihren Computer
Keine API-Kosten -- kostenlos nutzbar, keine Abrechnung pro Token
Keine Ratenlimits -- nur durch Ihre Hardware begrenzt
Funktioniert offline -- keine Internetverbindung nach Modelldownload erforderlich
Kein API-Schlüssel -- nichts zu verwalten oder zu rotieren

Ollama installieren

Laden Sie Ollama herunter und installieren Sie es von ollama.com
Pullen Sie mindestens ein Modell:

# Beliebte Allzweckmodelle
ollama pull llama3.3          # Meta Llama 3.3 (70B)
ollama pull llama3.2          # Meta Llama 3.2 (3B, leichtgewichtig)
ollama pull mistral           # Mistral 7B
ollama pull gemma2            # Google Gemma 2

# Code-fokussierte Modelle
ollama pull codellama         # Meta Code Llama
ollama pull deepseek-coder    # DeepSeek Coder
ollama pull qwen2.5-coder     # Alibaba Qwen 2.5 Coder

# Reasoning-Modelle
ollama pull deepseek-r1       # DeepSeek R1 (verschiedene Größen)

# Vision-Modelle
ollama pull llava             # LLaVA (Vision + Sprache)
ollama pull llama3.2-vision   # Llama 3.2 Vision

Starten Sie den Ollama-Server (er läuft nach der Installation auf den meisten Systemen automatisch):

ollama serve

Der Server läuft standardmäßig auf http://localhost:11434.

CORS-Konfiguration

Erforderlicher Schritt

Browser erzwingen Cross-Origin-Beschränkungen, daher müssen Sie die AISCouncil-Origin zulassen, bevor Ollama funktioniert. Setzen Sie die Umgebungsvariable OLLAMA_ORIGINS, bevor Sie Ollama starten:

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

Um es dauerhaft zu machen (macOS/Linux), fügen Sie zu Ihrem Shell-Profil hinzu (~/.bashrc, ~/.zshrc):

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (dauerhaft): Setzen Sie OLLAMA_ORIGINS als System-Umgebungsvariable über Systemeigenschaften > Umgebungsvariablen.

Ohne diese Einstellung wird der Browser alle Anfragen an die Ollama-API mit einem CORS-Fehler blockieren.

Kein API-Schlüssel erforderlich

Ollama erfordert keinen API-Schlüssel. AISCouncil verwendet einen internen Platzhalterwert (ollama) für das Schlüsselfeld. Sie müssen nichts in den API-Schlüssel-Einstellungen eingeben.

Automatische Modellerkennung

Beim Laden der Seite fragt AISCouncil GET /api/tags am Ollama-Endpunkt ab, um alle lokal installierten Modelle zu entdecken. Diese Modelle erscheinen automatisch im Modell-Auswahldialog, wenn Sie Ollama als Anbieter wählen.

Keine Modelle sind fest codiert -- alles, was Sie lokal gepullt haben, ist verfügbar. Wenn Sie neue Modelle pullen, während die App geöffnet ist, laden Sie die Seite neu, um sie zu erkennen.

Benutzerdefinierter Endpunkt

Wenn Ollama auf einer nicht-Standard-Adresse läuft (z.B. ein anderer Port, eine entfernte Maschine oder hinter einem Reverse-Proxy), können Sie den Endpunkt konfigurieren:

Öffnen Sie Einstellungen > KI-Modell
Finden Sie den Abschnitt Ollama
Geben Sie Ihre benutzerdefinierte Endpunkt-URL ein (z.B. http://192.168.1.100:11434)

Der benutzerdefinierte Endpunkt wird unter dem Schlüssel ais-ollama-endpoint in localStorage gespeichert.

Fernzugriff

Wenn Sie Ollama auf einer entfernten Maschine ausführen, stellen Sie sicher:

Der Ollama-Server bindet an 0.0.0.0 (nicht nur localhost): OLLAMA_HOST=0.0.0.0 ollama serve
OLLAMA_ORIGINS=* ist auf der entfernten Maschine gesetzt
Der Port (Standard 11434) ist vom Netzwerk Ihres Browsers aus erreichbar

Unterstützte Modelle

Jedes Modell in der Ollama-Modellbibliothek verfügbar kann verwendet werden. Beliebte Auswahl:

Kategorie	Modelle	Beschreibung
Allgemein	Llama 3.3, Mistral, Gemma 2, Phi-3	Allzweck-Chat und Reasoning
Code	CodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoder	Codegenerierung und -analyse
Reasoning	DeepSeek R1, Qwen2.5	Chain-of-Thought-Reasoning
Vision	LLaVA, Llama 3.2 Vision	Bildverständnis
Klein	Phi-3 Mini, Gemma 2B, TinyLlama	Geräte mit wenig Ressourcen

Hardware-Anforderungen

Die Ollama-Leistung hängt vollständig von Ihrer lokalen Hardware ab:

Modellgröße	RAM erforderlich	GPU empfohlen	Beispielmodelle
1-3B	4 GB	Optional	TinyLlama, Phi-3 Mini
7-8B	8 GB	6+ GB VRAM	Mistral 7B, Llama 3.1 8B
13B	16 GB	8+ GB VRAM	CodeLlama 13B
70B	64 GB	40+ GB VRAM	Llama 3.3 70B

Tipp

Für das beste Erlebnis verwenden Sie ein Modell, das in den VRAM Ihrer GPU passt. CPU-only-Inferenz funktioniert, ist aber deutlich langsamer. Modelle, die auf 4-Bit (Q4) quantisiert sind, benötigen etwa die Hälfte des RAMs vollpräziser Versionen.

Konfiguration

Wenn Sie ein Bot-Profil erstellen, wählen Sie Ollama als Anbieter und wählen Sie aus Ihren lokal verfügbaren Modellen. Ollama verwendet die OpenAI-kompatible Chat Completions API mit SSE-Streaming, sodass es sich aus der Chat-Schnittstellen-Perspektive identisch zu Cloud-Anbietern verhält.

Einschränkungen

Ollama muss laufen und erreichbar vom Browser sein
Modellqualität und Geschwindigkeit hängen vollständig von Ihrer lokalen Hardware ab
Vision- und Tool-Calling-Unterstützung variiert je nach Modell -- nicht alle Ollama-Modelle unterstützen diese Funktionen
Erste Antwort nach Modellladen kann langsam sein (Modell wird bei erster Verwendung in den Speicher geladen)
Keine Thinking/Reasoning-UI-Integration für lokale Reasoning-Modelle (Reasoning-Ausgabe erscheint inline)

Fehlerbehebung

Problem	Lösung
"Failed to fetch" oder CORS-Fehler	Setzen Sie `OLLAMA_ORIGINS=*` und starten Sie Ollama neu
Keine Modelle im Dropdown	Stellen Sie sicher, dass `ollama serve` läuft und Sie mindestens ein Modell gepullt haben
Sehr langsame Antworten	Modell passt möglicherweise nicht in GPU-VRAM; versuchen Sie ein kleineres Modell oder quantisierte Version
Verbindung abgelehnt	Prüfen Sie, dass Ollama auf dem erwarteten Port läuft (Standard: 11434)
Benutzerdefinierter Endpunkt funktioniert nicht	Stellen Sie sicher, dass die URL das Protokoll (`http://`) enthält und keinen abschließenden Schrägstrich

Warum lokal ausführen?​

Ollama installieren​

CORS-Konfiguration​

Kein API-Schlüssel erforderlich​

Automatische Modellerkennung​

Benutzerdefinierter Endpunkt​

Unterstützte Modelle​

Hardware-Anforderungen​

Konfiguration​

Einschränkungen​

Fehlerbehebung​