Thinking & Reasoning
Einige KI-Modelle können "denken", bevor sie antworten, und zeigen ihren internen Chain-of-Thought-Reasoning-Prozess. AISCouncil unterstützt Extended Thinking über mehrere Anbieter hinweg und lässt Sie sehen, wie das Modell komplexe Probleme durchdenkt.
Was ist Thinking-Modus?
Wenn Reasoning aktiviert ist, generiert das Modell einen internen "Thinking"-Prozess, bevor es seine endgültige Antwort produziert. Diese Thinking-Ausgabe zeigt das schrittweise Denken des Modells, was beinhalten kann:
- Zerlegen komplexer Probleme
- Betrachten mehrerer Ansätze
- Selbstkorrektur von Fehlern
- Durcharbeiten mathematischer Berechnungen
- Abwägen von Kompromissen
Die Thinking-Ausgabe wird in einem einklappbaren Abschnitt über der endgültigen Antwort angezeigt. Klicken Sie, um sie zu erweitern und die vollständige Reasoning-Kette zu sehen.
Unterstützte Anbieter
| Anbieter | Implementierung | Modelle |
|---|---|---|
| Anthropic | Extended Thinking (thinking.budget_tokens) | Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet |
| Google Gemini | ThinkingConfig (thinkingConfig.thinkingBudget) | Gemini 2.5 Pro, Gemini 2.5 Flash |
| OpenAI | Reasoning Effort (reasoning_effort) | o1, o3, o3-mini, o4-mini |
| DeepSeek | Eingebautes Reasoning | DeepSeek R1, DeepSeek R1 (über OpenRouter) |
| OpenRouter | Leitet reasoning_effort an zugrundeliegendes Modell weiter | Jedes reasoning-fähige Modell |
Aufwandsstufen
Das Reasoning-Aufwands-Dropdown steuert, wie viel "Thinking" das Modell vor dem Antworten durchführt:
| Stufe | Token-Budget | Wann zu verwenden |
|---|---|---|
| Standard (Aus) | 0 | Standardantworten, einfache Fragen |
| Niedrig | ~8.192 Tokens | Schnelles Reasoning, einfache Logik |
| Mittel | ~32.768 Tokens | Moderate Komplexität, Codegenerierung |
| Hoch | ~128.000 Tokens | Komplexe Analyse, detaillierte Problemlösung |
| Höchstes (Modell-Max) | Maximale Ausgabe des Modells | Maximale Reasoning-Tiefe für die schwierigsten Probleme |
Token-Budgets sind ungefähr. "Niedrig", "Mittel" und "Hoch" werden auf spezifische Token-Anzahlen abgebildet. "Höchstes (Modell-Max)" schlägt dynamisch die maximale Ausgabekapazität des Modells aus der Registry nach und weist fast alles Thinking zu.
Wie "Höchstes (Modell-Max)" funktioniert
Wenn Sie "Höchstes (Modell-Max)" auswählen, schlägt die Plattform die maximale Ausgabekapazität des ausgewählten Modells aus der Community-Modell-Registry zum Zeitpunkt des Aufrufs nach. Zum Beispiel:
- Claude Opus 4: bis zu ~127.000 Thinking-Tokens
- Gemini 2.5 Pro: bis zu ~64.512 Thinking-Tokens
- Gemini 2.5 Flash: bis zu ~64.512 Thinking-Tokens
Dies stellt sicher, dass Sie immer die maximale Reasoning-Tiefe erhalten, die das Modell unterstützt, auch wenn Modelle mit neuen Limits aktualisiert werden.
Benutzerdefiniertes Budget
Für Anthropic und Gemini können Sie ein exaktes numerisches Token-Budget angeben, indem Sie eine Zahl im Reasoning-Feld eingeben. Zum Beispiel weist die Eingabe von 50000 genau 50.000 Tokens für Thinking zu.
Wo konfigurieren
Pro-Bot (Konfigurations-Panel)
- Öffnen Sie das Konfigurations-Panel (rechte Seitenleiste)
- Erweitern Sie Erweiterte Einstellungen
- Finden Sie das Reasoning-Aufwand-Dropdown
- Wählen Sie Ihre gewünschte Stufe: Standard, Niedrig, Mittel oder Hoch
Pro-Profil (Einstellungen)
- Öffnen Sie Einstellungen > Profil
- Erweitern Sie Erweiterte Einstellungen für das Profil
- Setzen Sie das Reasoning-Aufwand-Dropdown
- Optionen beinhalten: Standard, Niedrig, Mittel, Hoch und Höchstes (Modell-Max)
Pro-Council-Mitglied
- Öffnen Sie die Council-Mitglied-Einstellungen (erweitern Sie eine Mitglied-Zeile)
- Finden Sie das Reasoning-Dropdown
- Unabhängig für jedes Council-Mitglied setzen
In einem Council können Sie Reasoning nur für bestimmte Mitglieder aktivieren. Zum Beispiel geben Sie dem Vorsitzenden "Hoch" Reasoning-Aufwand, während Sie andere Mitglieder auf "Standard" halten, um Kosten und Qualität auszubalancieren.
Wie Thinking-Ausgabe angezeigt wird
Während des Streamings, wenn ein Modell in seiner Thinking-Phase ist, zeigt der Chat einen "Denkt nach..."-Indikator. Sobald Thinking abgeschlossen ist und das Modell seine tatsächliche Antwort beginnt, erscheint die Thinking-Ausgabe als einklappbarer Detail-Abschnitt:
[Denkt nach (12.847 Zeichen)] <-- klicken zum Erweitern
Die tatsächliche Antwort des Modells erscheint hier...
Im Council-Modus wird die Thinking-Ausgabe jedes Mitglieds in einem eigenen einklappbaren Abschnitt innerhalb der Antwortkarte dieses Mitglieds angezeigt.
Anbieter-spezifisches Verhalten
Anthropic (Extended Thinking)
- Verwendet den
thinking-Parameter:{ type: "enabled", budget_tokens: N } - Wichtig: Anthropic erfordert
temperature: 1, wenn Extended Thinking aktiviert ist. Die Plattform erledigt dies automatisch -- Ihre konfigurierte Temperatur wird überschrieben. - Thinking-Ausgabe kommt über
content_block_start(Typthinking) undthinking_delta-Events im SSE-Stream - Der
max_tokens-Parameter wird automatisch erhöht, um sowohl Thinking- als auch Antwort-Tokens aufzunehmen
Google Gemini (ThinkingConfig)
- Verwendet
generationConfig.thinkingConfig.thinkingBudget maxOutputTokenswird automatisch erhöht, wenn Thinking aktiviert ist- Thinking-Ausgabe ist im Gemini-Antwort-Stream enthalten
OpenAI-kompatibel (Reasoning Effort)
- Verwendet den
reasoning_effort-Parameter mit String-Werten:"low","medium","high" - Numerische Budgets und
"max"werden auf"high"für OpenAI-kompatible APIs abgebildet - Reasoning-Ausgabe kommt über
delta.reasoning_contentim SSE-Stream - Funktioniert mit OpenAI, xAI (Grok), OpenRouter und anderen OpenAI-kompatiblen Anbietern
Wann Thinking-Modus verwenden
| Aufgabe | Empfohlene Stufe |
|---|---|
| Einfache Q&A, lockerer Chat | Standard (Aus) |
| Codegenerierung | Mittel |
| Debuggen komplexen Codes | Hoch |
| Mathematische Beweise | Hoch |
| Mehrstufige Analyse | Hoch |
| Forschungssynthese | Mittel bis Hoch |
| Kreatives Schreiben | Standard oder Niedrig |
| Schwierigste Reasoning-Rätsel | Höchstes (Modell-Max) |
Kostenimplikationen
Thinking-Tokens zählen zu Output-Tokens und werden entsprechend abgerechnet. Ein Modell, das 100.000 Tokens "denkt", bevor es eine 2.000-Token-Antwort produziert, wird für 102.000 Output-Tokens abgerechnet. Dies kann die Kosten erheblich erhöhen, besonders auf den Stufen Hoch und Höchstes.
Grobe Kostenmultiplikatoren im Vergleich zu Standard:
| Stufe | Ungefähre Kostenmultiplikator |
|---|---|
| Standard | 1x |
| Niedrig | 2-4x |
| Mittel | 5-15x |
| Hoch | 15-50x |
| Höchstes | 30-100x+ |
Der genaue Multiplikator hängt von der Komplexität der Frage ab. Einfache Fragen mit Hoch-Reasoning verwenden möglicherweise nur einen Bruchteil des Budgets, während komplexe Probleme die volle Zuweisung verwenden können.
Beginnen Sie mit "Mittel" für die meisten Aufgaben und erhöhen Sie nur auf "Hoch" oder "Höchstes", wenn Sie das Modell durch besonders schwierige Probleme arbeiten lassen müssen. Die Qualitätsverbesserung von Niedrig auf Mittel ist normalerweise deutlicher als von Hoch auf Höchstes.