Thinking & Reasoning

Einige KI-Modelle können "denken", bevor sie antworten, und zeigen ihren internen Chain-of-Thought-Reasoning-Prozess. AISCouncil unterstützt Extended Thinking über mehrere Anbieter hinweg und lässt Sie sehen, wie das Modell komplexe Probleme durchdenkt.

Was ist Thinking-Modus?

Wenn Reasoning aktiviert ist, generiert das Modell einen internen "Thinking"-Prozess, bevor es seine endgültige Antwort produziert. Diese Thinking-Ausgabe zeigt das schrittweise Denken des Modells, was beinhalten kann:

Zerlegen komplexer Probleme
Betrachten mehrerer Ansätze
Selbstkorrektur von Fehlern
Durcharbeiten mathematischer Berechnungen
Abwägen von Kompromissen

Die Thinking-Ausgabe wird in einem einklappbaren Abschnitt über der endgültigen Antwort angezeigt. Klicken Sie, um sie zu erweitern und die vollständige Reasoning-Kette zu sehen.

Unterstützte Anbieter

Anbieter	Implementierung	Modelle
Anthropic	Extended Thinking (`thinking.budget_tokens`)	Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet
Google Gemini	ThinkingConfig (`thinkingConfig.thinkingBudget`)	Gemini 2.5 Pro, Gemini 2.5 Flash
OpenAI	Reasoning Effort (`reasoning_effort`)	o1, o3, o3-mini, o4-mini
DeepSeek	Eingebautes Reasoning	DeepSeek R1, DeepSeek R1 (über OpenRouter)
OpenRouter	Leitet reasoning_effort an zugrundeliegendes Modell weiter	Jedes reasoning-fähige Modell

Aufwandsstufen

Das Reasoning-Aufwands-Dropdown steuert, wie viel "Thinking" das Modell vor dem Antworten durchführt:

Stufe	Token-Budget	Wann zu verwenden
Standard (Aus)	0	Standardantworten, einfache Fragen
Niedrig	~8.192 Tokens	Schnelles Reasoning, einfache Logik
Mittel	~32.768 Tokens	Moderate Komplexität, Codegenerierung
Hoch	~128.000 Tokens	Komplexe Analyse, detaillierte Problemlösung
Höchstes (Modell-Max)	Maximale Ausgabe des Modells	Maximale Reasoning-Tiefe für die schwierigsten Probleme

Info

Token-Budgets sind ungefähr. "Niedrig", "Mittel" und "Hoch" werden auf spezifische Token-Anzahlen abgebildet. "Höchstes (Modell-Max)" schlägt dynamisch die maximale Ausgabekapazität des Modells aus der Registry nach und weist fast alles Thinking zu.

Wie "Höchstes (Modell-Max)" funktioniert

Wenn Sie "Höchstes (Modell-Max)" auswählen, schlägt die Plattform die maximale Ausgabekapazität des ausgewählten Modells aus der Community-Modell-Registry zum Zeitpunkt des Aufrufs nach. Zum Beispiel:

Claude Opus 4: bis zu ~127.000 Thinking-Tokens
Gemini 2.5 Pro: bis zu ~64.512 Thinking-Tokens
Gemini 2.5 Flash: bis zu ~64.512 Thinking-Tokens

Dies stellt sicher, dass Sie immer die maximale Reasoning-Tiefe erhalten, die das Modell unterstützt, auch wenn Modelle mit neuen Limits aktualisiert werden.

Benutzerdefiniertes Budget

Für Anthropic und Gemini können Sie ein exaktes numerisches Token-Budget angeben, indem Sie eine Zahl im Reasoning-Feld eingeben. Zum Beispiel weist die Eingabe von 50000 genau 50.000 Tokens für Thinking zu.

Wo konfigurieren

Pro-Bot (Konfigurations-Panel)

Öffnen Sie das Konfigurations-Panel (rechte Seitenleiste)
Erweitern Sie Erweiterte Einstellungen
Finden Sie das Reasoning-Aufwand-Dropdown
Wählen Sie Ihre gewünschte Stufe: Standard, Niedrig, Mittel oder Hoch

Pro-Profil (Einstellungen)

Öffnen Sie Einstellungen > Profil
Erweitern Sie Erweiterte Einstellungen für das Profil
Setzen Sie das Reasoning-Aufwand-Dropdown
Optionen beinhalten: Standard, Niedrig, Mittel, Hoch und Höchstes (Modell-Max)

Pro-Council-Mitglied

Öffnen Sie die Council-Mitglied-Einstellungen (erweitern Sie eine Mitglied-Zeile)
Finden Sie das Reasoning-Dropdown
Unabhängig für jedes Council-Mitglied setzen

Tipp

In einem Council können Sie Reasoning nur für bestimmte Mitglieder aktivieren. Zum Beispiel geben Sie dem Vorsitzenden "Hoch" Reasoning-Aufwand, während Sie andere Mitglieder auf "Standard" halten, um Kosten und Qualität auszubalancieren.

Wie Thinking-Ausgabe angezeigt wird

Während des Streamings, wenn ein Modell in seiner Thinking-Phase ist, zeigt der Chat einen "Denkt nach..."-Indikator. Sobald Thinking abgeschlossen ist und das Modell seine tatsächliche Antwort beginnt, erscheint die Thinking-Ausgabe als einklappbarer Detail-Abschnitt:

[Denkt nach (12.847 Zeichen)]     <-- klicken zum Erweitern

Die tatsächliche Antwort des Modells erscheint hier...

Im Council-Modus wird die Thinking-Ausgabe jedes Mitglieds in einem eigenen einklappbaren Abschnitt innerhalb der Antwortkarte dieses Mitglieds angezeigt.

Anbieter-spezifisches Verhalten

Anthropic (Extended Thinking)

Verwendet den thinking-Parameter: { type: "enabled", budget_tokens: N }
Wichtig: Anthropic erfordert temperature: 1, wenn Extended Thinking aktiviert ist. Die Plattform erledigt dies automatisch -- Ihre konfigurierte Temperatur wird überschrieben.
Thinking-Ausgabe kommt über content_block_start (Typ thinking) und thinking_delta-Events im SSE-Stream
Der max_tokens-Parameter wird automatisch erhöht, um sowohl Thinking- als auch Antwort-Tokens aufzunehmen

Google Gemini (ThinkingConfig)

Verwendet generationConfig.thinkingConfig.thinkingBudget
maxOutputTokens wird automatisch erhöht, wenn Thinking aktiviert ist
Thinking-Ausgabe ist im Gemini-Antwort-Stream enthalten

OpenAI-kompatibel (Reasoning Effort)

Verwendet den reasoning_effort-Parameter mit String-Werten: "low", "medium", "high"
Numerische Budgets und "max" werden auf "high" für OpenAI-kompatible APIs abgebildet
Reasoning-Ausgabe kommt über delta.reasoning_content im SSE-Stream
Funktioniert mit OpenAI, xAI (Grok), OpenRouter und anderen OpenAI-kompatiblen Anbietern

Wann Thinking-Modus verwenden

Aufgabe	Empfohlene Stufe
Einfache Q&A, lockerer Chat	Standard (Aus)
Codegenerierung	Mittel
Debuggen komplexen Codes	Hoch
Mathematische Beweise	Hoch
Mehrstufige Analyse	Hoch
Forschungssynthese	Mittel bis Hoch
Kreatives Schreiben	Standard oder Niedrig
Schwierigste Reasoning-Rätsel	Höchstes (Modell-Max)

Kostenimplikationen

Warnung

Thinking-Tokens zählen zu Output-Tokens und werden entsprechend abgerechnet. Ein Modell, das 100.000 Tokens "denkt", bevor es eine 2.000-Token-Antwort produziert, wird für 102.000 Output-Tokens abgerechnet. Dies kann die Kosten erheblich erhöhen, besonders auf den Stufen Hoch und Höchstes.

Grobe Kostenmultiplikatoren im Vergleich zu Standard:

Stufe	Ungefähre Kostenmultiplikator
Standard	1x
Niedrig	2-4x
Mittel	5-15x
Hoch	15-50x
Höchstes	30-100x+

Der genaue Multiplikator hängt von der Komplexität der Frage ab. Einfache Fragen mit Hoch-Reasoning verwenden möglicherweise nur einen Bruchteil des Budgets, während komplexe Probleme die volle Zuweisung verwenden können.

Tipp

Beginnen Sie mit "Mittel" für die meisten Aufgaben und erhöhen Sie nur auf "Hoch" oder "Höchstes", wenn Sie das Modell durch besonders schwierige Probleme arbeiten lassen müssen. Die Qualitätsverbesserung von Niedrig auf Mittel ist normalerweise deutlicher als von Hoch auf Höchstes.

Was ist Thinking-Modus?​

Unterstützte Anbieter​

Aufwandsstufen​

Wie "Höchstes (Modell-Max)" funktioniert​

Benutzerdefiniertes Budget​

Wo konfigurieren​

Pro-Bot (Konfigurations-Panel)​

Pro-Profil (Einstellungen)​

Pro-Council-Mitglied​

Wie Thinking-Ausgabe angezeigt wird​

Anbieter-spezifisches Verhalten​

Anthropic (Extended Thinking)​

Google Gemini (ThinkingConfig)​

OpenAI-kompatibel (Reasoning Effort)​

Wann Thinking-Modus verwenden​

Kostenimplikationen​