Zum Hauptinhalt springen

Thinking & Reasoning

Einige KI-Modelle können "denken", bevor sie antworten, und zeigen ihren internen Chain-of-Thought-Reasoning-Prozess. AISCouncil unterstützt Extended Thinking über mehrere Anbieter hinweg und lässt Sie sehen, wie das Modell komplexe Probleme durchdenkt.

Was ist Thinking-Modus?

Wenn Reasoning aktiviert ist, generiert das Modell einen internen "Thinking"-Prozess, bevor es seine endgültige Antwort produziert. Diese Thinking-Ausgabe zeigt das schrittweise Denken des Modells, was beinhalten kann:

  • Zerlegen komplexer Probleme
  • Betrachten mehrerer Ansätze
  • Selbstkorrektur von Fehlern
  • Durcharbeiten mathematischer Berechnungen
  • Abwägen von Kompromissen

Die Thinking-Ausgabe wird in einem einklappbaren Abschnitt über der endgültigen Antwort angezeigt. Klicken Sie, um sie zu erweitern und die vollständige Reasoning-Kette zu sehen.

Unterstützte Anbieter

AnbieterImplementierungModelle
AnthropicExtended Thinking (thinking.budget_tokens)Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet
Google GeminiThinkingConfig (thinkingConfig.thinkingBudget)Gemini 2.5 Pro, Gemini 2.5 Flash
OpenAIReasoning Effort (reasoning_effort)o1, o3, o3-mini, o4-mini
DeepSeekEingebautes ReasoningDeepSeek R1, DeepSeek R1 (über OpenRouter)
OpenRouterLeitet reasoning_effort an zugrundeliegendes Modell weiterJedes reasoning-fähige Modell

Aufwandsstufen

Das Reasoning-Aufwands-Dropdown steuert, wie viel "Thinking" das Modell vor dem Antworten durchführt:

StufeToken-BudgetWann zu verwenden
Standard (Aus)0Standardantworten, einfache Fragen
Niedrig~8.192 TokensSchnelles Reasoning, einfache Logik
Mittel~32.768 TokensModerate Komplexität, Codegenerierung
Hoch~128.000 TokensKomplexe Analyse, detaillierte Problemlösung
Höchstes (Modell-Max)Maximale Ausgabe des ModellsMaximale Reasoning-Tiefe für die schwierigsten Probleme
Info

Token-Budgets sind ungefähr. "Niedrig", "Mittel" und "Hoch" werden auf spezifische Token-Anzahlen abgebildet. "Höchstes (Modell-Max)" schlägt dynamisch die maximale Ausgabekapazität des Modells aus der Registry nach und weist fast alles Thinking zu.

Wie "Höchstes (Modell-Max)" funktioniert

Wenn Sie "Höchstes (Modell-Max)" auswählen, schlägt die Plattform die maximale Ausgabekapazität des ausgewählten Modells aus der Community-Modell-Registry zum Zeitpunkt des Aufrufs nach. Zum Beispiel:

  • Claude Opus 4: bis zu ~127.000 Thinking-Tokens
  • Gemini 2.5 Pro: bis zu ~64.512 Thinking-Tokens
  • Gemini 2.5 Flash: bis zu ~64.512 Thinking-Tokens

Dies stellt sicher, dass Sie immer die maximale Reasoning-Tiefe erhalten, die das Modell unterstützt, auch wenn Modelle mit neuen Limits aktualisiert werden.

Benutzerdefiniertes Budget

Für Anthropic und Gemini können Sie ein exaktes numerisches Token-Budget angeben, indem Sie eine Zahl im Reasoning-Feld eingeben. Zum Beispiel weist die Eingabe von 50000 genau 50.000 Tokens für Thinking zu.

Wo konfigurieren

Pro-Bot (Konfigurations-Panel)

  1. Öffnen Sie das Konfigurations-Panel (rechte Seitenleiste)
  2. Erweitern Sie Erweiterte Einstellungen
  3. Finden Sie das Reasoning-Aufwand-Dropdown
  4. Wählen Sie Ihre gewünschte Stufe: Standard, Niedrig, Mittel oder Hoch

Pro-Profil (Einstellungen)

  1. Öffnen Sie Einstellungen > Profil
  2. Erweitern Sie Erweiterte Einstellungen für das Profil
  3. Setzen Sie das Reasoning-Aufwand-Dropdown
  4. Optionen beinhalten: Standard, Niedrig, Mittel, Hoch und Höchstes (Modell-Max)

Pro-Council-Mitglied

  1. Öffnen Sie die Council-Mitglied-Einstellungen (erweitern Sie eine Mitglied-Zeile)
  2. Finden Sie das Reasoning-Dropdown
  3. Unabhängig für jedes Council-Mitglied setzen
Tipp

In einem Council können Sie Reasoning nur für bestimmte Mitglieder aktivieren. Zum Beispiel geben Sie dem Vorsitzenden "Hoch" Reasoning-Aufwand, während Sie andere Mitglieder auf "Standard" halten, um Kosten und Qualität auszubalancieren.

Wie Thinking-Ausgabe angezeigt wird

Während des Streamings, wenn ein Modell in seiner Thinking-Phase ist, zeigt der Chat einen "Denkt nach..."-Indikator. Sobald Thinking abgeschlossen ist und das Modell seine tatsächliche Antwort beginnt, erscheint die Thinking-Ausgabe als einklappbarer Detail-Abschnitt:

[Denkt nach (12.847 Zeichen)]     <-- klicken zum Erweitern

Die tatsächliche Antwort des Modells erscheint hier...

Im Council-Modus wird die Thinking-Ausgabe jedes Mitglieds in einem eigenen einklappbaren Abschnitt innerhalb der Antwortkarte dieses Mitglieds angezeigt.

Anbieter-spezifisches Verhalten

Anthropic (Extended Thinking)

  • Verwendet den thinking-Parameter: { type: "enabled", budget_tokens: N }
  • Wichtig: Anthropic erfordert temperature: 1, wenn Extended Thinking aktiviert ist. Die Plattform erledigt dies automatisch -- Ihre konfigurierte Temperatur wird überschrieben.
  • Thinking-Ausgabe kommt über content_block_start (Typ thinking) und thinking_delta-Events im SSE-Stream
  • Der max_tokens-Parameter wird automatisch erhöht, um sowohl Thinking- als auch Antwort-Tokens aufzunehmen

Google Gemini (ThinkingConfig)

  • Verwendet generationConfig.thinkingConfig.thinkingBudget
  • maxOutputTokens wird automatisch erhöht, wenn Thinking aktiviert ist
  • Thinking-Ausgabe ist im Gemini-Antwort-Stream enthalten

OpenAI-kompatibel (Reasoning Effort)

  • Verwendet den reasoning_effort-Parameter mit String-Werten: "low", "medium", "high"
  • Numerische Budgets und "max" werden auf "high" für OpenAI-kompatible APIs abgebildet
  • Reasoning-Ausgabe kommt über delta.reasoning_content im SSE-Stream
  • Funktioniert mit OpenAI, xAI (Grok), OpenRouter und anderen OpenAI-kompatiblen Anbietern

Wann Thinking-Modus verwenden

AufgabeEmpfohlene Stufe
Einfache Q&A, lockerer ChatStandard (Aus)
CodegenerierungMittel
Debuggen komplexen CodesHoch
Mathematische BeweiseHoch
Mehrstufige AnalyseHoch
ForschungssyntheseMittel bis Hoch
Kreatives SchreibenStandard oder Niedrig
Schwierigste Reasoning-RätselHöchstes (Modell-Max)

Kostenimplikationen

Warnung

Thinking-Tokens zählen zu Output-Tokens und werden entsprechend abgerechnet. Ein Modell, das 100.000 Tokens "denkt", bevor es eine 2.000-Token-Antwort produziert, wird für 102.000 Output-Tokens abgerechnet. Dies kann die Kosten erheblich erhöhen, besonders auf den Stufen Hoch und Höchstes.

Grobe Kostenmultiplikatoren im Vergleich zu Standard:

StufeUngefähre Kostenmultiplikator
Standard1x
Niedrig2-4x
Mittel5-15x
Hoch15-50x
Höchstes30-100x+

Der genaue Multiplikator hängt von der Komplexität der Frage ab. Einfache Fragen mit Hoch-Reasoning verwenden möglicherweise nur einen Bruchteil des Budgets, während komplexe Probleme die volle Zuweisung verwenden können.

Tipp

Beginnen Sie mit "Mittel" für die meisten Aufgaben und erhöhen Sie nur auf "Hoch" oder "Höchstes", wenn Sie das Modell durch besonders schwierige Probleme arbeiten lassen müssen. Die Qualitätsverbesserung von Niedrig auf Mittel ist normalerweise deutlicher als von Hoch auf Höchstes.