跳到主要内容

思考与推理

一些 AI 模型可以在响应之前"思考",展示其内部链式思维推理过程。AISCouncil 跨多个提供商支持扩展思考,让您可以看到模型如何推理复杂问题。

什么是思考模式?

启用推理后,模型在生成最终答案之前会产生内部的"思考"过程。这种思考输出显示模型的逐步推理,可能包括:

  • 分解复杂问题
  • 考虑多种方法
  • 自我纠正错误
  • 进行数学计算
  • 权衡利弊

思考输出显示在最终响应上方的可折叠部分中。点击展开它以查看完整的推理链。

支持的提供商

提供商实现模型
AnthropicExtended thinking (thinking.budget_tokens)Claude Opus 4、Claude Sonnet 4、Claude 3.5 Sonnet
Google GeminiThinkingConfig (thinkingConfig.thinkingBudget)Gemini 2.5 Pro、Gemini 2.5 Flash
OpenAIReasoning effort (reasoning_effort)o1、o3、o3-mini、o4-mini
DeepSeek内置推理DeepSeek R1、DeepSeek R1(通过 OpenRouter)
OpenRouter将 reasoning_effort 传递给底层模型任何支持推理的模型

投入级别

推理投入下拉菜单控制模型在响应之前"思考"多少:

级别Token 预算何时使用
默认(关闭)0标准响应、简单问题
约 8,192 token快速推理、简单逻辑
约 32,768 token中等复杂度、代码生成
约 128,000 token复杂分析、详细问题解决
最高(模型最大)模型的最大输出最困难问题的最大推理深度
信息

Token 预算是近似值。"低"、"中"和"高"映射到特定的 token 数量。"最高(模型最大)"在调用时从社区模型注册表动态查找所选模型的最大输出,并将其几乎全部分配给思考。

"最高(模型最大)"如何工作

当您选择"最高(模型最大)"时,平台在调用时从社区模型注册表查找所选模型的最大输出容量。例如:

  • Claude Opus 4:最多约 127,000 思考 token
  • Gemini 2.5 Pro:最多约 64,512 思考 token
  • Gemini 2.5 Flash:最多约 64,512 思考 token

这确保您始终获得模型支持的最大推理深度,即使模型更新了新限制。

自定义预算

对于 Anthropic 和 Gemini,您可以通过在推理字段中输入数字来指定精确的数值 token 预算。例如,输入 50000 分配正好 50,000 token 用于思考。

配置位置

每机器人(配置面板)

  1. 打开配置面板(右侧边栏)
  2. 展开高级设置
  3. 找到推理投入下拉菜单
  4. 选择您想要的级别:默认、低、中或高

每配置文件(设置)

  1. 打开设置 > 配置文件
  2. 展开配置文件的高级设置
  3. 设置推理投入下拉菜单
  4. 选项包括:默认、低、中、高和最高(模型最大)

每委员会成员

  1. 打开委员会成员设置(展开成员行)
  2. 找到推理下拉菜单
  3. 为每个委员会成员独立设置
提示

在委员会中,您可以仅为特定成员启用推理。例如,给主席"高"推理投入,同时让其他成员保持"默认",以平衡成本和质量。

思考输出如何显示

在流式传输期间,当模型处于其思考阶段时,聊天显示"正在思考..."指示器。一旦思考完成,模型开始其实际响应,思考输出显示为可折叠的详情部分:

[思考 (12,847 字符)]     <-- 点击展开

模型的实际响应出现在这里...

在委员会模式下,每个成员的思考输出显示在该成员响应卡片内自己的可折叠部分中。

提供商特定行为

Anthropic(扩展思考)

  • 使用 thinking 参数:{ type: "enabled", budget_tokens: N }
  • 重要: 启用扩展思考时,Anthropic 要求 temperature: 1。平台自动处理此问题 —— 您配置的温度会被覆盖。
  • 思考输出通过 SSE 流中的 content_block_start(类型 thinking)和 thinking_delta 事件到达
  • max_tokens 参数自动增加以容纳思考和响应 token

Google Gemini (ThinkingConfig)

  • 使用 generationConfig.thinkingConfig.thinkingBudget
  • 启用思考时 maxOutputTokens 自动增加
  • 思考输出包含在 Gemini 响应流中

OpenAI 兼容(推理投入)

  • 使用带有字符串值的 reasoning_effort 参数:"low""medium""high"
  • 数值预算和 "max" 对于 OpenAI 兼容 API 映射为 "high"
  • 推理输出通过 SSE 流中的 delta.reasoning_content 到达
  • 适用于 OpenAI、xAI (Grok)、OpenRouter 和其他 OpenAI 兼容提供商

何时使用思考模式

任务推荐级别
简单问答、休闲聊天默认(关闭)
代码生成
调试复杂代码
数学证明
多步骤分析
研究综合中到高
创意写作默认或低
最难的推理谜题最高(模型最大)

成本影响

注意

思考 token 计入输出 token 并相应计费。一个"思考"了 100,000 token 后产生 2,000 token 响应的模型,按 102,000 输出 token 计费。这可能会显著增加成本,特别是在高和最高级别。

与默认相比的粗略成本倍数:

级别大约成本倍数
默认1x
2-4x
5-15x
15-50x
最高30-100x+

确切倍数取决于问题的复杂性。带有高推理的简单问题可能只使用预算的一小部分,而复杂问题可能使用全部分配。

提示

大多数任务从"中"开始,只有在需要模型处理特别困难的问题时才增加到"高"或"最高"。从低到中的质量改进通常比从高到最高更明显。