思考与推理
一些 AI 模型可以在响应之前"思考",展示其内部链式思维推理过程。AISCouncil 跨多个提供商支持扩展思考,让您可以看到模型如何推理复杂问题。
什么是思考模式?
启用推理后,模型在生成最终答案之前会产生内部的"思考"过程。这种思考输出显示模型的逐步推理,可能包括:
- 分解复杂问题
- 考虑多种方法
- 自我纠正错误
- 进行数学计算
- 权衡利弊
思考输出显示在最终响应上方的可折叠部分中。点击展开它以查看完整的推理链。
支持的提供商
| 提供商 | 实现 | 模型 |
|---|---|---|
| Anthropic | Extended thinking (thinking.budget_tokens) | Claude Opus 4、Claude Sonnet 4、Claude 3.5 Sonnet |
| Google Gemini | ThinkingConfig (thinkingConfig.thinkingBudget) | Gemini 2.5 Pro、Gemini 2.5 Flash |
| OpenAI | Reasoning effort (reasoning_effort) | o1、o3、o3-mini、o4-mini |
| DeepSeek | 内置推理 | DeepSeek R1、DeepSeek R1(通过 OpenRouter) |
| OpenRouter | 将 reasoning_effort 传递给底层模型 | 任何支持推理的模型 |
投入级别
推理投入下拉菜单控制模型在响应之前"思考"多少:
| 级别 | Token 预算 | 何时使用 |
|---|---|---|
| 默认(关闭) | 0 | 标准响应、简单问题 |
| 低 | 约 8,192 token | 快速推理、简单逻辑 |
| 中 | 约 32,768 token | 中等复杂度、代码生成 |
| 高 | 约 128,000 token | 复杂分析、详细问题解决 |
| 最高(模型最大) | 模型的最大输出 | 最困难问题的最大推理深度 |
Token 预算是近似值。"低"、"中"和"高"映射到特定的 token 数量。"最高(模型最大)"在调用时从社区模型注册表动态查找所选模型的最大输出,并将其几乎全部分配给思考。
"最高(模型最大)"如何工作
当您选择"最高(模型最大)"时,平台在调用时从社区模型注册表查找所选模型的最大输出容量。例如:
- Claude Opus 4:最多约 127,000 思考 token
- Gemini 2.5 Pro:最多约 64,512 思考 token
- Gemini 2.5 Flash:最多约 64,512 思考 token
这确保您始终获得模型支持的最大推理深度,即使模型更新了新限制。
自定义预算
对于 Anthropic 和 Gemini,您可以通过在推理字段中输入数字来指定精确的数值 token 预算。例如,输入 50000 分配正好 50,000 token 用于思考。
配置位置
每机器人(配置面板)
- 打开配置面板(右侧边栏)
- 展开高级设置
- 找到推理投入下拉菜单
- 选择您想要的级别:默认、低、中或高
每配置文件(设置)
- 打开设置 > 配置文件
- 展开配置文件的高级设置
- 设置推理投入下拉菜单
- 选项包括:默认、低、中、高和最高(模型最大)
每委员会成员
- 打开委员会成员设置(展开成员行)
- 找到推理下拉菜单
- 为每个委员会成员独立设置
在委员会中,您可以仅为特定成员启用推理。例如,给主席"高"推理投入,同时让其他成员保持"默认",以平衡成本和质量。
思考输出如何显示
在流式传输期间,当模型处于其思考阶段时,聊天显示"正在思考..."指示器。一旦思考完成,模型开始其实际响应,思考输出显示为可折叠的详情部分:
[思考 (12,847 字符)] <-- 点击展开
模型的实际响应出现在这里...
在委员会模式下,每个成员的思考输出显示在该成员响应卡片内自己的可折叠部分中。
提供商特定行为
Anthropic(扩展思考)
- 使用
thinking参数:{ type: "enabled", budget_tokens: N } - 重要: 启用扩展思考时,Anthropic 要求
temperature: 1。平台自动处理此问题 —— 您配置的温度会被覆盖。 - 思考输出通过 SSE 流中的
content_block_start(类型thinking)和thinking_delta事件到达 max_tokens参数自动增加以容纳思考和响应 token
Google Gemini (ThinkingConfig)
- 使用
generationConfig.thinkingConfig.thinkingBudget - 启用思考时
maxOutputTokens自动增加 - 思考输出包含在 Gemini 响应流中
OpenAI 兼容(推理投入)
- 使用带有字符串值的
reasoning_effort参数:"low"、"medium"、"high" - 数值预算和
"max"对于 OpenAI 兼容 API 映射为"high" - 推理输出通过 SSE 流中的
delta.reasoning_content到达 - 适用于 OpenAI、xAI (Grok)、OpenRouter 和其他 OpenAI 兼容提供商
何时使用思考模式
| 任务 | 推荐级别 |
|---|---|
| 简单问答、休闲聊天 | 默认(关闭) |
| 代码生成 | 中 |
| 调试复杂代码 | 高 |
| 数学证明 | 高 |
| 多步骤分析 | 高 |
| 研究综合 | 中到高 |
| 创意写作 | 默认或低 |
| 最难的推理谜题 | 最高(模型最大) |
成本影响
思考 token 计入输出 token 并相应计费。一个"思考"了 100,000 token 后产生 2,000 token 响应的模型,按 102,000 输出 token 计费。这可能会显著增加成本,特别是在高和最高级别。
与默认相比的粗略成本倍数:
| 级别 | 大约成本倍数 |
|---|---|
| 默认 | 1x |
| 低 | 2-4x |
| 中 | 5-15x |
| 高 | 15-50x |
| 最高 | 30-100x+ |
确切倍数取决于问题的复杂性。带有高推理的简单问题可能只使用预算的一小部分,而复杂问题可能使用全部分配。
大多数任务从"中"开始,只有在需要模型处理特别困难的问题时才增加到"高"或"最高"。从低到中的质量改进通常比从高到最高更明显。