Pensamento e Raciocínio
Alguns modelos de IA podem "pensar" antes de responder, mostrando seu processo de raciocínio interno em cadeia de pensamento. O AISCouncil suporta pensamento estendido em múltiplos provedores, permitindo ver como o modelo raciocina através de problemas complexos.
O Que É Modo Pensamento?
Quando raciocínio está habilitado, o modelo gera um processo interno de "pensamento" antes de produzir sua resposta final. Esta saída de pensamento mostra o raciocínio passo a passo do modelo, que pode incluir:
- Decomposição de problemas complexos
- Consideração de múltiplas abordagens
- Auto-correção de erros
- Trabalho através de cálculos matemáticos
- Avaliação de trade-offs
A saída de pensamento é exibida em uma seção recolhível acima da resposta final. Clique para expandir e ver a cadeia de raciocínio completa.
Provedores Suportados
| Provedor | Implementação | Modelos |
|---|---|---|
| Anthropic | Extended thinking (thinking.budget_tokens) | Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet |
| Google Gemini | ThinkingConfig (thinkingConfig.thinkingBudget) | Gemini 2.5 Pro, Gemini 2.5 Flash |
| OpenAI | Reasoning effort (reasoning_effort) | o1, o3, o3-mini, o4-mini |
| DeepSeek | Raciocínio integrado | DeepSeek R1, DeepSeek R1 (via OpenRouter) |
| OpenRouter | Passa reasoning_effort para modelo subjacente | Qualquer modelo com capacidade de raciocínio |
Níveis de Esforço
O menu suspenso de esforço de raciocínio controla quanto "pensamento" o modelo faz antes de responder:
| Nível | Orçamento de Tokens | Quando Usar |
|---|---|---|
| Padrão (Desligado) | 0 | Respostas padrão, perguntas simples |
| Baixo | ~8.192 tokens | Raciocínio rápido, lógica direta |
| Médio | ~32.768 tokens | Complexidade moderada, geração de código |
| Alto | ~128.000 tokens | Análise complexa, resolução de problemas detalhada |
| Máximo (Máx. do Modelo) | Saída máxima do modelo | Profundidade máxima de raciocínio para os problemas mais difíceis |
Orçamentos de tokens são aproximados. "Baixo", "Médio" e "Alto" mapeiam para contagens específicas de tokens. "Máximo (Máx. do Modelo)" consulta dinamicamente a capacidade de saída máxima do modelo do registro e aloca quase tudo para pensamento.
Como "Máximo (Máx. do Modelo)" Funciona
Quando você seleciona "Máximo (Máx. do Modelo)", a plataforma consulta a capacidade de saída máxima do modelo selecionado do registro de modelos da comunidade no momento da chamada. Por exemplo:
- Claude Opus 4: até ~127.000 tokens de pensamento
- Gemini 2.5 Pro: até ~64.512 tokens de pensamento
- Gemini 2.5 Flash: até ~64.512 tokens de pensamento
Isso garante que você sempre obtenha a profundidade máxima de raciocínio que o modelo suporta, mesmo conforme modelos são atualizados com novos limites.
Orçamento Personalizado
Para Anthropic e Gemini, você pode especificar um orçamento exato de tokens numéricos inserindo um número no campo de raciocínio. Por exemplo, inserir 50000 aloca exatamente 50.000 tokens para pensamento.
Onde Configurar
Por Bot (Painel de Configuração)
- Abra o painel de configuração (barra lateral direita)
- Expanda Configurações Avançadas
- Encontre o menu suspenso Esforço de Raciocínio
- Selecione seu nível desejado: Padrão, Baixo, Médio ou Alto
Por Perfil (Configurações)
- Abra Configurações > Perfil
- Expanda Configurações Avançadas para o perfil
- Defina o menu suspenso Esforço de Raciocínio
- Opções incluem: Padrão, Baixo, Médio, Alto e Máximo (Máx. do Modelo)
Por Membro do Conselho
- Abra as configurações de membro do conselho (expanda uma linha de membro)
- Encontre o menu suspenso Raciocínio
- Defina independentemente para cada membro do conselho
Em um conselho, você pode habilitar raciocínio apenas para membros específicos. Por exemplo, dê ao presidente esforço de raciocínio "Alto" enquanto mantém outros membros em "Padrão" para equilibrar custo e qualidade.
Como Saída de Pensamento É Exibida
Durante streaming, quando um modelo está em sua fase de pensamento, o chat mostra um indicador "Pensando...". Uma vez pensamento completado e o modelo começa sua resposta real, a saída de pensamento aparece como uma seção de detalhes recolhível:
[Pensando (12.847 chars)] <-- clique para expandir
A resposta real do modelo aparece aqui...
No modo conselho, a saída de pensamento de cada membro é mostrada em sua própria seção recolhível dentro do cartão de resposta daquele membro.
Comportamento Específico do Provedor
Anthropic (Extended Thinking)
- Usa o parâmetro
thinking:{ type: "enabled", budget_tokens: N } - Importante: Anthropic requer
temperature: 1quando pensamento estendido está habilitado. A plataforma lida com isso automaticamente -- sua temperatura configurada é substituída. - Saída de pensamento chega via eventos
content_block_start(tipothinking) ethinking_deltano stream SSE - O parâmetro
max_tokensé automaticamente aumentado para acomodar tanto tokens de pensamento quanto de resposta
Google Gemini (ThinkingConfig)
- Usa
generationConfig.thinkingConfig.thinkingBudget maxOutputTokensé automaticamente aumentado quando pensamento está habilitado- Saída de pensamento é incluída no stream de resposta Gemini
Compatível com OpenAI (Reasoning Effort)
- Usa o parâmetro
reasoning_effortcom valores string:"low","medium","high" - Orçamentos numéricos e
"max"são mapeados para"high"para APIs compatíveis com OpenAI - Saída de raciocínio chega via
delta.reasoning_contentno stream SSE - Funciona com OpenAI, xAI (Grok), OpenRouter e outros provedores compatíveis com OpenAI
Quando Usar Modo Pensamento
| Tarefa | Nível Recomendado |
|---|---|
| Perguntas e respostas simples, chat casual | Padrão (Desligado) |
| Geração de código | Médio |
| Depurando código complexo | Alto |
| Provas matemáticas | Alto |
| Análise em múltiplas etapas | Alto |
| Síntese de pesquisa | Médio a Alto |
| Escrita criativa | Padrão ou Baixo |
| Quebra-cabeças de raciocínio mais difíceis | Máximo (Máx. do Modelo) |
Implicações de Custo
Tokens de pensamento contam para tokens de saída e são cobrados adequadamente. Um modelo que "pensa" por 100.000 tokens antes de produzir uma resposta de 2.000 tokens é cobrado por 102.000 tokens de saída. Isso pode aumentar significativamente os custos, especialmente nos níveis Alto e Máximo.
Multiplicadores de custo aproximados comparados ao Padrão:
| Nível | Multiplicador de Custo Aproximado |
|---|---|
| Padrão | 1x |
| Baixo | 2-4x |
| Médio | 5-15x |
| Alto | 15-50x |
| Máximo | 30-100x+ |
O multiplicador exato depende da complexidade da pergunta. Perguntas simples com raciocínio Alto podem usar apenas uma fração do orçamento, enquanto problemas complexos podem usar a alocação completa.
Comece com "Médio" para a maioria das tarefas e apenas aumente para "Alto" ou "Máximo" quando precisar que o modelo trabalhe através de problemas particularmente difíceis. A melhoria de qualidade de Baixo para Médio é geralmente mais notável do que de Alto para Máximo.