Pular para o conteúdo principal

Pensamento e Raciocínio

Alguns modelos de IA podem "pensar" antes de responder, mostrando seu processo de raciocínio interno em cadeia de pensamento. O AISCouncil suporta pensamento estendido em múltiplos provedores, permitindo ver como o modelo raciocina através de problemas complexos.

O Que É Modo Pensamento?

Quando raciocínio está habilitado, o modelo gera um processo interno de "pensamento" antes de produzir sua resposta final. Esta saída de pensamento mostra o raciocínio passo a passo do modelo, que pode incluir:

  • Decomposição de problemas complexos
  • Consideração de múltiplas abordagens
  • Auto-correção de erros
  • Trabalho através de cálculos matemáticos
  • Avaliação de trade-offs

A saída de pensamento é exibida em uma seção recolhível acima da resposta final. Clique para expandir e ver a cadeia de raciocínio completa.

Provedores Suportados

ProvedorImplementaçãoModelos
AnthropicExtended thinking (thinking.budget_tokens)Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet
Google GeminiThinkingConfig (thinkingConfig.thinkingBudget)Gemini 2.5 Pro, Gemini 2.5 Flash
OpenAIReasoning effort (reasoning_effort)o1, o3, o3-mini, o4-mini
DeepSeekRaciocínio integradoDeepSeek R1, DeepSeek R1 (via OpenRouter)
OpenRouterPassa reasoning_effort para modelo subjacenteQualquer modelo com capacidade de raciocínio

Níveis de Esforço

O menu suspenso de esforço de raciocínio controla quanto "pensamento" o modelo faz antes de responder:

NívelOrçamento de TokensQuando Usar
Padrão (Desligado)0Respostas padrão, perguntas simples
Baixo~8.192 tokensRaciocínio rápido, lógica direta
Médio~32.768 tokensComplexidade moderada, geração de código
Alto~128.000 tokensAnálise complexa, resolução de problemas detalhada
Máximo (Máx. do Modelo)Saída máxima do modeloProfundidade máxima de raciocínio para os problemas mais difíceis
informação

Orçamentos de tokens são aproximados. "Baixo", "Médio" e "Alto" mapeiam para contagens específicas de tokens. "Máximo (Máx. do Modelo)" consulta dinamicamente a capacidade de saída máxima do modelo do registro e aloca quase tudo para pensamento.

Como "Máximo (Máx. do Modelo)" Funciona

Quando você seleciona "Máximo (Máx. do Modelo)", a plataforma consulta a capacidade de saída máxima do modelo selecionado do registro de modelos da comunidade no momento da chamada. Por exemplo:

  • Claude Opus 4: até ~127.000 tokens de pensamento
  • Gemini 2.5 Pro: até ~64.512 tokens de pensamento
  • Gemini 2.5 Flash: até ~64.512 tokens de pensamento

Isso garante que você sempre obtenha a profundidade máxima de raciocínio que o modelo suporta, mesmo conforme modelos são atualizados com novos limites.

Orçamento Personalizado

Para Anthropic e Gemini, você pode especificar um orçamento exato de tokens numéricos inserindo um número no campo de raciocínio. Por exemplo, inserir 50000 aloca exatamente 50.000 tokens para pensamento.

Onde Configurar

Por Bot (Painel de Configuração)

  1. Abra o painel de configuração (barra lateral direita)
  2. Expanda Configurações Avançadas
  3. Encontre o menu suspenso Esforço de Raciocínio
  4. Selecione seu nível desejado: Padrão, Baixo, Médio ou Alto

Por Perfil (Configurações)

  1. Abra Configurações > Perfil
  2. Expanda Configurações Avançadas para o perfil
  3. Defina o menu suspenso Esforço de Raciocínio
  4. Opções incluem: Padrão, Baixo, Médio, Alto e Máximo (Máx. do Modelo)

Por Membro do Conselho

  1. Abra as configurações de membro do conselho (expanda uma linha de membro)
  2. Encontre o menu suspenso Raciocínio
  3. Defina independentemente para cada membro do conselho
dica

Em um conselho, você pode habilitar raciocínio apenas para membros específicos. Por exemplo, dê ao presidente esforço de raciocínio "Alto" enquanto mantém outros membros em "Padrão" para equilibrar custo e qualidade.

Como Saída de Pensamento É Exibida

Durante streaming, quando um modelo está em sua fase de pensamento, o chat mostra um indicador "Pensando...". Uma vez pensamento completado e o modelo começa sua resposta real, a saída de pensamento aparece como uma seção de detalhes recolhível:

[Pensando (12.847 chars)]     <-- clique para expandir

A resposta real do modelo aparece aqui...

No modo conselho, a saída de pensamento de cada membro é mostrada em sua própria seção recolhível dentro do cartão de resposta daquele membro.

Comportamento Específico do Provedor

Anthropic (Extended Thinking)

  • Usa o parâmetro thinking: { type: "enabled", budget_tokens: N }
  • Importante: Anthropic requer temperature: 1 quando pensamento estendido está habilitado. A plataforma lida com isso automaticamente -- sua temperatura configurada é substituída.
  • Saída de pensamento chega via eventos content_block_start (tipo thinking) e thinking_delta no stream SSE
  • O parâmetro max_tokens é automaticamente aumentado para acomodar tanto tokens de pensamento quanto de resposta

Google Gemini (ThinkingConfig)

  • Usa generationConfig.thinkingConfig.thinkingBudget
  • maxOutputTokens é automaticamente aumentado quando pensamento está habilitado
  • Saída de pensamento é incluída no stream de resposta Gemini

Compatível com OpenAI (Reasoning Effort)

  • Usa o parâmetro reasoning_effort com valores string: "low", "medium", "high"
  • Orçamentos numéricos e "max" são mapeados para "high" para APIs compatíveis com OpenAI
  • Saída de raciocínio chega via delta.reasoning_content no stream SSE
  • Funciona com OpenAI, xAI (Grok), OpenRouter e outros provedores compatíveis com OpenAI

Quando Usar Modo Pensamento

TarefaNível Recomendado
Perguntas e respostas simples, chat casualPadrão (Desligado)
Geração de códigoMédio
Depurando código complexoAlto
Provas matemáticasAlto
Análise em múltiplas etapasAlto
Síntese de pesquisaMédio a Alto
Escrita criativaPadrão ou Baixo
Quebra-cabeças de raciocínio mais difíceisMáximo (Máx. do Modelo)

Implicações de Custo

aviso

Tokens de pensamento contam para tokens de saída e são cobrados adequadamente. Um modelo que "pensa" por 100.000 tokens antes de produzir uma resposta de 2.000 tokens é cobrado por 102.000 tokens de saída. Isso pode aumentar significativamente os custos, especialmente nos níveis Alto e Máximo.

Multiplicadores de custo aproximados comparados ao Padrão:

NívelMultiplicador de Custo Aproximado
Padrão1x
Baixo2-4x
Médio5-15x
Alto15-50x
Máximo30-100x+

O multiplicador exato depende da complexidade da pergunta. Perguntas simples com raciocínio Alto podem usar apenas uma fração do orçamento, enquanto problemas complexos podem usar a alocação completa.

dica

Comece com "Médio" para a maioria das tarefas e apenas aumente para "Alto" ou "Máximo" quando precisar que o modelo trabalhe através de problemas particularmente difíceis. A melhoria de qualidade de Baixo para Médio é geralmente mais notável do que de Alto para Máximo.