Pensamento e Raciocínio

Alguns modelos de IA podem "pensar" antes de responder, mostrando seu processo de raciocínio interno em cadeia de pensamento. O AISCouncil suporta pensamento estendido em múltiplos provedores, permitindo ver como o modelo raciocina através de problemas complexos.

O Que É Modo Pensamento?

Quando raciocínio está habilitado, o modelo gera um processo interno de "pensamento" antes de produzir sua resposta final. Esta saída de pensamento mostra o raciocínio passo a passo do modelo, que pode incluir:

Decomposição de problemas complexos
Consideração de múltiplas abordagens
Auto-correção de erros
Trabalho através de cálculos matemáticos
Avaliação de trade-offs

A saída de pensamento é exibida em uma seção recolhível acima da resposta final. Clique para expandir e ver a cadeia de raciocínio completa.

Provedores Suportados

Provedor	Implementação	Modelos
Anthropic	Extended thinking (`thinking.budget_tokens`)	Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet
Google Gemini	ThinkingConfig (`thinkingConfig.thinkingBudget`)	Gemini 2.5 Pro, Gemini 2.5 Flash
OpenAI	Reasoning effort (`reasoning_effort`)	o1, o3, o3-mini, o4-mini
DeepSeek	Raciocínio integrado	DeepSeek R1, DeepSeek R1 (via OpenRouter)
OpenRouter	Passa reasoning_effort para modelo subjacente	Qualquer modelo com capacidade de raciocínio

Níveis de Esforço

O menu suspenso de esforço de raciocínio controla quanto "pensamento" o modelo faz antes de responder:

Nível	Orçamento de Tokens	Quando Usar
Padrão (Desligado)	0	Respostas padrão, perguntas simples
Baixo	~8.192 tokens	Raciocínio rápido, lógica direta
Médio	~32.768 tokens	Complexidade moderada, geração de código
Alto	~128.000 tokens	Análise complexa, resolução de problemas detalhada
Máximo (Máx. do Modelo)	Saída máxima do modelo	Profundidade máxima de raciocínio para os problemas mais difíceis

informação

Orçamentos de tokens são aproximados. "Baixo", "Médio" e "Alto" mapeiam para contagens específicas de tokens. "Máximo (Máx. do Modelo)" consulta dinamicamente a capacidade de saída máxima do modelo do registro e aloca quase tudo para pensamento.

Como "Máximo (Máx. do Modelo)" Funciona

Quando você seleciona "Máximo (Máx. do Modelo)", a plataforma consulta a capacidade de saída máxima do modelo selecionado do registro de modelos da comunidade no momento da chamada. Por exemplo:

Claude Opus 4: até ~127.000 tokens de pensamento
Gemini 2.5 Pro: até ~64.512 tokens de pensamento
Gemini 2.5 Flash: até ~64.512 tokens de pensamento

Isso garante que você sempre obtenha a profundidade máxima de raciocínio que o modelo suporta, mesmo conforme modelos são atualizados com novos limites.

Orçamento Personalizado

Para Anthropic e Gemini, você pode especificar um orçamento exato de tokens numéricos inserindo um número no campo de raciocínio. Por exemplo, inserir 50000 aloca exatamente 50.000 tokens para pensamento.

Onde Configurar

Por Bot (Painel de Configuração)

Abra o painel de configuração (barra lateral direita)
Expanda Configurações Avançadas
Encontre o menu suspenso Esforço de Raciocínio
Selecione seu nível desejado: Padrão, Baixo, Médio ou Alto

Por Perfil (Configurações)

Abra Configurações > Perfil
Expanda Configurações Avançadas para o perfil
Defina o menu suspenso Esforço de Raciocínio
Opções incluem: Padrão, Baixo, Médio, Alto e Máximo (Máx. do Modelo)

Por Membro do Conselho

Abra as configurações de membro do conselho (expanda uma linha de membro)
Encontre o menu suspenso Raciocínio
Defina independentemente para cada membro do conselho

dica

Em um conselho, você pode habilitar raciocínio apenas para membros específicos. Por exemplo, dê ao presidente esforço de raciocínio "Alto" enquanto mantém outros membros em "Padrão" para equilibrar custo e qualidade.

Como Saída de Pensamento É Exibida

Durante streaming, quando um modelo está em sua fase de pensamento, o chat mostra um indicador "Pensando...". Uma vez pensamento completado e o modelo começa sua resposta real, a saída de pensamento aparece como uma seção de detalhes recolhível:

[Pensando (12.847 chars)]     <-- clique para expandir

A resposta real do modelo aparece aqui...

No modo conselho, a saída de pensamento de cada membro é mostrada em sua própria seção recolhível dentro do cartão de resposta daquele membro.

Comportamento Específico do Provedor

Anthropic (Extended Thinking)

Usa o parâmetro thinking: { type: "enabled", budget_tokens: N }
Importante: Anthropic requer temperature: 1 quando pensamento estendido está habilitado. A plataforma lida com isso automaticamente -- sua temperatura configurada é substituída.
Saída de pensamento chega via eventos content_block_start (tipo thinking) e thinking_delta no stream SSE
O parâmetro max_tokens é automaticamente aumentado para acomodar tanto tokens de pensamento quanto de resposta

Google Gemini (ThinkingConfig)

Usa generationConfig.thinkingConfig.thinkingBudget
maxOutputTokens é automaticamente aumentado quando pensamento está habilitado
Saída de pensamento é incluída no stream de resposta Gemini

Compatível com OpenAI (Reasoning Effort)

Usa o parâmetro reasoning_effort com valores string: "low", "medium", "high"
Orçamentos numéricos e "max" são mapeados para "high" para APIs compatíveis com OpenAI
Saída de raciocínio chega via delta.reasoning_content no stream SSE
Funciona com OpenAI, xAI (Grok), OpenRouter e outros provedores compatíveis com OpenAI

Quando Usar Modo Pensamento

Tarefa	Nível Recomendado
Perguntas e respostas simples, chat casual	Padrão (Desligado)
Geração de código	Médio
Depurando código complexo	Alto
Provas matemáticas	Alto
Análise em múltiplas etapas	Alto
Síntese de pesquisa	Médio a Alto
Escrita criativa	Padrão ou Baixo
Quebra-cabeças de raciocínio mais difíceis	Máximo (Máx. do Modelo)

Implicações de Custo

aviso

Tokens de pensamento contam para tokens de saída e são cobrados adequadamente. Um modelo que "pensa" por 100.000 tokens antes de produzir uma resposta de 2.000 tokens é cobrado por 102.000 tokens de saída. Isso pode aumentar significativamente os custos, especialmente nos níveis Alto e Máximo.

Multiplicadores de custo aproximados comparados ao Padrão:

Nível	Multiplicador de Custo Aproximado
Padrão	1x
Baixo	2-4x
Médio	5-15x
Alto	15-50x
Máximo	30-100x+

O multiplicador exato depende da complexidade da pergunta. Perguntas simples com raciocínio Alto podem usar apenas uma fração do orçamento, enquanto problemas complexos podem usar a alocação completa.

dica

Comece com "Médio" para a maioria das tarefas e apenas aumente para "Alto" ou "Máximo" quando precisar que o modelo trabalhe através de problemas particularmente difíceis. A melhoria de qualidade de Baixo para Médio é geralmente mais notável do que de Alto para Máximo.

O Que É Modo Pensamento?​

Provedores Suportados​

Níveis de Esforço​

Como "Máximo (Máx. do Modelo)" Funciona​

Orçamento Personalizado​

Onde Configurar​

Por Bot (Painel de Configuração)​

Por Perfil (Configurações)​

Por Membro do Conselho​

Como Saída de Pensamento É Exibida​

Comportamento Específico do Provedor​

Anthropic (Extended Thinking)​

Google Gemini (ThinkingConfig)​

Compatível com OpenAI (Reasoning Effort)​

Quando Usar Modo Pensamento​

Implicações de Custo​