Conselho de LLM
O recurso Conselho de LLM permite consultar múltiplos modelos de IA simultaneamente e combinar suas respostas em uma única resposta de maior qualidade. Em vez de depender de um modelo, você monta um conselho de 2 ou mais modelos que deliberam juntos.
O Que É um Conselho?
Um conselho é um grupo de perfis de modelos de IA que trabalham juntos em cada mensagem que você envia. Cada membro do conselho pode ser um provedor, modelo e prompt do sistema diferentes. Quando você envia uma mensagem, todos os membros respondem, opcionalmente revisam o trabalho uns dos outros, e um presidente designado sintetiza a resposta final.
Conselhos são especialmente poderosos para:
- Pesquisa -- obter múltiplas perspectivas sobre um tópico
- Revisão de código -- ter diferentes modelos verificando o trabalho uns dos outros
- Tomada de decisão -- ponderar pontos de vista concorrentes
- Garantia de qualidade -- capturar erros que um único modelo pode perder
7 Estilos de Conselho
Cada estilo de conselho define como os modelos interagem. Escolha o estilo que melhor se adapta ao seu caso de uso.
Conselho (Padrão)
O pipeline de deliberação padrão de 3 fases:
- Fase 1 -- Fan-Out: Sua mensagem é enviada a todos os membros em paralelo. Cada modelo gera sua própria resposta independente.
- Fase 2 -- Revisão por Pares: Cada membro revisa as respostas dos outros membros e as classifica do melhor ao pior com raciocínio.
- Fase 3 -- Síntese do Presidente: Um modelo presidente designado lê todas as respostas e revisões por pares, depois produz um relatório final abrangente.
Melhor para: Pesquisa, análise, questões complexas onde você quer cobertura completa.
Comparar
Todos os modelos respondem em paralelo, e suas respostas são exibidas lado a lado em uma grade. Não há votação, revisão por pares ou etapa de síntese.
- Apenas Fase 1 (fan-out)
- Respostas mostradas em colunas
- Sem presidente, sem resposta final
Melhor para: Comparar capacidades de modelos, testar prompts entre modelos, ver como modelos diferentes abordam a mesma questão.
Arena
Modelos competem cabeça a cabeça. Todos os modelos respondem, depois revisão por pares determina um vencedor. A melhor resposta vence.
Melhor para: Encontrar a única melhor resposta, benchmarking competitivo.
MoA (Mistura de Agentes)
Refinamento em camadas onde cada modelo constrói sobre a saída do modelo anterior. Em vez de respostas paralelas independentes, modelos melhoram iterativamente o trabalho uns dos outros.
Melhor para: Tarefas que se beneficiam de melhoria iterativa, como escrita e edição.
Roteador
Roteamento inteligente que escolhe o melhor modelo para cada consulta automaticamente. Em vez de consultar todos os modelos, o roteador analisa sua mensagem e a envia para o único modelo mais apropriado.
Melhor para: Otimização de custo, roteamento de diferentes tipos de perguntas para modelos especializados.
Debate
Modelos são designados para lados opostos (A FAVOR e CONTRA) e argumentam suas posições:
- Argumentos de Abertura: Cada modelo argumenta seu lado designado
- Réplicas: Modelos respondem aos argumentos do lado oposto (número configurável de rodadas)
- Veredito do Moderador: O presidente analisa ambos os lados justamente e entrega um veredito
Lados do debate são designados automaticamente (alternando) ou podem ser definidos manualmente por membro.
Melhor para: Explorar tópicos controversos, testar ideias sob estresse, encontrar fraquezas em argumentos.
Você pode definir o número de rodadas de debate nas configurações do conselho. Mais rodadas significa argumentação mais profunda, mas custos de API mais altos.
Consenso
Modelos votam na melhor resposta sem uma etapa de síntese:
- Todos os modelos respondem independentemente (fan-out)
- Cada modelo revisa e classifica as outras respostas (revisão por pares)
- A resposta com a maior pontuação de votos é selecionada como resposta final
Sem síntese do presidente -- a resposta vencedora é usada como está.
Melhor para: Quando você quer a escolha da multidão em vez de um resumo sintetizado.
Criando um Conselho
Usando o Assistente (Novos Usuários)
- Quando o assistente aparecer, escolha Cluster no Passo 0
- Selecione modelos na aba de predefinições ou adicione modelos personalizados
- Conecte chaves de API para cada provedor (ignorado para modelos gratuitos)
- Configure as configurações do conselho: nome, ícone, estilo e resumo de membros
- Clique Pronto para criar o conselho
A partir de Configurações (Usuários Existentes)
- Abra Configurações e vá para a aba Perfil
- Adicione membros usando o seletor de perfil (cada membro referencia um perfil salvo)
- Defina o estilo de conselho a partir da grade de estilos
- Configure o presidente, modo de votação e número de rodadas
- Salve o perfil
Membros do conselho são sempre referências de perfil. Crie perfis individuais primeiro (um por modelo), depois os monte em um conselho. Isso permite reutilizar o mesmo perfil em múltiplos conselhos.
Membros do Conselho
Cada membro do conselho tem suas próprias configurações que podem substituir os padrões do conselho:
| Configuração | Descrição |
|---|---|
| Perfil | Qual perfil salvo (provedor + modelo) usar |
| Prompt do Sistema | Substituir o prompt do sistema padrão do membro |
| Temperatura | Substituir temperatura para este membro |
| Máx. Tokens | Substituir máximo de tokens de saída |
| Esforço de Raciocínio | Definir nível de pensamento/raciocínio (Desligado, Baixo, Médio, Alto, Máximo) |
| Lado do Debate | Para estilo debate: designar A Favor, Contra ou Automático |
Membros são rotulados A, B, C, etc. para identificação na saída do conselho.
Função de Presidente
O presidente é o modelo responsável por sintetizar a resposta final nos estilos conselho, arena e debate. Por padrão, o primeiro membro (A) é o presidente, mas você pode mudar isso nas configurações do conselho.
O presidente recebe:
- A mensagem original do usuário
- Todas as respostas dos membros da Fase 1
- Todas as classificações de revisão por pares da Fase 2
- Instruções para produzir um relatório de pesquisa abrangente
Escolha seu modelo mais capaz como presidente. O presidente faz o trabalho mais pesado -- ele precisa processar todas as outras respostas e produzir uma síntese coerente.
Modos de Votação
Quando revisão por pares está habilitada, membros classificam as respostas uns dos outros. O modo de votação determina como essas classificações são contabilizadas:
| Modo | Como Funciona |
|---|---|
| Ponderado | Membros ganham pontos baseado na posição de classificação. Primeiro lugar ganha N pontos, segundo ganha N-1, etc. |
| Pluralidade | Apenas votos de primeiro lugar contam. A resposta com mais classificações de primeiro lugar vence. |
Pontuações de votos são exibidas na saída final ao lado da resposta de cada membro.
Estimativa de Custo
Executar um conselho multiplica o uso de API pelo número de membros e fases. Antes de enviar uma mensagem, a plataforma estima o custo baseado em:
- Número de membros
- Número de fases (varia por estilo)
- Contagens de tokens esperadas
- Preços por modelo do registro
A estimativa de custo é mostrada no rodapé da saída do conselho após cada resposta:
Chamadas de API: 7 | Tokens: 24.531 | Custo est.: $0.1847
Conselhos com muitos membros e modelos pagos podem ser caros. Modo comparar é o mais barato (apenas Fase 1), enquanto conselho completo ou debate com múltiplas rodadas é o mais caro.
Streaming ao Vivo
A deliberação do conselho é transmitida em tempo real. Durante a Fase 1, você vê cada resposta de membro aparecer em uma grade conforme gera. Indicadores de status mostram quais membros estão pensando, transmitindo, prontos ou falharam.
Durante a Fase 3, a síntese do presidente é transmitida token por token como uma resposta de chat regular.
Exemplos de Casos de Uso
| Estilo | Caso de Uso | Membros de Exemplo |
|---|---|---|
| Conselho | Relatório de pesquisa sobre um tópico técnico | Claude (analítico) + GPT-4o (amplo) + Grok (contrarian) |
| Comparar | Testando um prompt entre modelos | Gemini Flash + Claude Haiku + GPT-4o mini |
| Arena | Encontrando a melhor solução de código | Claude Sonnet + GPT-4o + DeepSeek Coder |
| MoA | Polindo um post de blog | GPT-4o (rascunho) + Claude (edição) + Gemini (polimento) |
| Roteador | Uso diário misto | Modelo de matemática + Modelo de código + Modelo criativo |
| Debate | Devemos usar microserviços? | 2 modelos A FAVOR + 2 modelos CONTRA |
| Consenso | Qual framework usar? | 3-5 modelos diversos votando |
Conselhos de Modelos Gratuitos
Você pode construir conselhos inteiramente de modelos gratuitos (camada gratuita OpenRouter, camada gratuita Gemini). A plataforma lida automaticamente com limitação de taxa para modelos gratuitos enviando solicitações sequencialmente em vez de em paralelo.
Modelos gratuitos têm limites de taxa mais baixos (tipicamente 8 solicitações por minuto). Execução sequencial significa que deliberação do conselho leva mais tempo, mas funciona confiavelmente sem atingir limites de taxa.