Groq
A Groq fornece inferência de IA ultra-rápida alimentada por hardware LPU (Language Processing Unit) personalizado. A Groq não treina seus próprios modelos -- em vez disso, executa modelos populares de código aberto a velocidades dramaticamente maiores que a infraestrutura GPU tradicional. Vários modelos estão disponíveis gratuitamente com limites de taxa.
Obtendo uma Chave de API
- Visite console.groq.com/keys
- Entre ou crie uma conta (gratuito)
- Gere uma nova chave de API (começa com
gsk_...) - Cole a chave no AISCouncil em Configurações > Modelo de IA > Groq
A Groq oferece uma camada gratuita com limites de taxa generosos. Nenhum cartão de crédito é necessário para criar uma conta e começar a usar modelos gratuitos.
As chaves de API são armazenadas localmente no seu navegador (localStorage) e nunca são incluídas em URLs de bots compartilhados.
Modelos Suportados
Modelos Gratuitos
| Modelo | Janela de Contexto | Máx. Saída | Recursos |
|---|---|---|---|
| Llama 3.3 70B | 128K | 32K | Ferramentas, código, streaming |
| DeepSeek R1 Distill 70B | 128K | 16K | Raciocínio, código, streaming |
| Compound Beta | 128K | 32K | Ferramentas, raciocínio, streaming |
| Llama 3.1 8B Instant | 128K | 8K | Ferramentas, código, streaming |
| Gemma 2 9B | 8K | 8K | Streaming |
Modelos Pagos
| Modelo | Janela de Contexto | Máx. Saída | Preço Entrada | Preço Saída | Recursos |
|---|---|---|---|---|---|
| Llama 4 Scout | 128K | 8K | $0.11/MTok | $0.34/MTok | Visão, ferramentas, código |
| Llama 4 Maverick | 128K | 8K | $0.50/MTok | $0.77/MTok | Visão, ferramentas, código |
| Qwen3 32B | 128K | 8K | $0.29/MTok | $0.59/MTok | Ferramentas, raciocínio |
Preços são por milhão de tokens (MTok).
Modelos gratuitos têm limites de taxa que variam por modelo e camada de conta. Limites típicos são:
- Solicitações por minuto: 30
- Tokens por minuto: 6.000-15.000
- Solicitações por dia: 1.000-14.400
Verifique console.groq.com para limites atuais na sua conta.
Por Que a Groq é Rápida
A Groq usa chips LPU (Language Processing Unit) projetados sob medida em vez de GPUs. LPUs são construídos especificamente para geração sequencial de tokens, que é o gargalo na inferência de LLM. O resultado:
- Tempo para primeiro token: Frequentemente abaixo de 100ms
- Velocidade de geração de tokens: 500-800+ tokens/segundo em muitos modelos
- Latência consistente: Desempenho previsível sem a variabilidade do batching de GPU
Isso torna Groq ideal para aplicações onde velocidade de resposta importa mais que tamanho do modelo.
Suporte a Raciocínio
DeepSeek R1 Distill 70B e Compound Beta suportam raciocínio, mostrando pensamento passo a passo antes de entregar uma resposta final. Qwen3 32B (pago) também suporta raciocínio.
Como Groq usa o formato de API compatível com OpenAI, a saída de raciocínio é transmitida como reasoning_content e aparece em um bloco de pensamento recolhível no chat.
Compound Beta (IA Agentiva)
Compound Beta é o sistema de IA composta da Groq que combina raciocínio com uso de ferramentas. Pode executar tarefas em múltiplas etapas planejando, raciocinando e usando ferramentas em sequência. Este modelo é gratuito e disponível com uma chave de API Groq.
Suporte a Visão
Os modelos pagos Llama 4 Scout e Llama 4 Maverick suportam entrada de visão. Você pode colar, carregar ou arrastar e soltar imagens para esses modelos.
Modelos gratuitos na Groq atualmente não suportam visão.
Chamada de Ferramentas
A maioria dos modelos Groq suporta chamada de função/ferramenta via formato compatível com OpenAI. Isso inclui os modelos gratuitos Llama 3.3 70B e Compound Beta.
API Compatível com OpenAI
Groq usa uma API totalmente compatível com OpenAI:
- Endpoint padrão
POST /openai/v1/chat/completionsemapi.groq.com - Autenticação Bearer token
- Streaming SSE
- Chamada de ferramenta/função
Nenhuma configuração especial é necessária.
Configuração
Ao criar um perfil de bot, selecione Groq como provedor e escolha seu modelo preferido. Você pode definir uma chave de API por bot no painel de configuração do bot para substituir a chave global.
O provedor Groq usa a API Chat Completions em api.groq.com/openai/v1/chat/completions.
Melhor Para
| Caso de Uso | Modelo Recomendado |
|---|---|
| Chat crítico em velocidade | Llama 3.3 70B (gratuito) |
| Raciocínio rápido | DeepSeek R1 Distill 70B (gratuito) |
| Fluxos de trabalho agentivos | Compound Beta (gratuito) |
| Tarefas leves | Llama 3.1 8B Instant (gratuito) |
| Tarefas de visão | Llama 4 Scout ou Maverick (pagos) |
| Código + raciocínio | Qwen3 32B (pago) |
Dicas para Melhores Resultados
- Use Groq quando velocidade importa. Se você precisa das respostas mais rápidas possíveis e pode trabalhar com modelos de código aberto, Groq é a melhor escolha.
- Comece com Llama 3.3 70B. É gratuito, rápido e capaz -- o melhor modelo de propósito geral gratuito na Groq.
- Use DeepSeek R1 Distill para raciocínio. Fornece forte raciocínio em cadeia de pensamento gratuitamente, em velocidades Groq.
- Combine com outros provedores em conselhos. A velocidade da Groq a torna um excelente membro de resposta rápida em conselhos multi-modelo, onde pode fornecer respostas iniciais rápidas que modelos mais lentos e poderosos refinam.
- Fique atento aos limites de taxa. Limites de taxa da camada gratuita podem ser atingidos rapidamente em uso de alto volume. Espalhe solicitações ao longo do tempo ou atualize para um plano pago para limites mais altos.