Groq

A Groq fornece inferência de IA ultra-rápida alimentada por hardware LPU (Language Processing Unit) personalizado. A Groq não treina seus próprios modelos -- em vez disso, executa modelos populares de código aberto a velocidades dramaticamente maiores que a infraestrutura GPU tradicional. Vários modelos estão disponíveis gratuitamente com limites de taxa.

Obtendo uma Chave de API

Visite console.groq.com/keys
Entre ou crie uma conta (gratuito)
Gere uma nova chave de API (começa com gsk_...)
Cole a chave no AISCouncil em Configurações > Modelo de IA > Groq

Camada Gratuita

A Groq oferece uma camada gratuita com limites de taxa generosos. Nenhum cartão de crédito é necessário para criar uma conta e começar a usar modelos gratuitos.

As chaves de API são armazenadas localmente no seu navegador (localStorage) e nunca são incluídas em URLs de bots compartilhados.

Modelos Suportados

Modelos Gratuitos

Modelo	Janela de Contexto	Máx. Saída	Recursos
Llama 3.3 70B	128K	32K	Ferramentas, código, streaming
DeepSeek R1 Distill 70B	128K	16K	Raciocínio, código, streaming
Compound Beta	128K	32K	Ferramentas, raciocínio, streaming
Llama 3.1 8B Instant	128K	8K	Ferramentas, código, streaming
Gemma 2 9B	8K	8K	Streaming

Modelos Pagos

Modelo	Janela de Contexto	Máx. Saída	Preço Entrada	Preço Saída	Recursos
Llama 4 Scout	128K	8K	$0.11/MTok	$0.34/MTok	Visão, ferramentas, código
Llama 4 Maverick	128K	8K	$0.50/MTok	$0.77/MTok	Visão, ferramentas, código
Qwen3 32B	128K	8K	$0.29/MTok	$0.59/MTok	Ferramentas, raciocínio

Preços são por milhão de tokens (MTok).

Limites de Taxa de Modelos Gratuitos

Modelos gratuitos têm limites de taxa que variam por modelo e camada de conta. Limites típicos são:

Solicitações por minuto: 30
Tokens por minuto: 6.000-15.000
Solicitações por dia: 1.000-14.400

Verifique console.groq.com para limites atuais na sua conta.

Por Que a Groq é Rápida

A Groq usa chips LPU (Language Processing Unit) projetados sob medida em vez de GPUs. LPUs são construídos especificamente para geração sequencial de tokens, que é o gargalo na inferência de LLM. O resultado:

Tempo para primeiro token: Frequentemente abaixo de 100ms
Velocidade de geração de tokens: 500-800+ tokens/segundo em muitos modelos
Latência consistente: Desempenho previsível sem a variabilidade do batching de GPU

Isso torna Groq ideal para aplicações onde velocidade de resposta importa mais que tamanho do modelo.

Suporte a Raciocínio

DeepSeek R1 Distill 70B e Compound Beta suportam raciocínio, mostrando pensamento passo a passo antes de entregar uma resposta final. Qwen3 32B (pago) também suporta raciocínio.

Como Groq usa o formato de API compatível com OpenAI, a saída de raciocínio é transmitida como reasoning_content e aparece em um bloco de pensamento recolhível no chat.

Compound Beta (IA Agentiva)

Compound Beta é o sistema de IA composta da Groq que combina raciocínio com uso de ferramentas. Pode executar tarefas em múltiplas etapas planejando, raciocinando e usando ferramentas em sequência. Este modelo é gratuito e disponível com uma chave de API Groq.

Suporte a Visão

Os modelos pagos Llama 4 Scout e Llama 4 Maverick suportam entrada de visão. Você pode colar, carregar ou arrastar e soltar imagens para esses modelos.

Modelos gratuitos na Groq atualmente não suportam visão.

Chamada de Ferramentas

A maioria dos modelos Groq suporta chamada de função/ferramenta via formato compatível com OpenAI. Isso inclui os modelos gratuitos Llama 3.3 70B e Compound Beta.

API Compatível com OpenAI

Groq usa uma API totalmente compatível com OpenAI:

Endpoint padrão POST /openai/v1/chat/completions em api.groq.com
Autenticação Bearer token
Streaming SSE
Chamada de ferramenta/função

Nenhuma configuração especial é necessária.

Configuração

Ao criar um perfil de bot, selecione Groq como provedor e escolha seu modelo preferido. Você pode definir uma chave de API por bot no painel de configuração do bot para substituir a chave global.

O provedor Groq usa a API Chat Completions em api.groq.com/openai/v1/chat/completions.

Melhor Para

Caso de Uso	Modelo Recomendado
Chat crítico em velocidade	Llama 3.3 70B (gratuito)
Raciocínio rápido	DeepSeek R1 Distill 70B (gratuito)
Fluxos de trabalho agentivos	Compound Beta (gratuito)
Tarefas leves	Llama 3.1 8B Instant (gratuito)
Tarefas de visão	Llama 4 Scout ou Maverick (pagos)
Código + raciocínio	Qwen3 32B (pago)

Dicas para Melhores Resultados

Use Groq quando velocidade importa. Se você precisa das respostas mais rápidas possíveis e pode trabalhar com modelos de código aberto, Groq é a melhor escolha.
Comece com Llama 3.3 70B. É gratuito, rápido e capaz -- o melhor modelo de propósito geral gratuito na Groq.
Use DeepSeek R1 Distill para raciocínio. Fornece forte raciocínio em cadeia de pensamento gratuitamente, em velocidades Groq.
Combine com outros provedores em conselhos. A velocidade da Groq a torna um excelente membro de resposta rápida em conselhos multi-modelo, onde pode fornecer respostas iniciais rápidas que modelos mais lentos e poderosos refinam.
Fique atento aos limites de taxa. Limites de taxa da camada gratuita podem ser atingidos rapidamente em uso de alto volume. Espalhe solicitações ao longo do tempo ou atualize para um plano pago para limites mais altos.

Obtendo uma Chave de API​

Modelos Suportados​

Modelos Gratuitos​

Modelos Pagos​

Por Que a Groq é Rápida​

Suporte a Raciocínio​

Compound Beta (IA Agentiva)​

Suporte a Visão​

Chamada de Ferramentas​

API Compatível com OpenAI​

Configuração​

Melhor Para​

Dicas para Melhores Resultados​