Groq
Groq proporciona inferencia de IA ultra rápida impulsada por hardware LPU (Language Processing Unit) personalizado. Groq no entrena sus propios modelos -- en su lugar, ejecuta modelos populares de código abierto a velocidades dramáticamente más altas que la infraestructura GPU tradicional. Varios modelos están disponibles gratis con límites de tasa.
Obtener una Clave API
- Visita console.groq.com/keys
- Inicia sesión o crea una cuenta (gratis)
- Genera una nueva clave API (comienza con
gsk_...) - Pega la clave en AISCouncil bajo Configuración > Modelo de IA > Groq
Groq ofrece un nivel gratuito con límites de tasa generosos. No se requiere tarjeta de crédito para crear una cuenta y comenzar a usar modelos gratuitos.
Las claves API se almacenan localmente en tu navegador (localStorage) y nunca se incluyen en URLs de bots compartidos.
Modelos Soportados
Modelos Gratuitos
| Modelo | Ventana de Contexto | Salida Máx | Capacidades |
|---|---|---|---|
| Llama 3.3 70B | 128K | 32K | Herramientas, código, transmisión |
| DeepSeek R1 Distill 70B | 128K | 16K | Razonamiento, código, transmisión |
| Compound Beta | 128K | 32K | Herramientas, razonamiento, transmisión |
| Llama 3.1 8B Instant | 128K | 8K | Herramientas, código, transmisión |
| Gemma 2 9B | 8K | 8K | Transmisión |
Modelos Pagados
| Modelo | Ventana de Contexto | Salida Máx | Precio Entrada | Precio Salida | Capacidades |
|---|---|---|---|---|---|
| Llama 4 Scout | 128K | 8K | $0.11/MTok | $0.34/MTok | Visión, herramientas, código |
| Llama 4 Maverick | 128K | 8K | $0.50/MTok | $0.77/MTok | Visión, herramientas, código |
| Qwen3 32B | 128K | 8K | $0.29/MTok | $0.59/MTok | Herramientas, razonamiento |
Los precios son por millón de tokens (MTok).
Los modelos gratuitos tienen límites de tasa que varían por modelo y nivel de cuenta. Los límites típicos son:
- Solicitudes por minuto: 30
- Tokens por minuto: 6,000-15,000
- Solicitudes por día: 1,000-14,400
Consulta console.groq.com para los límites actuales en tu cuenta.
Por Qué Groq es Rápido
Groq usa chips LPU (Language Processing Unit) diseñados personalmente en lugar de GPUs. Los LPUs están construidos específicamente para generación secuencial de tokens, que es el cuello de botella en inferencia de LLM. El resultado:
- Tiempo hasta el primer token: A menudo menos de 100ms
- Velocidad de generación de tokens: 500-800+ tokens/segundo en muchos modelos
- Latencia consistente: Rendimiento predecible sin la variabilidad del batching de GPU
Esto hace a Groq ideal para aplicaciones donde la velocidad de respuesta importa más que el tamaño del modelo.
Soporte de Razonamiento
DeepSeek R1 Distill 70B y Compound Beta soportan razonamiento, mostrando pensamiento paso a paso antes de entregar una respuesta final. Qwen3 32B (pagado) también soporta razonamiento.
Como Groq usa el formato de API compatible con OpenAI, la salida de razonamiento se transmite como reasoning_content y aparece en un bloque de pensamiento colapsable en el chat.
Compound Beta (IA Agentica)
Compound Beta es el sistema de IA compuesta de Groq que combina razonamiento con uso de herramientas. Puede ejecutar tareas de múltiples pasos planificando, razonando y usando herramientas en secuencia. Este modelo es gratis y está disponible con una clave API de Groq.
Soporte de Visión
Los modelos pagados Llama 4 Scout y Llama 4 Maverick soportan entrada de visión. Puedes pegar, subir o arrastrar y soltar imágenes para estos modelos.
Los modelos gratuitos en Groq actualmente no soportan visión.
Llamada de Herramientas
La mayoría de los modelos Groq soportan llamada de funciones/herramientas vía el formato compatible con OpenAI. Esto incluye los modelos gratuitos Llama 3.3 70B y Compound Beta.
API Compatible con OpenAI
Groq usa una API completamente compatible con OpenAI:
- Endpoint estándar
POST /openai/v1/chat/completionsenapi.groq.com - Autenticación Bearer token
- Transmisión SSE
- Llamada de funciones/herramientas
No se necesita configuración especial.
Configuración
Al crear un perfil de bot, selecciona Groq como proveedor y elige tu modelo preferido. Puedes establecer una clave API por bot en el panel de configuración del bot para anular la clave global.
El proveedor Groq usa la API Chat Completions en api.groq.com/openai/v1/chat/completions.
Mejor Para
| Caso de Uso | Modelo Recomendado |
|---|---|
| Chat de velocidad crítica | Llama 3.3 70B (gratis) |
| Razonamiento rápido | DeepSeek R1 Distill 70B (gratis) |
| Flujos de trabajo agentes | Compound Beta (gratis) |
| Tareas ligeras | Llama 3.1 8B Instant (gratis) |
| Tareas de visión | Llama 4 Scout o Maverick (pagado) |
| Código + razonamiento | Qwen3 32B (pagado) |
Consejos para Mejores Resultados
- Usa Groq cuando la velocidad importa. Si necesitas las respuestas más rápidas posibles y puedes trabajar con modelos de código abierto, Groq es la mejor opción.
- Comienza con Llama 3.3 70B. Es gratis, rápido y capaz -- el mejor modelo gratuito de propósito general en Groq.
- Usa DeepSeek R1 Distill para razonamiento. Proporciona fuerte razonamiento de cadena de pensamiento gratis, a velocidades de Groq.
- Combina con otros proveedores en consejos. La velocidad de Groq lo convierte en un excelente miembro de respuesta rápida en consejos multi-modelo, donde puede proporcionar respuestas iniciales rápidas que modelos más lentos y potentes refinan.
- Ten en cuenta los límites de tasa. Los límites de tasa del nivel gratuito pueden alcanzarse rápidamente en uso de alto volumen. Distribuye las solicitudes en el tiempo o actualiza a un plan pagado para límites más altos.