Groq

Groq proporciona inferencia de IA ultra rápida impulsada por hardware LPU (Language Processing Unit) personalizado. Groq no entrena sus propios modelos -- en su lugar, ejecuta modelos populares de código abierto a velocidades dramáticamente más altas que la infraestructura GPU tradicional. Varios modelos están disponibles gratis con límites de tasa.

Obtener una Clave API

Visita console.groq.com/keys
Inicia sesión o crea una cuenta (gratis)
Genera una nueva clave API (comienza con gsk_...)
Pega la clave en AISCouncil bajo Configuración > Modelo de IA > Groq

Nivel Gratuito

Groq ofrece un nivel gratuito con límites de tasa generosos. No se requiere tarjeta de crédito para crear una cuenta y comenzar a usar modelos gratuitos.

Las claves API se almacenan localmente en tu navegador (localStorage) y nunca se incluyen en URLs de bots compartidos.

Modelos Soportados

Modelos Gratuitos

Modelo	Ventana de Contexto	Salida Máx	Capacidades
Llama 3.3 70B	128K	32K	Herramientas, código, transmisión
DeepSeek R1 Distill 70B	128K	16K	Razonamiento, código, transmisión
Compound Beta	128K	32K	Herramientas, razonamiento, transmisión
Llama 3.1 8B Instant	128K	8K	Herramientas, código, transmisión
Gemma 2 9B	8K	8K	Transmisión

Modelos Pagados

Modelo	Ventana de Contexto	Salida Máx	Precio Entrada	Precio Salida	Capacidades
Llama 4 Scout	128K	8K	$0.11/MTok	$0.34/MTok	Visión, herramientas, código
Llama 4 Maverick	128K	8K	$0.50/MTok	$0.77/MTok	Visión, herramientas, código
Qwen3 32B	128K	8K	$0.29/MTok	$0.59/MTok	Herramientas, razonamiento

Los precios son por millón de tokens (MTok).

Límites de Tasa de Modelos Gratuitos

Los modelos gratuitos tienen límites de tasa que varían por modelo y nivel de cuenta. Los límites típicos son:

Solicitudes por minuto: 30
Tokens por minuto: 6,000-15,000
Solicitudes por día: 1,000-14,400

Consulta console.groq.com para los límites actuales en tu cuenta.

Por Qué Groq es Rápido

Groq usa chips LPU (Language Processing Unit) diseñados personalmente en lugar de GPUs. Los LPUs están construidos específicamente para generación secuencial de tokens, que es el cuello de botella en inferencia de LLM. El resultado:

Tiempo hasta el primer token: A menudo menos de 100ms
Velocidad de generación de tokens: 500-800+ tokens/segundo en muchos modelos
Latencia consistente: Rendimiento predecible sin la variabilidad del batching de GPU

Esto hace a Groq ideal para aplicaciones donde la velocidad de respuesta importa más que el tamaño del modelo.

Soporte de Razonamiento

DeepSeek R1 Distill 70B y Compound Beta soportan razonamiento, mostrando pensamiento paso a paso antes de entregar una respuesta final. Qwen3 32B (pagado) también soporta razonamiento.

Como Groq usa el formato de API compatible con OpenAI, la salida de razonamiento se transmite como reasoning_content y aparece en un bloque de pensamiento colapsable en el chat.

Compound Beta (IA Agentica)

Compound Beta es el sistema de IA compuesta de Groq que combina razonamiento con uso de herramientas. Puede ejecutar tareas de múltiples pasos planificando, razonando y usando herramientas en secuencia. Este modelo es gratis y está disponible con una clave API de Groq.

Soporte de Visión

Los modelos pagados Llama 4 Scout y Llama 4 Maverick soportan entrada de visión. Puedes pegar, subir o arrastrar y soltar imágenes para estos modelos.

Los modelos gratuitos en Groq actualmente no soportan visión.

Llamada de Herramientas

La mayoría de los modelos Groq soportan llamada de funciones/herramientas vía el formato compatible con OpenAI. Esto incluye los modelos gratuitos Llama 3.3 70B y Compound Beta.

API Compatible con OpenAI

Groq usa una API completamente compatible con OpenAI:

Endpoint estándar POST /openai/v1/chat/completions en api.groq.com
Autenticación Bearer token
Transmisión SSE
Llamada de funciones/herramientas

No se necesita configuración especial.

Configuración

Al crear un perfil de bot, selecciona Groq como proveedor y elige tu modelo preferido. Puedes establecer una clave API por bot en el panel de configuración del bot para anular la clave global.

El proveedor Groq usa la API Chat Completions en api.groq.com/openai/v1/chat/completions.

Mejor Para

Caso de Uso	Modelo Recomendado
Chat de velocidad crítica	Llama 3.3 70B (gratis)
Razonamiento rápido	DeepSeek R1 Distill 70B (gratis)
Flujos de trabajo agentes	Compound Beta (gratis)
Tareas ligeras	Llama 3.1 8B Instant (gratis)
Tareas de visión	Llama 4 Scout o Maverick (pagado)
Código + razonamiento	Qwen3 32B (pagado)

Consejos para Mejores Resultados

Usa Groq cuando la velocidad importa. Si necesitas las respuestas más rápidas posibles y puedes trabajar con modelos de código abierto, Groq es la mejor opción.
Comienza con Llama 3.3 70B. Es gratis, rápido y capaz -- el mejor modelo gratuito de propósito general en Groq.
Usa DeepSeek R1 Distill para razonamiento. Proporciona fuerte razonamiento de cadena de pensamiento gratis, a velocidades de Groq.
Combina con otros proveedores en consejos. La velocidad de Groq lo convierte en un excelente miembro de respuesta rápida en consejos multi-modelo, donde puede proporcionar respuestas iniciales rápidas que modelos más lentos y potentes refinan.
Ten en cuenta los límites de tasa. Los límites de tasa del nivel gratuito pueden alcanzarse rápidamente en uso de alto volumen. Distribuye las solicitudes en el tiempo o actualiza a un plan pagado para límites más altos.

Obtener una Clave API​

Modelos Soportados​

Modelos Gratuitos​

Modelos Pagados​

Por Qué Groq es Rápido​

Soporte de Razonamiento​

Compound Beta (IA Agentica)​

Soporte de Visión​

Llamada de Herramientas​

API Compatible con OpenAI​

Configuración​

Mejor Para​

Consejos para Mejores Resultados​