Saltar al contenido principal

Groq

Groq proporciona inferencia de IA ultra rápida impulsada por hardware LPU (Language Processing Unit) personalizado. Groq no entrena sus propios modelos -- en su lugar, ejecuta modelos populares de código abierto a velocidades dramáticamente más altas que la infraestructura GPU tradicional. Varios modelos están disponibles gratis con límites de tasa.

Obtener una Clave API

  1. Visita console.groq.com/keys
  2. Inicia sesión o crea una cuenta (gratis)
  3. Genera una nueva clave API (comienza con gsk_...)
  4. Pega la clave en AISCouncil bajo Configuración > Modelo de IA > Groq
Nivel Gratuito

Groq ofrece un nivel gratuito con límites de tasa generosos. No se requiere tarjeta de crédito para crear una cuenta y comenzar a usar modelos gratuitos.

Las claves API se almacenan localmente en tu navegador (localStorage) y nunca se incluyen en URLs de bots compartidos.

Modelos Soportados

Modelos Gratuitos

ModeloVentana de ContextoSalida MáxCapacidades
Llama 3.3 70B128K32KHerramientas, código, transmisión
DeepSeek R1 Distill 70B128K16KRazonamiento, código, transmisión
Compound Beta128K32KHerramientas, razonamiento, transmisión
Llama 3.1 8B Instant128K8KHerramientas, código, transmisión
Gemma 2 9B8K8KTransmisión

Modelos Pagados

ModeloVentana de ContextoSalida MáxPrecio EntradaPrecio SalidaCapacidades
Llama 4 Scout128K8K$0.11/MTok$0.34/MTokVisión, herramientas, código
Llama 4 Maverick128K8K$0.50/MTok$0.77/MTokVisión, herramientas, código
Qwen3 32B128K8K$0.29/MTok$0.59/MTokHerramientas, razonamiento

Los precios son por millón de tokens (MTok).

Límites de Tasa de Modelos Gratuitos

Los modelos gratuitos tienen límites de tasa que varían por modelo y nivel de cuenta. Los límites típicos son:

  • Solicitudes por minuto: 30
  • Tokens por minuto: 6,000-15,000
  • Solicitudes por día: 1,000-14,400

Consulta console.groq.com para los límites actuales en tu cuenta.

Por Qué Groq es Rápido

Groq usa chips LPU (Language Processing Unit) diseñados personalmente en lugar de GPUs. Los LPUs están construidos específicamente para generación secuencial de tokens, que es el cuello de botella en inferencia de LLM. El resultado:

  • Tiempo hasta el primer token: A menudo menos de 100ms
  • Velocidad de generación de tokens: 500-800+ tokens/segundo en muchos modelos
  • Latencia consistente: Rendimiento predecible sin la variabilidad del batching de GPU

Esto hace a Groq ideal para aplicaciones donde la velocidad de respuesta importa más que el tamaño del modelo.

Soporte de Razonamiento

DeepSeek R1 Distill 70B y Compound Beta soportan razonamiento, mostrando pensamiento paso a paso antes de entregar una respuesta final. Qwen3 32B (pagado) también soporta razonamiento.

Como Groq usa el formato de API compatible con OpenAI, la salida de razonamiento se transmite como reasoning_content y aparece en un bloque de pensamiento colapsable en el chat.

Compound Beta (IA Agentica)

Compound Beta es el sistema de IA compuesta de Groq que combina razonamiento con uso de herramientas. Puede ejecutar tareas de múltiples pasos planificando, razonando y usando herramientas en secuencia. Este modelo es gratis y está disponible con una clave API de Groq.

Soporte de Visión

Los modelos pagados Llama 4 Scout y Llama 4 Maverick soportan entrada de visión. Puedes pegar, subir o arrastrar y soltar imágenes para estos modelos.

Los modelos gratuitos en Groq actualmente no soportan visión.

Llamada de Herramientas

La mayoría de los modelos Groq soportan llamada de funciones/herramientas vía el formato compatible con OpenAI. Esto incluye los modelos gratuitos Llama 3.3 70B y Compound Beta.

API Compatible con OpenAI

Groq usa una API completamente compatible con OpenAI:

  • Endpoint estándar POST /openai/v1/chat/completions en api.groq.com
  • Autenticación Bearer token
  • Transmisión SSE
  • Llamada de funciones/herramientas

No se necesita configuración especial.

Configuración

Al crear un perfil de bot, selecciona Groq como proveedor y elige tu modelo preferido. Puedes establecer una clave API por bot en el panel de configuración del bot para anular la clave global.

El proveedor Groq usa la API Chat Completions en api.groq.com/openai/v1/chat/completions.

Mejor Para

Caso de UsoModelo Recomendado
Chat de velocidad críticaLlama 3.3 70B (gratis)
Razonamiento rápidoDeepSeek R1 Distill 70B (gratis)
Flujos de trabajo agentesCompound Beta (gratis)
Tareas ligerasLlama 3.1 8B Instant (gratis)
Tareas de visiónLlama 4 Scout o Maverick (pagado)
Código + razonamientoQwen3 32B (pagado)

Consejos para Mejores Resultados

  • Usa Groq cuando la velocidad importa. Si necesitas las respuestas más rápidas posibles y puedes trabajar con modelos de código abierto, Groq es la mejor opción.
  • Comienza con Llama 3.3 70B. Es gratis, rápido y capaz -- el mejor modelo gratuito de propósito general en Groq.
  • Usa DeepSeek R1 Distill para razonamiento. Proporciona fuerte razonamiento de cadena de pensamiento gratis, a velocidades de Groq.
  • Combina con otros proveedores en consejos. La velocidad de Groq lo convierte en un excelente miembro de respuesta rápida en consejos multi-modelo, donde puede proporcionar respuestas iniciales rápidas que modelos más lentos y potentes refinan.
  • Ten en cuenta los límites de tasa. Los límites de tasa del nivel gratuito pueden alcanzarse rápidamente en uso de alto volumen. Distribuye las solicitudes en el tiempo o actualiza a un plan pagado para límites más altos.