Перейти к основному содержимому

Groq

Groq предоставляет сверхбыстрый AI inference на базе кастомного LPU (Language Processing Unit) оборудования. Groq не обучает собственные модели — вместо этого он запускает популярные модели с открытым кодом со значительно более высокими скоростями, чем традиционная GPU-инфраструктура. Несколько моделей доступны бесплатно с ограничениями rate limits.

Получение API-ключа

  1. Посетите console.groq.com/keys
  2. Войдите или создайте аккаунт (бесплатно)
  3. Сгенерируйте новый API-ключ (начинается с gsk_...)
  4. Вставьте ключ в AISCouncil в Settings > AI Model > Groq
Бесплатный тариф

Groq предлагает бесплатный тариф с щедрыми rate limits. Кредитная карта не требуется для создания аккаунта и начала использования бесплатных моделей.

API-ключи хранятся локально в вашем браузере (localStorage) и никогда не включаются в URL общих ботов.

Поддерживаемые модели

Бесплатные модели

МодельКонтекстМакс. выводВозможности
Llama 3.3 70B128K32KTools, code, streaming
DeepSeek R1 Distill 70B128K16KReasoning, code, streaming
Compound Beta128K32KTools, reasoning, streaming
Llama 3.1 8B Instant128K8KTools, code, streaming
Gemma 2 9B8K8KStreaming

Платные модели

МодельКонтекстМакс. выводЦена входаЦена выводаВозможности
Llama 4 Scout128K8K$0.11/MTok$0.34/MTokVision, tools, code
Llama 4 Maverick128K8K$0.50/MTok$0.77/MTokVision, tools, code
Qwen3 32B128K8K$0.29/MTok$0.59/MTokTools, reasoning

Цены за миллион токенов (MTok).

Rate Limits бесплатных моделей

Бесплатные модели имеют rate limits, которые варьируются в зависимости от модели и уровня аккаунта. Типичные лимиты:

  • Запросов в минуту: 30
  • Токенов в минуту: 6,000-15,000
  • Запросов в день: 1,000-14,400

Проверьте console.groq.com для актуальных лимитов вашего аккаунта.

Почему Groq быстрый

Groq использует специально разработанные чипы LPU (Language Processing Unit) вместо GPU. LPU созданы специально для последовательной генерации токенов, что является узким местом в LLM inference. Результат:

  • Time to first token: Часто менее 100ms
  • Скорость генерации токенов: 500-800+ токенов/секунду на многих моделях
  • Стабильная латентность: Предсказуемая производительность без вариативности GPU-батчинга

Это делает Groq идеальным для приложений, где скорость ответа важнее размера модели.

Поддержка Reasoning

DeepSeek R1 Distill 70B и Compound Beta поддерживают reasoning, показывая пошаговое thinking перед выдачей финального ответа. Qwen3 32B (платный) также поддерживает reasoning.

Поскольку Groq использует OpenAI-совместимый формат API, вывод reasoning стримится как reasoning_content и появляется в сворачиваемом блоке thinking в чате.

Compound Beta (Agentic AI)

Compound Beta — это compound AI система Groq, которая сочетает reasoning с использованием инструментов. Она может выполнять многошаговые задачи путём планирования, reasoning и использования инструментов последовательно. Эта модель бесплатна и доступна с API-ключом Groq.

Поддержка Vision

Платные модели Llama 4 Scout и Llama 4 Maverick поддерживают ввод изображений. Вы можете вставлять, загружать или перетаскивать изображения для этих моделей.

Бесплатные модели на Groq в настоящее время не поддерживают vision.

Вызов инструментов

Большинство моделей Groq поддерживают вызов функций/инструментов через OpenAI-совместимый формат. Это включает бесплатные Llama 3.3 70B и Compound Beta модели.

OpenAI-совместимый API

Groq использует полностью OpenAI-совместимый API:

  • Стандартный эндпоинт POST /openai/v1/chat/completions на api.groq.com
  • Bearer token аутентификация
  • SSE стриминг
  • Вызов функций/инструментов

Специальная конфигурация не требуется.

Конфигурация

При создании профиля бота выберите Groq как провайдера и выберите предпочтительную модель. Вы можете установить побителей API-ключ в панели конфигурации бота, чтобы перекрыть глобальный ключ.

Провайдер Groq использует Chat Completions API на api.groq.com/openai/v1/chat/completions.

Лучше всего подходит

Вариант использованияРекомендуемая модель
Скоростной чатLlama 3.3 70B (free)
Быстрый reasoningDeepSeek R1 Distill 70B (free)
Agentic workflowsCompound Beta (free)
Легковесные задачиLlama 3.1 8B Instant (free)
Vision задачиLlama 4 Scout или Maverick (paid)
Code + reasoningQwen3 32B (paid)

Советы для лучших результатов

  • Используйте Groq, когда важна скорость. Если вам нужны самые быстрые ответы и можете работать с моделями с открытым кодом, Groq — лучший выбор.
  • Начните с Llama 3.3 70B. Она бесплатна, быстра и способна — лучшая модель общего назначения бесплатно на Groq.
  • Используйте DeepSeek R1 Distill для reasoning. Она обеспечивает сильный chain-of-thought reasoning бесплатно на скоростях Groq.
  • Сочетайте с другими провайдерами в советах. Скорость Groq делает его отличным fast-response участником в многомодельных советах, где он может предоставлять быстрые начальные ответы, которые более медленные и мощные модели уточняют.
  • Учитывайте rate limits. Rate limits бесплатного тарифа могут быть быстро достигнуты при интенсивном использовании. Распределяйте запросы по времени или перейдите на платный план для более высоких лимитов.