Groq

Groq предоставляет сверхбыстрый AI inference на базе кастомного LPU (Language Processing Unit) оборудования. Groq не обучает собственные модели — вместо этого он запускает популярные модели с открытым кодом со значительно более высокими скоростями, чем традиционная GPU-инфраструктура. Несколько моделей доступны бесплатно с ограничениями rate limits.

Получение API-ключа

Посетите console.groq.com/keys
Войдите или создайте аккаунт (бесплатно)
Сгенерируйте новый API-ключ (начинается с gsk_...)
Вставьте ключ в AISCouncil в Settings > AI Model > Groq

Бесплатный тариф

Groq предлагает бесплатный тариф с щедрыми rate limits. Кредитная карта не требуется для создания аккаунта и начала использования бесплатных моделей.

API-ключи хранятся локально в вашем браузере (localStorage) и никогда не включаются в URL общих ботов.

Поддерживаемые модели

Бесплатные модели

Модель	Контекст	Макс. вывод	Возможности
Llama 3.3 70B	128K	32K	Tools, code, streaming
DeepSeek R1 Distill 70B	128K	16K	Reasoning, code, streaming
Compound Beta	128K	32K	Tools, reasoning, streaming
Llama 3.1 8B Instant	128K	8K	Tools, code, streaming
Gemma 2 9B	8K	8K	Streaming

Платные модели

Модель	Контекст	Макс. вывод	Цена входа	Цена вывода	Возможности
Llama 4 Scout	128K	8K	$0.11/MTok	$0.34/MTok	Vision, tools, code
Llama 4 Maverick	128K	8K	$0.50/MTok	$0.77/MTok	Vision, tools, code
Qwen3 32B	128K	8K	$0.29/MTok	$0.59/MTok	Tools, reasoning

Цены за миллион токенов (MTok).

Rate Limits бесплатных моделей

Бесплатные модели имеют rate limits, которые варьируются в зависимости от модели и уровня аккаунта. Типичные лимиты:

Запросов в минуту: 30
Токенов в минуту: 6,000-15,000
Запросов в день: 1,000-14,400

Проверьте console.groq.com для актуальных лимитов вашего аккаунта.

Почему Groq быстрый

Groq использует специально разработанные чипы LPU (Language Processing Unit) вместо GPU. LPU созданы специально для последовательной генерации токенов, что является узким местом в LLM inference. Результат:

Time to first token: Часто менее 100ms
Скорость генерации токенов: 500-800+ токенов/секунду на многих моделях
Стабильная латентность: Предсказуемая производительность без вариативности GPU-батчинга

Это делает Groq идеальным для приложений, где скорость ответа важнее размера модели.

Поддержка Reasoning

DeepSeek R1 Distill 70B и Compound Beta поддерживают reasoning, показывая пошаговое thinking перед выдачей финального ответа. Qwen3 32B (платный) также поддерживает reasoning.

Поскольку Groq использует OpenAI-совместимый формат API, вывод reasoning стримится как reasoning_content и появляется в сворачиваемом блоке thinking в чате.

Compound Beta (Agentic AI)

Compound Beta — это compound AI система Groq, которая сочетает reasoning с использованием инструментов. Она может выполнять многошаговые задачи путём планирования, reasoning и использования инструментов последовательно. Эта модель бесплатна и доступна с API-ключом Groq.

Поддержка Vision

Платные модели Llama 4 Scout и Llama 4 Maverick поддерживают ввод изображений. Вы можете вставлять, загружать или перетаскивать изображения для этих моделей.

Бесплатные модели на Groq в настоящее время не поддерживают vision.

Вызов инструментов

Большинство моделей Groq поддерживают вызов функций/инструментов через OpenAI-совместимый формат. Это включает бесплатные Llama 3.3 70B и Compound Beta модели.

OpenAI-совместимый API

Groq использует полностью OpenAI-совместимый API:

Стандартный эндпоинт POST /openai/v1/chat/completions на api.groq.com
Bearer token аутентификация
SSE стриминг
Вызов функций/инструментов

Специальная конфигурация не требуется.

Конфигурация

При создании профиля бота выберите Groq как провайдера и выберите предпочтительную модель. Вы можете установить побителей API-ключ в панели конфигурации бота, чтобы перекрыть глобальный ключ.

Провайдер Groq использует Chat Completions API на api.groq.com/openai/v1/chat/completions.

Лучше всего подходит

Вариант использования	Рекомендуемая модель
Скоростной чат	Llama 3.3 70B (free)
Быстрый reasoning	DeepSeek R1 Distill 70B (free)
Agentic workflows	Compound Beta (free)
Легковесные задачи	Llama 3.1 8B Instant (free)
Vision задачи	Llama 4 Scout или Maverick (paid)
Code + reasoning	Qwen3 32B (paid)

Советы для лучших результатов

Используйте Groq, когда важна скорость. Если вам нужны самые быстрые ответы и можете работать с моделями с открытым кодом, Groq — лучший выбор.
Начните с Llama 3.3 70B. Она бесплатна, быстра и способна — лучшая модель общего назначения бесплатно на Groq.
Используйте DeepSeek R1 Distill для reasoning. Она обеспечивает сильный chain-of-thought reasoning бесплатно на скоростях Groq.
Сочетайте с другими провайдерами в советах. Скорость Groq делает его отличным fast-response участником в многомодельных советах, где он может предоставлять быстрые начальные ответы, которые более медленные и мощные модели уточняют.
Учитывайте rate limits. Rate limits бесплатного тарифа могут быть быстро достигнуты при интенсивном использовании. Распределяйте запросы по времени или перейдите на платный план для более высоких лимитов.

Получение API-ключа​

Поддерживаемые модели​

Бесплатные модели​

Платные модели​

Почему Groq быстрый​

Поддержка Reasoning​

Compound Beta (Agentic AI)​

Поддержка Vision​

Вызов инструментов​

OpenAI-совместимый API​

Конфигурация​

Лучше всего подходит​

Советы для лучших результатов​