Groq
Groq предоставляет сверхбыстрый AI inference на базе кастомного LPU (Language Processing Unit) оборудования. Groq не обучает собственные модели — вместо этого он запускает популярные модели с открытым кодом со значительно более высокими скоростями, чем традиционная GPU-инфраструктура. Несколько моделей доступны бесплатно с ограничениями rate limits.
Получение API-ключа
- Посетите console.groq.com/keys
- Войдите или создайте аккаунт (бесплатно)
- Сгенерируйте новый API-ключ (начинается с
gsk_...) - Вставьте ключ в AISCouncil в Settings > AI Model > Groq
Groq предлагает бесплатный тариф с щедрыми rate limits. Кредитная карта не требуется для создания аккаунта и начала использования бесплатных моделей.
API-ключи хранятся локально в вашем браузере (localStorage) и никогда не включаются в URL общих ботов.
Поддерживаемые модели
Бесплатные модели
| Модель | Контекст | Макс. вывод | Возможности |
|---|---|---|---|
| Llama 3.3 70B | 128K | 32K | Tools, code, streaming |
| DeepSeek R1 Distill 70B | 128K | 16K | Reasoning, code, streaming |
| Compound Beta | 128K | 32K | Tools, reasoning, streaming |
| Llama 3.1 8B Instant | 128K | 8K | Tools, code, streaming |
| Gemma 2 9B | 8K | 8K | Streaming |
Платные модели
| Модель | Контекст | Макс. вывод | Цена входа | Цена вывода | Возможности |
|---|---|---|---|---|---|
| Llama 4 Scout | 128K | 8K | $0.11/MTok | $0.34/MTok | Vision, tools, code |
| Llama 4 Maverick | 128K | 8K | $0.50/MTok | $0.77/MTok | Vision, tools, code |
| Qwen3 32B | 128K | 8K | $0.29/MTok | $0.59/MTok | Tools, reasoning |
Цены за миллион токенов (MTok).
Бесплатные модели имеют rate limits, которые варьируются в зависимости от модели и уровня аккаунта. Типичные лимиты:
- Запросов в минуту: 30
- Токенов в минуту: 6,000-15,000
- Запросов в день: 1,000-14,400
Проверьте console.groq.com для актуальных лимитов вашего аккаунта.
Почему Groq быстрый
Groq использует специально разработанные чипы LPU (Language Processing Unit) вместо GPU. LPU созданы специально для последовательной генерации токенов, что является узким местом в LLM inference. Результат:
- Time to first token: Часто менее 100ms
- Скорость генерации токенов: 500-800+ токенов/секунду на многих моделях
- Стабильная латентность: Предсказуемая производительность без вариативности GPU-батчинга
Это делает Groq идеальным для приложений, где скорость ответа важнее размера модели.
Поддержка Reasoning
DeepSeek R1 Distill 70B и Compound Beta поддерживают reasoning, показывая пошаговое thinking перед выдачей финального ответа. Qwen3 32B (платный) также поддерживает reasoning.
Поскольку Groq использует OpenAI-совместимый формат API, вывод reasoning стримится как reasoning_content и появляется в сворачиваемом блоке thinking в чате.
Compound Beta (Agentic AI)
Compound Beta — это compound AI система Groq, которая сочетает reasoning с использованием инструментов. Она может выполнять многошаговые задачи путём планирования, reasoning и использования инструментов последовательно. Эта модель бесплатна и доступна с API-ключом Groq.
Поддержка Vision
Платные модели Llama 4 Scout и Llama 4 Maverick поддерживают ввод изображений. Вы можете вставлять, загружать или перетаскивать изображения для этих моделей.
Бесплатные модели на Groq в настоящее время не поддерживают vision.
Вызов инструментов
Большинство моделей Groq поддерживают вызов функций/инструментов через OpenAI-совместимый формат. Это включает бесплатные Llama 3.3 70B и Compound Beta модели.
OpenAI-совместимый API
Groq использует полностью OpenAI-совместимый API:
- Стандартный эндпоинт
POST /openai/v1/chat/completionsнаapi.groq.com - Bearer token аутентификация
- SSE стриминг
- Вызов функций/инструментов
Специальная конфигурация не требуется.
Конфигурация
При создании профиля бота выберите Groq как провайдера и выберите предпочтительную модель. Вы можете установить побителей API-ключ в панели конфигурации бота, чтобы перекрыть глобальный ключ.
Провайдер Groq использует Chat Completions API на api.groq.com/openai/v1/chat/completions.
Лучше всего подходит
| Вариант использования | Рекомендуемая модель |
|---|---|
| Скоростной чат | Llama 3.3 70B (free) |
| Быстрый reasoning | DeepSeek R1 Distill 70B (free) |
| Agentic workflows | Compound Beta (free) |
| Легковесные задачи | Llama 3.1 8B Instant (free) |
| Vision задачи | Llama 4 Scout или Maverick (paid) |
| Code + reasoning | Qwen3 32B (paid) |
Советы для лучших результатов
- Используйте Groq, когда важна скорость. Если вам нужны самые быстрые ответы и можете работать с моделями с открытым кодом, Groq — лучший выбор.
- Начните с Llama 3.3 70B. Она бесплатна, быстра и способна — лучшая модель общего назначения бесплатно на Groq.
- Используйте DeepSeek R1 Distill для reasoning. Она обеспечивает сильный chain-of-thought reasoning бесплатно на скоростях Groq.
- Сочетайте с другими провайдерами в советах. Скорость Groq делает его отличным fast-response участником в многомодельных советах, где он может предоставлять быстрые начальные ответы, которые более медленные и мощные модели уточняют.
- Учитывайте rate limits. Rate limits бесплатного тарифа могут быть быстро достигнуты при интенсивном использовании. Распределяйте запросы по времени или перейдите на платный план для более высоких лимитов.