Groq
Groq는 맞춤형 LPU(Language Processing Unit) 하드웨어로 구동되는 초고속 AI 추론을 제공합니다. Groq는 자체 모델을 훈련하지 않습니다 -- 대신 인기 있는 오픈소스 모델을 기존 GPU 인프라보다 훨씬 빠른 속도로 실행합니다. 여러 모델이 속도 제한과 함께 무료로 제공됩니다.
API 키 얻기
- console.groq.com/keys 방문
- 로그인 또는 계정 생성 (무료)
- 새 API 키 생성 (
gsk_...로 시작) - AISCouncil의 설정 > AI 모델 > Groq에 키 붙여넣기
Groq는 관대한 속도 제한으로 무료 티어를 제공합니다. 계정 생성 및 무료 모델 사용을 시작하는 데 신용카드가 필요 없습니다.
API 키는 브라우저(localStorage)에 로컬로 저장되며 공유 봇 URL에 포함되지 않습니다.
지원되는 모델
무료 모델
| 모델 | 컨텍스트 윈도우 | 최대 출력 | 기능 |
|---|---|---|---|
| Llama 3.3 70B | 128K | 32K | 도구, 코드, 스트리밍 |
| DeepSeek R1 Distill 70B | 128K | 16K | 추론, 코드, 스트리밍 |
| Compound Beta | 128K | 32K | 도구, 추론, 스트리밍 |
| Llama 3.1 8B Instant | 128K | 8K | 도구, 코드, 스트리밍 |
| Gemma 2 9B | 8K | 8K | 스트리밍 |
유료 모델
| 모델 | 컨텍스트 윈도우 | 최대 출력 | 입력 가격 | 출력 가격 | 기능 |
|---|---|---|---|---|---|
| Llama 4 Scout | 128K | 8K | $0.11/MTok | $0.34/MTok | Vision, 도구, 코드 |
| Llama 4 Maverick | 128K | 8K | $0.50/MTok | $0.77/MTok | Vision, 도구, 코드 |
| Qwen3 32B | 128K | 8K | $0.29/MTok | $0.59/MTok | 도구, 추론 |
가격은 백만 토큰당(MTok)입니다.
무료 모델은 모델과 계정 계층에 따라 다른 속도 제한이 있습니다. 일반적인 제한:
- 분당 요청: 30
- 분당 토큰: 6,000-15,000
- 일일 요청: 1,000-14,400
계정의 현재 제한은 console.groq.com에서 확인하세요.
Groq가 빠른 이유
Groq는 GPU 대신 맞춤 설계된 LPU(Language Processing Unit) 칩을 사용합니다. LPU는 LLM 추론의 병목 현상인 순차적 토큰 생성을 위해 특별히 제작되었습니다. 결과:
- 첫 번째 토큰까지의 시간: 종종 100ms 미만
- 토큰 생성 속도: 많은 모델에서 500-800+ 토큰/초
- 일관된 지연 시간: GPU 배치의 가변성 없이 예측 가능한 성능
이것은 응답 속도가 모델 크기보다 중요한 애플리케이션에 Groq를 이상적으로 만듭니다.
추론 지원
DeepSeek R1 Distill 70B와 Compound Beta는 최종 답변 전에 단계별 사고를 보여주는 추론을 지원합니다. Qwen3 32B(유료)도 추론을 지원합니다.
Groq는 OpenAI 호환 API 형식을 사용하므로 추론 출력은 reasoning_content로 스트리밍되어 채팅의 접을 수 있는 사고 블록에 나타납니다.
Compound Beta (에이전트 AI)
Compound Beta는 추론과 도구 사용을 결합한 Groq의 컴파운드 AI 시스템입니다. 계획, 추론 및 도구 사용을 순서대로 실행하여 다단계 작업을 수행할 수 있습니다. 이 모델은 무료이며 Groq API 키로 이용할 수 있습니다.
Vision 지원
유료 Llama 4 Scout와 Llama 4 Maverick 모델은 vision 입력을 지원합니다. 이 모델에 대해 이미지를 붙여넣기, 업로드 또는 드래그 앤 드롭할 수 있습니다.
Groq의 무료 모델은 현재 vision을 지원하지 않습니다.
도구 호출
대부분의 Groq 모델은 OpenAI 호환 형식을 통한 함수/도구 호출을 지원합니다. 여기에는 무료 Llama 3.3 70B와 Compound Beta 모델이 포함됩니다.
OpenAI 호환 API
Groq는 완전히 OpenAI 호환 API를 사용합니다:
api.groq.com의 표준POST /openai/v1/chat/completions엔드포인트- Bearer 토큰 인증
- SSE 스트리밍
- 도구/함수 호출
특별한 설정이 필요 없습니다.
설정
봇 프로필을 만들 때 Groq를 제공업체로 선택하고 원하는 모델을 선택합니다. 봇 설정 패널에서 봇별 API 키를 설정하여 전역 키를 재정의할 수 있습니다.
Groq 제공업체는 api.groq.com/openai/v1/chat/completions의 Chat Completions API를 사용합니다.
용도별 추천
| 용도 | 추천 모델 |
|---|---|
| 속도 중요 채팅 | Llama 3.3 70B (무료) |
| 빠른 추론 | DeepSeek R1 Distill 70B (무료) |
| 에이전트 워크플로 | Compound Beta (무료) |
| 경량 작업 | Llama 3.1 8B Instant (무료) |
| Vision 작업 | Llama 4 Scout 또는 Maverick (유료) |
| 코드 + 추론 | Qwen3 32B (유료) |
최상의 결과를 위한 팁
- 속도가 중요할 때 Groq를 사용하세요. 가능한 가장 빠른 응답이 필요하고 오픈소스 모델로 작업할 수 있다면 Groq가 최고의 선택입니다.
- Llama 3.3 70B로 시작하세요. 무료, 빠르며 유능 -- Groq에서 최고의 일반 목적 무료 모델.
- 추론을 위해 DeepSeek R1 Distill을 사용하세요. Groq 속도로 무료로 강력한 사슬-of-thought 추론을 제공합니다.
- councils에서 다른 제공업체와 페어링하세요. Groq의 속도는 다중 모델 councils에서 훌륭한 빠른 응답 멤버로 만들며, 더 느리고 강력한 모델이 정제하는 빠른 초기 답변을 제공할 수 있습니다.
- 속도 제한에 주의하세요. 무료 티어 속도 제한은 대량 사용 시 빠르게 도달할 수 있습니다. 요청을 시간에 분산하거나 더 높은 제한을 위해 유료 플랜으로 업그레이드하세요.