Groq
Groq bietet ultraschnelle KI-Inferenz angetrieben von spezieller LPU-Hardware (Language Processing Unit). Groq trainiert keine eigenen Modelle -- stattdessen läuft es beliebte Open-Source-Modelle drastisch schneller als traditionelle GPU-Infrastruktur. Mehrere Modelle sind kostenlos mit Ratenlimits verfügbar.
API-Schlüssel erhalten
- Besuchen Sie console.groq.com/keys
- Melden Sie sich an oder erstellen Sie ein Konto (kostenlos)
- Generieren Sie einen neuen API-Schlüssel (beginnt mit
gsk_...) - Fügen Sie den Schlüssel in AISCouncil unter Einstellungen > KI-Modell > Groq ein
Groq bietet eine kostenlose Stufe mit großzügigen Ratenlimits. Keine Kreditkarte ist erforderlich, um ein Konto zu erstellen und kostenlose Modelle zu nutzen.
API-Schlüssel werden lokal in Ihrem Browser (localStorage) gespeichert und niemals in geteilten Bot-URLs eingeschlossen.
Unterstützte Modelle
Kostenlose Modelle
| Modell | Kontextfenster | Max. Ausgabe | Fähigkeiten |
|---|---|---|---|
| Llama 3.3 70B | 128K | 32K | Tools, Code, Streaming |
| DeepSeek R1 Distill 70B | 128K | 16K | Reasoning, Code, Streaming |
| Compound Beta | 128K | 32K | Tools, Reasoning, Streaming |
| Llama 3.1 8B Instant | 128K | 8K | Tools, Code, Streaming |
| Gemma 2 9B | 8K | 8K | Streaming |
Bezahlte Modelle
| Modell | Kontextfenster | Max. Ausgabe | Input-Preis | Output-Preis | Fähigkeiten |
|---|---|---|---|---|---|
| Llama 4 Scout | 128K | 8K | 0,11$/MTok | 0,34$/MTok | Vision, Tools, Code |
| Llama 4 Maverick | 128K | 8K | 0,50$/MTok | 0,77$/MTok | Vision, Tools, Code |
| Qwen3 32B | 128K | 8K | 0,29$/MTok | 0,59$/MTok | Tools, Reasoning |
Preise pro Million Tokens (MTok).
Kostenlose Modelle haben Ratenlimits, die je nach Modell und Konto-Stufe variieren. Typische Limits sind:
- Anfragen pro Minute: 30
- Tokens pro Minute: 6.000-15.000
- Anfragen pro Tag: 1.000-14.400
Prüfen Sie console.groq.com für aktuelle Limits auf Ihrem Konto.
Warum Groq schnell ist
Groq verwendet speziell entwickelte LPU-Chips (Language Processing Unit) statt GPUs. LPUs sind speziell für sequenzielle Token-Generierung gebaut, was der Engpass bei LLM-Inferenz ist. Das Ergebnis:
- Zeit bis zum ersten Token: Oft unter 100ms
- Token-Generierungsgeschwindigkeit: 500-800+ Tokens/Sekunde bei vielen Modellen
- Konsistente Latenz: Vorhersagbare Leistung ohne die Variabilität von GPU-Batching
Das macht Groq ideal für Anwendungen, bei denen Antwortgeschwindigkeit wichtiger ist als Modellgröße.
Reasoning-Unterstützung
DeepSeek R1 Distill 70B und Compound Beta unterstützen Reasoning und zeigen schrittweises Denken, bevor sie eine endgültige Antwort liefern. Qwen3 32B (bezahlt) unterstützt ebenfalls Reasoning.
Da Groq das OpenAI-kompatible API-Format verwendet, wird Reasoning-Ausgabe als reasoning_content gestreamt und erscheint in einem einklappbaren Thinking-Block im Chat.
Compound Beta (Agentische KI)
Compound Beta ist Groqs zusammengesetztes KI-System, das Reasoning mit Tool-Nutzung kombiniert. Es kann mehrstufige Aufgaben ausführen, indem es plant, schlussfolgert und Tools nacheinander verwendet. Dieses Modell ist kostenlos und mit einem Groq-API-Schlüssel verfügbar.
Vision-Unterstützung
Die bezahlten Llama 4 Scout und Llama 4 Maverick Modelle unterstützen Vision-Input. Sie können Bilder einfügen, hochladen oder per Drag & Drop für diese Modelle ziehen.
Kostenlose Modelle auf Groq unterstützen derzeit kein Vision.
Tool-Calling
Die meisten Groq-Modelle unterstützen Funktions-/Tool-Calling über das OpenAI-kompatible Format. Dies schließt die kostenlosen Llama 3.3 70B und Compound Beta Modelle ein.
OpenAI-kompatible API
Groq verwendet eine vollständig OpenAI-kompatible API:
- Standard
POST /openai/v1/chat/completions-Endpunkt unterapi.groq.com - Bearer-Token-Authentifizierung
- SSE-Streaming
- Tool-/Funktionsaufrufe
Keine spezielle Konfiguration ist erforderlich.
Konfiguration
Wenn Sie ein Bot-Profil erstellen, wählen Sie Groq als Anbieter und Ihr bevorzugtes Modell. Sie können einen pro-Bot-API-Schlüssel im Bot-Konfigurations-Panel setzen, um den globalen Schlüssel zu überschreiben.
Der Groq-Anbieter verwendet die Chat Completions API unter api.groq.com/openai/v1/chat/completions.
Am besten für
| Anwendungsfall | Empfohlenes Modell |
|---|---|
| Geschwindigkeitskritischer Chat | Llama 3.3 70B (kostenlos) |
| Schnelles Reasoning | DeepSeek R1 Distill 70B (kostenlos) |
| Agentische Workflows | Compound Beta (kostenlos) |
| Leichtgewichtige Aufgaben | Llama 3.1 8B Instant (kostenlos) |
| Vision-Aufgaben | Llama 4 Scout oder Maverick (bezahlt) |
| Code + Reasoning | Qwen3 32B (bezahlt) |
Tipps für beste Ergebnisse
- Verwenden Sie Groq, wenn Geschwindigkeit zählt. Wenn Sie die schnellstmöglichen Antworten benötigen und mit Open-Source-Modellen arbeiten können, ist Groq die beste Wahl.
- Starten Sie mit Llama 3.3 70B. Es ist kostenlos, schnell und fähig -- das beste Allzweck-Modell kostenlos auf Groq.
- Verwenden Sie DeepSeek R1 Distill für Reasoning. Es bietet starkes Chain-of-Thought-Reasoning kostenlos, bei Groq-Geschwindigkeiten.
- Kombinieren Sie mit anderen Anbietern in Councils. Groqs Geschwindigkeit macht es zu einem hervorragenden Schnellantwort-Mitglied in Multi-Modell-Councils, wo es schnelle Erstantworten liefern kann, die langsamere, leistungsstärkere Modelle verfeinern.
- Achten Sie auf Ratenlimits. Ratenlimits der kostenlosen Stufe können bei hochvolumiger Nutzung schnell erreicht werden. Verteilen Sie Anfragen über die Zeit oder upgraden Sie auf einen bezahlten Plan für höhere Limits.