Groq

Groq bietet ultraschnelle KI-Inferenz angetrieben von spezieller LPU-Hardware (Language Processing Unit). Groq trainiert keine eigenen Modelle -- stattdessen läuft es beliebte Open-Source-Modelle drastisch schneller als traditionelle GPU-Infrastruktur. Mehrere Modelle sind kostenlos mit Ratenlimits verfügbar.

API-Schlüssel erhalten

Besuchen Sie console.groq.com/keys
Melden Sie sich an oder erstellen Sie ein Konto (kostenlos)
Generieren Sie einen neuen API-Schlüssel (beginnt mit gsk_...)
Fügen Sie den Schlüssel in AISCouncil unter Einstellungen > KI-Modell > Groq ein

Kostenlose Stufe

Groq bietet eine kostenlose Stufe mit großzügigen Ratenlimits. Keine Kreditkarte ist erforderlich, um ein Konto zu erstellen und kostenlose Modelle zu nutzen.

API-Schlüssel werden lokal in Ihrem Browser (localStorage) gespeichert und niemals in geteilten Bot-URLs eingeschlossen.

Unterstützte Modelle

Kostenlose Modelle

Modell	Kontextfenster	Max. Ausgabe	Fähigkeiten
Llama 3.3 70B	128K	32K	Tools, Code, Streaming
DeepSeek R1 Distill 70B	128K	16K	Reasoning, Code, Streaming
Compound Beta	128K	32K	Tools, Reasoning, Streaming
Llama 3.1 8B Instant	128K	8K	Tools, Code, Streaming
Gemma 2 9B	8K	8K	Streaming

Bezahlte Modelle

Modell	Kontextfenster	Max. Ausgabe	Input-Preis	Output-Preis	Fähigkeiten
Llama 4 Scout	128K	8K	0,11$/MTok	0,34$/MTok	Vision, Tools, Code
Llama 4 Maverick	128K	8K	0,50$/MTok	0,77$/MTok	Vision, Tools, Code
Qwen3 32B	128K	8K	0,29$/MTok	0,59$/MTok	Tools, Reasoning

Preise pro Million Tokens (MTok).

Ratenlimits kostenloser Modelle

Kostenlose Modelle haben Ratenlimits, die je nach Modell und Konto-Stufe variieren. Typische Limits sind:

Anfragen pro Minute: 30
Tokens pro Minute: 6.000-15.000
Anfragen pro Tag: 1.000-14.400

Prüfen Sie console.groq.com für aktuelle Limits auf Ihrem Konto.

Warum Groq schnell ist

Groq verwendet speziell entwickelte LPU-Chips (Language Processing Unit) statt GPUs. LPUs sind speziell für sequenzielle Token-Generierung gebaut, was der Engpass bei LLM-Inferenz ist. Das Ergebnis:

Zeit bis zum ersten Token: Oft unter 100ms
Token-Generierungsgeschwindigkeit: 500-800+ Tokens/Sekunde bei vielen Modellen
Konsistente Latenz: Vorhersagbare Leistung ohne die Variabilität von GPU-Batching

Das macht Groq ideal für Anwendungen, bei denen Antwortgeschwindigkeit wichtiger ist als Modellgröße.

Reasoning-Unterstützung

DeepSeek R1 Distill 70B und Compound Beta unterstützen Reasoning und zeigen schrittweises Denken, bevor sie eine endgültige Antwort liefern. Qwen3 32B (bezahlt) unterstützt ebenfalls Reasoning.

Da Groq das OpenAI-kompatible API-Format verwendet, wird Reasoning-Ausgabe als reasoning_content gestreamt und erscheint in einem einklappbaren Thinking-Block im Chat.

Compound Beta (Agentische KI)

Compound Beta ist Groqs zusammengesetztes KI-System, das Reasoning mit Tool-Nutzung kombiniert. Es kann mehrstufige Aufgaben ausführen, indem es plant, schlussfolgert und Tools nacheinander verwendet. Dieses Modell ist kostenlos und mit einem Groq-API-Schlüssel verfügbar.

Vision-Unterstützung

Die bezahlten Llama 4 Scout und Llama 4 Maverick Modelle unterstützen Vision-Input. Sie können Bilder einfügen, hochladen oder per Drag & Drop für diese Modelle ziehen.

Kostenlose Modelle auf Groq unterstützen derzeit kein Vision.

Tool-Calling

Die meisten Groq-Modelle unterstützen Funktions-/Tool-Calling über das OpenAI-kompatible Format. Dies schließt die kostenlosen Llama 3.3 70B und Compound Beta Modelle ein.

OpenAI-kompatible API

Groq verwendet eine vollständig OpenAI-kompatible API:

Standard POST /openai/v1/chat/completions-Endpunkt unter api.groq.com
Bearer-Token-Authentifizierung
SSE-Streaming
Tool-/Funktionsaufrufe

Keine spezielle Konfiguration ist erforderlich.

Konfiguration

Wenn Sie ein Bot-Profil erstellen, wählen Sie Groq als Anbieter und Ihr bevorzugtes Modell. Sie können einen pro-Bot-API-Schlüssel im Bot-Konfigurations-Panel setzen, um den globalen Schlüssel zu überschreiben.

Der Groq-Anbieter verwendet die Chat Completions API unter api.groq.com/openai/v1/chat/completions.

Am besten für

Anwendungsfall	Empfohlenes Modell
Geschwindigkeitskritischer Chat	Llama 3.3 70B (kostenlos)
Schnelles Reasoning	DeepSeek R1 Distill 70B (kostenlos)
Agentische Workflows	Compound Beta (kostenlos)
Leichtgewichtige Aufgaben	Llama 3.1 8B Instant (kostenlos)
Vision-Aufgaben	Llama 4 Scout oder Maverick (bezahlt)
Code + Reasoning	Qwen3 32B (bezahlt)

Tipps für beste Ergebnisse

Verwenden Sie Groq, wenn Geschwindigkeit zählt. Wenn Sie die schnellstmöglichen Antworten benötigen und mit Open-Source-Modellen arbeiten können, ist Groq die beste Wahl.
Starten Sie mit Llama 3.3 70B. Es ist kostenlos, schnell und fähig -- das beste Allzweck-Modell kostenlos auf Groq.
Verwenden Sie DeepSeek R1 Distill für Reasoning. Es bietet starkes Chain-of-Thought-Reasoning kostenlos, bei Groq-Geschwindigkeiten.
Kombinieren Sie mit anderen Anbietern in Councils. Groqs Geschwindigkeit macht es zu einem hervorragenden Schnellantwort-Mitglied in Multi-Modell-Councils, wo es schnelle Erstantworten liefern kann, die langsamere, leistungsstärkere Modelle verfeinern.
Achten Sie auf Ratenlimits. Ratenlimits der kostenlosen Stufe können bei hochvolumiger Nutzung schnell erreicht werden. Verteilen Sie Anfragen über die Zeit oder upgraden Sie auf einen bezahlten Plan für höhere Limits.

API-Schlüssel erhalten​

Unterstützte Modelle​

Kostenlose Modelle​

Bezahlte Modelle​

Warum Groq schnell ist​

Reasoning-Unterstützung​

Compound Beta (Agentische KI)​

Vision-Unterstützung​

Tool-Calling​

OpenAI-kompatible API​

Konfiguration​

Am besten für​

Tipps für beste Ergebnisse​