Vision
Die Vision-Funktion ermöglicht es Ihnen, Bilder zusammen mit Ihren Textnachrichten an visionsfähige KI-Modelle zu senden. Das Modell kann Bilder analysieren, beschreiben und Fragen zu den Bildern beantworten, die Sie bereitstellen.
Unterstützte Anbieter
Nicht alle Modelle unterstützen Vision. Die folgenden Anbieter und Modelle können Bilder verarbeiten:
| Anbieter | Vision-Modelle |
|---|---|
| Anthropic | Claude Sonnet 4, Claude Opus 4, Claude Haiku 3.5 und andere Claude 3+ Modelle |
| OpenAI | GPT-4o, GPT-4o mini, GPT-4 Turbo, o1, o3 |
| xAI | Grok 2 Vision |
| Google Gemini | Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash |
| OpenRouter | Jedes visionsfähige Modell, das über OpenRouter verfügbar ist |
Die Modell-Registry gibt an, welche Modelle Vision über das "vision"-Fähigkeits-Tag unterstützen. Wenn ein Modell Vision nicht unterstützt, wird das Bild ignoriert oder verursacht einen Fehler.
Wie man Bilder sendet
Es gibt drei Möglichkeiten, ein Bild an Ihre Nachricht anzuhängen:
1. Aus Zwischenablage einfügen (Strg+V / Cmd+V)
Kopieren Sie ein Bild aus einer beliebigen Quelle (Screenshot-Tool, Webbrowser, Bildeditor) und fügen Sie es direkt in den Nachrichteneingabebereich ein. Das Bild wird automatisch erkannt und erscheint als Vorschau-Miniatur.
2. Upload-Schaltfläche
Klicken Sie auf die Kamera-Schaltfläche neben der Senden-Schaltfläche. Ein Dateiauswahldialog öffnet sich, in dem Sie ein Bild von Ihrem Gerät auswählen können.
3. Drag & Drop
Ziehen Sie eine Bilddatei aus Ihrem Dateimanager und legen Sie sie im Nachrichteneingabebereich ab.
Bildvorschau
Sobald ein Bild angehängt ist, erscheint eine Miniaturvorschau über dem Eingabebereich. Sie können:
- Sehen, welches Bild zum Senden in der Warteschlange ist
- Auf die X-Schaltfläche klicken, um das Bild vor dem Senden zu entfernen
- Ihre Textnachricht zusammen mit dem Bild eingeben
Sie können ein Bild anhängen und es ohne Text senden. Fügen Sie einfach das Bild ein oder laden Sie es hoch und drücken Sie Enter. Das Modell wird das Bild analysieren und beschreiben, was es sieht.
Die Nachricht senden
Wenn Sie auf Senden klicken (oder Enter drücken), werden sowohl Ihr Text als auch das angehängte Bild zusammen als einzelne Nachricht gesendet. Das Bild wird als Base64-Data-URL kodiert und in die API-Anfrage aufgenommen.
Nach dem Senden wird die Bildvorschau automatisch gelöscht. Die Benutzernachricht im Chat-Verlauf zeigt Ihren Text an (die Bilddaten werden intern in der Nachricht gespeichert, aber als Text in der Chat-Ansicht angezeigt).
Bildformat-Unterstützung
Die folgenden Bildformate werden unterstützt:
- JPEG (.jpg, .jpeg)
- PNG (.png)
- GIF (.gif)
- WebP (.webp)
Große Bilder erhöhen die API-Kosten, da sie mehr Tokens verbrauchen. Die meisten Anbieter haben Bildgrößenbeschränkungen. Bilder werden als Base64-kodierte Daten gesendet, daher fügt ein 1 MB Bild etwa 1,3 MB zur Anfrage-Payload hinzu. Erwägen Sie, sehr große Bilder vor dem Senden zu verkleinern.
Anbieter-spezifische Formatierung
Die Plattform formatiert Bilddaten automatisch gemäß den API-Anforderungen jedes Anbieters:
- Anthropic verwendet das
image-Inhaltsblock-Format mitsource.type: "base64"und dem MIME-Typ des Bildes - OpenAI, xAI, OpenRouter, Gemini verwenden das
image_url-Inhaltsblock-Format mit einer Data-URL
Sie müssen sich darum nicht kümmern -- es geschieht automatisch basierend auf dem ausgewählten Anbieter.
Mehrere Bilder
Sie können ein Bild pro Nachricht senden. Um mehrere Bilder zu diskutieren, senden Sie sie in separaten Nachrichten. Das Modell behält den Kontext aus vorherigen Nachrichten bei, sodass Sie sagen können "vergleiche dieses Bild mit dem, das ich früher gesendet habe."
Vision aktivieren/deaktivieren
Vision ist standardmäßig aktiviert. Sie können es in Einstellungen > Fähigkeiten umschalten. Wenn deaktiviert, sind die Bild-Upload-Schaltfläche und Einfügen-Behandlung deaktiviert.
Anwendungsfälle
- Screenshot-Analyse -- fügen Sie einen Screenshot ein und fragen Sie "Welcher Fehler wird hier angezeigt?"
- Dokument-Lesen -- fotografieren Sie ein Dokument und bitten Sie das Modell, Text zu extrahieren oder zusammenzufassen
- Code-Review -- teilen Sie einen Screenshot von Code und fragen Sie nach Verbesserungen
- Design-Feedback -- laden Sie ein Mockup hoch und erhalten Sie Design-Vorschläge
- Mathe-Probleme -- fotografieren Sie ein Matheproblem und bitten Sie um eine Lösung
- Datenvisualisierung -- teilen Sie ein Diagramm und bitten Sie um Interpretation