Zum Hauptinhalt springen

Vision

Die Vision-Funktion ermöglicht es Ihnen, Bilder zusammen mit Ihren Textnachrichten an visionsfähige KI-Modelle zu senden. Das Modell kann Bilder analysieren, beschreiben und Fragen zu den Bildern beantworten, die Sie bereitstellen.

Unterstützte Anbieter

Nicht alle Modelle unterstützen Vision. Die folgenden Anbieter und Modelle können Bilder verarbeiten:

AnbieterVision-Modelle
AnthropicClaude Sonnet 4, Claude Opus 4, Claude Haiku 3.5 und andere Claude 3+ Modelle
OpenAIGPT-4o, GPT-4o mini, GPT-4 Turbo, o1, o3
xAIGrok 2 Vision
Google GeminiGemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash
OpenRouterJedes visionsfähige Modell, das über OpenRouter verfügbar ist
Info

Die Modell-Registry gibt an, welche Modelle Vision über das "vision"-Fähigkeits-Tag unterstützen. Wenn ein Modell Vision nicht unterstützt, wird das Bild ignoriert oder verursacht einen Fehler.

Wie man Bilder sendet

Es gibt drei Möglichkeiten, ein Bild an Ihre Nachricht anzuhängen:

1. Aus Zwischenablage einfügen (Strg+V / Cmd+V)

Kopieren Sie ein Bild aus einer beliebigen Quelle (Screenshot-Tool, Webbrowser, Bildeditor) und fügen Sie es direkt in den Nachrichteneingabebereich ein. Das Bild wird automatisch erkannt und erscheint als Vorschau-Miniatur.

2. Upload-Schaltfläche

Klicken Sie auf die Kamera-Schaltfläche neben der Senden-Schaltfläche. Ein Dateiauswahldialog öffnet sich, in dem Sie ein Bild von Ihrem Gerät auswählen können.

3. Drag & Drop

Ziehen Sie eine Bilddatei aus Ihrem Dateimanager und legen Sie sie im Nachrichteneingabebereich ab.

Bildvorschau

Sobald ein Bild angehängt ist, erscheint eine Miniaturvorschau über dem Eingabebereich. Sie können:

  • Sehen, welches Bild zum Senden in der Warteschlange ist
  • Auf die X-Schaltfläche klicken, um das Bild vor dem Senden zu entfernen
  • Ihre Textnachricht zusammen mit dem Bild eingeben
Tipp

Sie können ein Bild anhängen und es ohne Text senden. Fügen Sie einfach das Bild ein oder laden Sie es hoch und drücken Sie Enter. Das Modell wird das Bild analysieren und beschreiben, was es sieht.

Die Nachricht senden

Wenn Sie auf Senden klicken (oder Enter drücken), werden sowohl Ihr Text als auch das angehängte Bild zusammen als einzelne Nachricht gesendet. Das Bild wird als Base64-Data-URL kodiert und in die API-Anfrage aufgenommen.

Nach dem Senden wird die Bildvorschau automatisch gelöscht. Die Benutzernachricht im Chat-Verlauf zeigt Ihren Text an (die Bilddaten werden intern in der Nachricht gespeichert, aber als Text in der Chat-Ansicht angezeigt).

Bildformat-Unterstützung

Die folgenden Bildformate werden unterstützt:

  • JPEG (.jpg, .jpeg)
  • PNG (.png)
  • GIF (.gif)
  • WebP (.webp)
Warnung

Große Bilder erhöhen die API-Kosten, da sie mehr Tokens verbrauchen. Die meisten Anbieter haben Bildgrößenbeschränkungen. Bilder werden als Base64-kodierte Daten gesendet, daher fügt ein 1 MB Bild etwa 1,3 MB zur Anfrage-Payload hinzu. Erwägen Sie, sehr große Bilder vor dem Senden zu verkleinern.

Anbieter-spezifische Formatierung

Die Plattform formatiert Bilddaten automatisch gemäß den API-Anforderungen jedes Anbieters:

  • Anthropic verwendet das image-Inhaltsblock-Format mit source.type: "base64" und dem MIME-Typ des Bildes
  • OpenAI, xAI, OpenRouter, Gemini verwenden das image_url-Inhaltsblock-Format mit einer Data-URL

Sie müssen sich darum nicht kümmern -- es geschieht automatisch basierend auf dem ausgewählten Anbieter.

Mehrere Bilder

Sie können ein Bild pro Nachricht senden. Um mehrere Bilder zu diskutieren, senden Sie sie in separaten Nachrichten. Das Modell behält den Kontext aus vorherigen Nachrichten bei, sodass Sie sagen können "vergleiche dieses Bild mit dem, das ich früher gesendet habe."

Vision aktivieren/deaktivieren

Vision ist standardmäßig aktiviert. Sie können es in Einstellungen > Fähigkeiten umschalten. Wenn deaktiviert, sind die Bild-Upload-Schaltfläche und Einfügen-Behandlung deaktiviert.

Anwendungsfälle

  • Screenshot-Analyse -- fügen Sie einen Screenshot ein und fragen Sie "Welcher Fehler wird hier angezeigt?"
  • Dokument-Lesen -- fotografieren Sie ein Dokument und bitten Sie das Modell, Text zu extrahieren oder zusammenzufassen
  • Code-Review -- teilen Sie einen Screenshot von Code und fragen Sie nach Verbesserungen
  • Design-Feedback -- laden Sie ein Mockup hoch und erhalten Sie Design-Vorschläge
  • Mathe-Probleme -- fotografieren Sie ein Matheproblem und bitten Sie um eine Lösung
  • Datenvisualisierung -- teilen Sie ein Diagramm und bitten Sie um Interpretation