跳到主要内容

视觉

视觉功能让您可以向支持视觉的 AI 模型发送图片和文本消息。模型可以分析、描述和回答关于您提供的图片的问题。

支持的提供商

并非所有模型都支持视觉。以下提供商和模型可以处理图片:

提供商视觉模型
AnthropicClaude Sonnet 4、Claude Opus 4、Claude Haiku 3.5 和其他 Claude 3+ 模型
OpenAIGPT-4o、GPT-4o mini、GPT-4 Turbo、o1、o3
xAIGrok 2 Vision
Google GeminiGemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.0 Flash
OpenRouter通过 OpenRouter 可用的任何支持视觉的模型
信息

模型注册表通过"视觉"能力标签指示哪些模型支持视觉。如果模型不支持视觉,图片将被忽略或导致错误。

如何发送图片

有三种方式可以将图片附加到您的消息:

1. 从剪贴板粘贴 (Ctrl+V / Cmd+V)

从任何来源(截图工具、网页浏览器、图像编辑器)复制图片并直接粘贴到消息输入区域。图片会被自动检测并显示为缩略图预览。

2. 上传按钮

点击发送按钮旁边的相机图标按钮。会打开文件选择器,您可以从中从设备中选择图片。

3. 拖放

从文件管理器拖动图片文件并放到消息输入区域。

图片预览

一旦附加了图片,缩略图预览会出现在输入区域上方。您可以:

  • 查看排队发送的图片
  • 点击 X 按钮在发送前删除图片
  • 在图片旁边输入您的文本消息
提示

您可以附加图片并在不发送文本的情况下发送。只需粘贴或上传图片并按 Enter。模型将分析图片并描述它看到的内容。

发送消息

当您点击发送(或按 Enter)时,您的文本和附加图片会作为单条消息一起发送。图片被编码为 base64 数据 URL 并包含在 API 请求中。

发送后,图片预览会自动清除。聊天历史中的用户消息显示您的文本(图片数据内部存储在消息中,但在聊天视图中显示为文本)。

图片格式支持

支持以下图片格式:

  • JPEG (.jpg, .jpeg)
  • PNG (.png)
  • GIF (.gif)
  • WebP (.webp)
注意

大图片会增加 API 成本,因为它们消耗更多 token。大多数提供商有图片大小限制。图片作为 base64 编码数据发送,因此 1 MB 图片大约增加 1.3 MB 到请求负载。考虑在发送前调整非常大的图片大小。

提供商特定格式

平台根据每个提供商的 API 要求自动格式化图片数据:

  • Anthropic 使用 image 内容块格式,带有 source.type: "base64" 和图片的 MIME 类型
  • OpenAI、xAI、OpenRouter、Gemini 使用 image_url 内容块格式,带有数据 URL

您无需处理这些 —— 根据选择的提供商自动完成。

多张图片

您可以在一条消息中发送一张图片。要讨论多张图片,请在单独的消息中发送它们。模型保留之前消息的上下文,因此您可以说"将这张图片与我之前发送的图片进行比较。"

启用/禁用视觉

视觉默认启用。您可以在设置 > 能力中切换它。禁用时,图片上传按钮和粘贴处理会被停用。

用例

  • 截图分析 —— 粘贴截图并问"这里显示了什么错误?"
  • 文档阅读 —— 拍摄文档照片并要求模型提取文本或总结
  • 代码审查 —— 分享代码截图并要求改进
  • 设计反馈 —— 上传模型并获取设计建议
  • 数学问题 —— 拍摄数学问题照片并要求解答
  • 数据可视化 —— 分享图表并要求解读