视觉

视觉功能让您可以向支持视觉的 AI 模型发送图片和文本消息。模型可以分析、描述和回答关于您提供的图片的问题。

支持的提供商

并非所有模型都支持视觉。以下提供商和模型可以处理图片：

提供商	视觉模型
Anthropic	Claude Sonnet 4、Claude Opus 4、Claude Haiku 3.5 和其他 Claude 3+ 模型
OpenAI	GPT-4o、GPT-4o mini、GPT-4 Turbo、o1、o3
xAI	Grok 2 Vision
Google Gemini	Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.0 Flash
OpenRouter	通过 OpenRouter 可用的任何支持视觉的模型

信息

模型注册表通过"视觉"能力标签指示哪些模型支持视觉。如果模型不支持视觉，图片将被忽略或导致错误。

如何发送图片

有三种方式可以将图片附加到您的消息：

1. 从剪贴板粘贴 (Ctrl+V / Cmd+V)

从任何来源（截图工具、网页浏览器、图像编辑器）复制图片并直接粘贴到消息输入区域。图片会被自动检测并显示为缩略图预览。

2. 上传按钮

点击发送按钮旁边的相机图标按钮。会打开文件选择器，您可以从中从设备中选择图片。

3. 拖放

从文件管理器拖动图片文件并放到消息输入区域。

图片预览

一旦附加了图片，缩略图预览会出现在输入区域上方。您可以：

查看排队发送的图片
点击 X 按钮在发送前删除图片
在图片旁边输入您的文本消息

提示

您可以附加图片并在不发送文本的情况下发送。只需粘贴或上传图片并按 Enter。模型将分析图片并描述它看到的内容。

发送消息

当您点击发送（或按 Enter）时，您的文本和附加图片会作为单条消息一起发送。图片被编码为 base64 数据 URL 并包含在 API 请求中。

发送后，图片预览会自动清除。聊天历史中的用户消息显示您的文本（图片数据内部存储在消息中，但在聊天视图中显示为文本）。

图片格式支持

支持以下图片格式：

JPEG (.jpg, .jpeg)
PNG (.png)
GIF (.gif)
WebP (.webp)

注意

大图片会增加 API 成本，因为它们消耗更多 token。大多数提供商有图片大小限制。图片作为 base64 编码数据发送，因此 1 MB 图片大约增加 1.3 MB 到请求负载。考虑在发送前调整非常大的图片大小。

提供商特定格式

平台根据每个提供商的 API 要求自动格式化图片数据：

Anthropic 使用 image 内容块格式，带有 source.type: "base64" 和图片的 MIME 类型
OpenAI、xAI、OpenRouter、Gemini 使用 image_url 内容块格式，带有数据 URL

您无需处理这些 —— 根据选择的提供商自动完成。

多张图片

您可以在一条消息中发送一张图片。要讨论多张图片，请在单独的消息中发送它们。模型保留之前消息的上下文，因此您可以说"将这张图片与我之前发送的图片进行比较。"

启用/禁用视觉

视觉默认启用。您可以在设置 > 能力中切换它。禁用时，图片上传按钮和粘贴处理会被停用。

用例

截图分析 —— 粘贴截图并问"这里显示了什么错误？"
文档阅读 —— 拍摄文档照片并要求模型提取文本或总结
代码审查 —— 分享代码截图并要求改进
设计反馈 —— 上传模型并获取设计建议
数学问题 —— 拍摄数学问题照片并要求解答
数据可视化 —— 分享图表并要求解读

支持的提供商​

如何发送图片​

1. 从剪贴板粘贴 (Ctrl+V / Cmd+V)​

2. 上传按钮​

3. 拖放​

图片预览​

发送消息​

图片格式支持​

提供商特定格式​

多张图片​

启用/禁用视觉​

用例​