视觉
视觉功能让您可以向支持视觉的 AI 模型发送图片和文本消息。模型可以分析、描述和回答关于您提供的图片的问题。
支持的提供商
并非所有模型都支持视觉。以下提供商和模型可以处理图片:
| 提供商 | 视觉模型 |
|---|---|
| Anthropic | Claude Sonnet 4、Claude Opus 4、Claude Haiku 3.5 和其他 Claude 3+ 模型 |
| OpenAI | GPT-4o、GPT-4o mini、GPT-4 Turbo、o1、o3 |
| xAI | Grok 2 Vision |
| Google Gemini | Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.0 Flash |
| OpenRouter | 通过 OpenRouter 可用的任何支持视觉的模型 |
模型注册表通过"视觉"能力标签指示哪些模型支持视觉。如果模型不支持视觉,图片将被忽略或导致错误。
如何发送图片
有三种方式可以将图片附加到您的消息:
1. 从剪贴板粘贴 (Ctrl+V / Cmd+V)
从任何来源(截图工具、网页浏览器、图像编辑器)复制图片并直接粘贴到消息输入区域。图片会被自动检测并显示为缩略图预览。
2. 上传按钮
点击发送按钮旁边的相机图标按钮。会打开文件选择器,您可以从中从设备中选择图片。
3. 拖放
从文件管理器拖动图片文件并放到消息输入区域。
图片预览
一旦附加了图片,缩略图预览会出现在输入区域上方。您可以:
- 查看排队发送的图片
- 点击 X 按钮在发送前删除图片
- 在图片旁边输入您的文本消息
您可以附加图片并在不发送文本的情况下发送。只需粘贴或上传图片并按 Enter。模型将分析图片并描述它看到的内容。
发送消息
当您点击发送(或按 Enter)时,您的文本和附加图片会作为单条消息一起发送。图片被编码为 base64 数据 URL 并包含在 API 请求中。
发送后,图片预览会自动清除。聊天历史中的用户消息显示您的文本(图片数据内部存储在消息中,但在聊天视图中显示为文本)。
图片格式支持
支持以下图片格式:
- JPEG (.jpg, .jpeg)
- PNG (.png)
- GIF (.gif)
- WebP (.webp)
大图片会增加 API 成本,因为它们消耗更多 token。大多数提供商有图片大小限制。图片作为 base64 编码数据发送,因此 1 MB 图片大约增加 1.3 MB 到请求负载。考虑在发送前调整非常大的图片大小。
提供商特定格式
平台根据每个提供商的 API 要求自动格式化图片数据:
- Anthropic 使用
image内容块格式,带有source.type: "base64"和图片的 MIME 类型 - OpenAI、xAI、OpenRouter、Gemini 使用
image_url内容块格式,带有数据 URL
您无需处理这些 —— 根据选择的提供商自动完成。
多张图片
您可以在一条消息中发送一张图片。要讨论多张图片,请在单独的消息中发送它们。模型保留之前消息的上下文,因此您可以说"将这张图片与我之前发送的图片进行比较。"
启用/禁用视觉
视觉默认启用。您可以在设置 > 能力中切换它。禁用时,图片上传按钮和粘贴处理会被停用。
用例
- 截图分析 —— 粘贴截图并问"这里显示了什么错误?"
- 文档阅读 —— 拍摄文档照片并要求模型提取文本或总结
- 代码审查 —— 分享代码截图并要求改进
- 设计反馈 —— 上传模型并获取设计建议
- 数学问题 —— 拍摄数学问题照片并要求解答
- 数据可视化 —— 分享图表并要求解读