Saltar al contenido principal

Visión

La característica de Visión te permite enviar imágenes junto con tus mensajes de texto a modelos de IA con capacidad de visión. El modelo puede analizar, describir y responder preguntas sobre las imágenes que proporcionas.

Proveedores Soportados

No todos los modelos soportan visión. Los siguientes proveedores y modelos pueden procesar imágenes:

ProveedorModelos de Visión
AnthropicClaude Sonnet 4, Claude Opus 4, Claude Haiku 3.5 y otros modelos Claude 3+
OpenAIGPT-4o, GPT-4o mini, GPT-4 Turbo, o1, o3
xAIGrok 2 Vision
Google GeminiGemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash
OpenRouterCualquier modelo con capacidad de visión disponible a través de OpenRouter
info

El registro de modelos indica qué modelos soportan visión vía la etiqueta de capacidad "vision". Si un modelo no soporta visión, la imagen será ignorada o causará un error.

Cómo Enviar Imágenes

Hay tres formas de adjuntar una imagen a tu mensaje:

1. Pegar desde Portapapeles (Ctrl+V / Cmd+V)

Copia una imagen de cualquier fuente (herramienta de captura de pantalla, navegador web, editor de imágenes) y pégala directamente en el área de entrada de mensaje. La imagen se detecta automáticamente y aparece como una vista previa en miniatura.

2. Botón de Subida

Haz clic en el botón de icono de cámara junto al botón Enviar. Se abre un selector de archivos donde puedes elegir una imagen desde tu dispositivo.

3. Arrastrar y Soltar

Arrastra un archivo de imagen desde tu gestor de archivos y suéltalo en el área de entrada de mensaje.

Vista Previa de Imagen

Una vez que una imagen está adjunta, aparece una vista previa en miniatura encima del área de entrada. Puedes:

  • Ver qué imagen está en cola para enviar
  • Hacer clic en el botón X para eliminar la imagen antes de enviar
  • Escribir tu mensaje de texto junto a la imagen
consejo

Puedes adjuntar una imagen y enviarla sin texto. Solo pega o sube la imagen y presiona Enter. El modelo analizará la imagen y describirá lo que ve.

Enviar el Mensaje

Cuando haces clic en Enviar (o presionas Enter), tanto tu texto como la imagen adjunta se envían juntos como un solo mensaje. La imagen se codifica como una URL de datos base64 y se incluye en la solicitud API.

Después de enviar, la vista previa de la imagen se limpia automáticamente. El mensaje de usuario en el historial de chat muestra tu texto (los datos de la imagen se almacenan en el mensaje internamente pero se muestran como texto en la vista de chat).

Formatos de Imagen Soportados

Los siguientes formatos de imagen son soportados:

  • JPEG (.jpg, .jpeg)
  • PNG (.png)
  • GIF (.gif)
  • WebP (.webp)
aviso

Las imágenes grandes aumentan los costos de API porque consumen más tokens. La mayoría de los proveedores tienen límites de tamaño de imagen. Las imágenes se envían como datos codificados en base64, así que una imagen de 1 MB agrega aproximadamente 1.3 MB al payload de la solicitud. Considera redimensionar imágenes muy grandes antes de enviar.

Formateo Específico del Proveedor

La plataforma formatea automáticamente los datos de imagen según los requisitos de API de cada proveedor:

  • Anthropic usa el formato de bloque de contenido image con source.type: "base64" y el tipo MIME de la imagen
  • OpenAI, xAI, OpenRouter, Gemini usan el formato de bloque de contenido image_url con una URL de datos

No necesitas manejar esto -- es automático basado en el proveedor seleccionado.

Múltiples Imágenes

Puedes enviar una imagen por mensaje. Para discutir múltiples imágenes, envíalas en mensajes separados. El modelo retiene el contexto de mensajes anteriores, así que puedes decir "compara esta imagen con la que envié antes."

Habilitar/Deshabilitar Visión

La visión está habilitada por defecto. Puedes alternarla en Configuración > Capacidades. Cuando está deshabilitada, el botón de subida de imagen y el manejo de pegado se desactivan.

Casos de Uso

  • Análisis de capturas de pantalla -- pega una captura de pantalla y pregunta "¿Qué error se muestra aquí?"
  • Lectura de documentos -- fotografía un documento y pide al modelo que extraiga texto o resuma
  • Revisión de código -- comparte una captura de pantalla de código y pide mejoras
  • Retroalimentación de diseño -- sube un mockup y obtén sugerencias de diseño
  • Problemas de matemáticas -- fotografía un problema de matemáticas y pide una solución
  • Visualización de datos -- comparte un gráfico y pide interpretación