Vision
Vision 기능을 사용하면 vision 지원 AI 모델에 텍스트 메시지와 함께 이미지를 보낼 수 있습니다. 모델은 제공한 이미지를 분석, 설명 및 질문에 답할 수 있습니다.
지원되는 제공업체
모든 모델이 vision을 지원하지는 않습니다. 다음 제공업체와 모델이 이미지를 처리할 수 있습니다:
| 제공업체 | Vision 모델 |
|---|---|
| Anthropic | Claude Sonnet 4, Claude Opus 4, Claude Haiku 3.5 및 기타 Claude 3+ 모델 |
| OpenAI | GPT-4o, GPT-4o mini, GPT-4 Turbo, o1, o3 |
| xAI | Grok 2 Vision |
| Google Gemini | Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.0 Flash |
| OpenRouter | OpenRouter를 통해 이용 가능한 모든 vision 지원 모델 |
모델 레지스트리는 "vision" 기능 태그를 통해 어떤 모델이 vision을 지원하는지 나타냅니다. 모델이 vision을 지원하지 않으면 이미지가 무시되거나 오류가 발생합니다.
이미지 보내는 방법
메시지에 이미지를 첨부하는 세 가지 방법이 있습니다:
1. 클립보드에서 붙여넣기 (Ctrl+V / Cmd+V)
모든 소스(스크린샷 도구, 웹 브라우저, 이미지 편집기)에서 이미지를 복사하고 메시지 입력 영역에 직접 붙여넣습니다. 이미지가 자동으로 감지되어 썸네일 미리보기로 나타납니다.
2. 업로드 버튼
Send 버튼 옆에 있는 카메라 아이콘 버튼을 클릭합니다. 기기에서 이미지를 선택할 수 있는 파일 선택기가 열립니다.
3. 드래그 앤 드롭
파일 관리자에서 이미지 파일을 드래그하여 메시지 입력 영역에 놓습니다.
이미지 미리보기
이미지가 첨부되면 입력 영역 위에 썸네일 미리보기가 나타납니다. 다음을 할 수 있습니다:
- 전송 대기 중인 이미지 확인
- X 버튼을 클릭하여 전송 전에 이미지 제거
- 이미지와 함께 텍스트 메시지 입력
텍스트 없이 이미지만 첨부하여 보낼 수 있습니다. 이미지를 붙여넣거나 업로드하고 Enter를 누르기만 하면 됩니다. 모델이 이미지를 분석하고 보이는 것을 설명합니다.
메시지 보내기
Send를 클릭하거나(또는 Enter를 누르면) 텍스트와 첨부된 이미지가 단일 메시지로 함께 전송됩니다. 이미지는 base64 데이터 URL로 인코딩되어 API 요청에 포함됩니다.
전송 후 이미지 미리보기가 자동으로 지워집니다. 채팅 기록의 사용자 메시지는 텍스트를 표시합니다(이미지 데이터는 메시지에 내부적으로 저장되지만 채팅 보기에는 텍스트로 표시됨).
이미지 형식 지원
다음 이미지 형식이 지원됩니다:
- JPEG (.jpg, .jpeg)
- PNG (.png)
- GIF (.gif)
- WebP (.webp)
큰 이미지는 더 많은 토큰을 소비하므로 API 비용이 증가합니다. 대부분의 제공업체는 이미지 크기 제한이 있습니다. 이미지는 base64로 인코딩된 데이터로 전송되므로 1 MB 이미지는 요청 페이로드에 약 1.3 MB를 추가합니다. 보내기 전에 매우 큰 이미지 크기 조정을 고려하세요.
제공업체별 형식
플랫폼은 각 제공업체의 API 요구 사항에 따라 이미지 데이터를 자동으로 형식화합니다:
- Anthropic은
source.type: "base64"와 이미지의 MIME 유형이 있는image콘텐츠 블록 형식 사용 - OpenAI, xAI, OpenRouter, Gemini는 데이터 URL이 있는
image_url콘텐츠 블록 형식 사용
이것을 처리할 필요가 없습니다 -- 선택한 제공업체에 따라 자동입니다.
여러 이미지
메시지당 하나의 이미지를 보낼 수 있습니다. 여러 이미지를 논의하려면 별도의 메시지로 보내세요. 모델은 이전 메시지의 컨텍스트를 유지하므로 "이 이미지를 앞서 보낸 이미지와 비교해 줘"라고 말할 수 있습니다.
Vision 활성화/비활성화
Vision은 기본적으로 활성화되어 있습니다. 설정 > 기능에서 전환할 수 있습니다. 비활성화하면 이미지 업로드 버튼과 붙여넣기 처리가 비활성화됩니다.
사용 사례
- 스크린샷 분석 -- 스크린샷을 붙여넣고 "여기 어떤 오류가 표시되나요?"라고 질문
- 문서 읽기 -- 문서 사진을 찍고 모델에게 텍스트 추출 또는 요약 요청
- 코드 리뷰 -- 코드 스크린샷을 공유하고 개선 사항 요청
- 디자인 피드백 -- 목업을 업로드하고 디자인 제안 받기
- 수학 문제 -- 수학 문제 사진을 찍고 해결 요청
- 데이터 시각화 -- 차트를 공유하고 해석 요청