사고 & 추론
일부 AI 모델은 응답 전에 "사고"하여 내부 사슬-of-thought 추론 과정을 보여줄 수 있습니다. AISCouncil는 여러 제공업체에서 확장 사고를 지원하여 모델이 복잡한 문제를 어떻게 추론하는지 볼 수 있습니다.
사고 모드란?
추론이 활성화되면 모델은 최종 답변을 생성하기 전에 내부 "사고" 과정을 생성합니다. 이 사고 출력은 다음을 포함할 수 있는 모델의 단계별 추론을 보여줍니다:
- 복잡한 문제 분해
- 여러 접근 방식 고려
- 실수 자체 수정
- 수학적 계산 수행
- 트레이드오프 평가
사고 출력은 최종 응답 위의 접을 수 있는 섹션에 표시됩니다. 클릭하여 확장하고 전체 추론 체인을 확인하세요.
지원되는 제공업체
| 제공업체 | 구현 | 모델 |
|---|---|---|
| Anthropic | Extended thinking (thinking.budget_tokens) | Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet |
| Google Gemini | ThinkingConfig (thinkingConfig.thinkingBudget) | Gemini 2.5 Pro, Gemini 2.5 Flash |
| OpenAI | Reasoning effort (reasoning_effort) | o1, o3, o3-mini, o4-mini |
| DeepSeek | 내장 추론 | DeepSeek R1, DeepSeek R1 (OpenRouter 경유) |
| OpenRouter | 기본 모델에 reasoning_effort 전달 | 추론 가능한 모든 모델 |
노력 수준
추론 노력 드롭다운은 응답 전에 모델이 얼마나 "사고"하는지 제어합니다:
| 수준 | 토큰 예산 | 사용 시기 |
|---|---|---|
| 기본값 (끔) | 0 | 표준 응답, 간단한 질문 |
| 낮음 | ~8,192 토큰 | 빠른 추론, 간단한 논리 |
| 보통 | ~32,768 토큰 | 보통 복잡성, 코드 생성 |
| 높음 | ~128,000 토큰 | 복잡한 분석, 상세한 문제 해결 |
| 최고 (모델 최대) | 모델의 최대 출력 | 가장 어려운 문제를 위한 최대 추론 깊이 |
토큰 예산은 대략적입니다. "낮음", "보통", "높음"은 특정 토큰 수에 매핑됩니다. "최고 (모델 최대)"는 호출 시점에 커뮤니티 모델 레지스트리에서 선택한 모델의 최대 출력 용량을 조회하고 거의 모든 것을 사고에 할당합니다.
"최고 (모델 최대)" 작동 방식
"최고 (모델 최대)"를 선택하면 플랫폼이 커뮤니티 모델 레지스트리에서 선택한 모델의 최대 출력 용량을 조회합니다. 예를 들어:
- Claude Opus 4: 최대 ~127,000 사고 토큰
- Gemini 2.5 Pro: 최대 ~64,512 사고 토큰
- Gemini 2.5 Flash: 최대 ~64,512 사고 토큰
이것은 모델이 새로운 제한으로 업데이트되더라도 모델이 지원하는 최대 추론 깊이를 항상 얻을 수 있음을 보장합니다.
사용자 정의 예산
Anthropic과 Gemini의 경우 추론 필드에 숫자를 입력하여 정확한 숫자 토큰 예산을 지정할 수 있습니다. 예를 들어, 50000을 입력하면 정확히 50,000 토큰이 사고에 할당됩니다.
구성 위치
봇별 (설정 패널)
- 설정 패널 열기 (오른쪽 사이드바)
- 고급 설정 확장
- 추론 노력 드롭다운 찾기
- 원하는 수준 선택: 기본값, 낮음, 보통 또는 높음
프로필별 (설정)
- 설정 > 프로필 열기
- 프로필의 고급 설정 확장
- 추론 노력 드롭다운 설정
- 옵션: 기본값, 낮음, 보통, 높음 및 최고 (모델 최대)
Council 멤버별
- council 멤버 설정 열기 (멤버 행 확장)
- 추론 드롭다운 찾기
- 각 council 멤버에 대해 독립적으로 설정
Council에서 특정 멤버에만 추론을 활성화할 수 있습니다. 예를 들어, 의장에게 "높음" 추론 노력을 부여하고 다른 멤버는 "기본값"으로 유지하여 비용과 품질의 균형을 맞춥니다.
사고 출력 표시 방식
스트리밍 중에 모델이 사고 단계에 있을 때 채팅에 "Thinking..." 표시기가 표시됩니다. 사고가 완료되고 모델이 실제 응답을 시작하면 사고 출력이 접을 수 있는 세부 섹션으로 나타납니다:
[Thinking (12,847 chars)] <-- 클릭하여 확장
모델의 실제 응답이 여기에 표시됩니다...
Council 모드에서는 각 멤버의 사고 출력이 해당 멤버의 응답 카드 내에 자체 접을 수 있는 섹션에 표시됩니다.
제공업체별 동작
Anthropic (Extended Thinking)
thinking매개변수 사용:{ type: "enabled", budget_tokens: N }- 중요: Anthropic은 확장 사고가 활성화되면
temperature: 1을 요구합니다. 플랫폼이 자동으로 처리합니다 -- 구성된 온도가 재정의됩니다. - 사고 출력은 SSE 스트림의
content_block_start(유형thinking) 및thinking_delta이벤트를 통해 도착 max_tokens매개변수는 사고와 응답 토큰을 모두 수용하도록 자동으로 증가
Google Gemini (ThinkingConfig)
generationConfig.thinkingConfig.thinkingBudget사용- 사고가 활성화되면
maxOutputTokens가 자동으로 증가 - 사고 출력은 Gemini 응답 스트림에 포함
OpenAI 호환 (Reasoning Effort)
- 문자열 값이 있는
reasoning_effort매개변수 사용:"low","medium","high" - 숫자 예산과
"max"는 OpenAI 호환 API용으로"high"에 매핑 - 추론 출력은 SSE 스트림의
delta.reasoning_content를 통해 도착 - OpenAI, xAI (Grok), OpenRouter 및 기타 OpenAI 호환 제공업체에서 작동
사고 모드 사용 시기
| 작업 | 추천 수준 |
|---|---|
| 간단한 Q&A, 캐주얼 채팅 | 기본값 (끔) |
| 코드 생성 | 보통 |
| 복잡한 코드 디버깅 | 높음 |
| 수학적 증명 | 높음 |
| 다단계 분석 | 높음 |
| 연구 종합 | 보통에서 높음 |
| 창작 글쓰기 | 기본값 또는 낮음 |
| 가장 어려운 추론 퍼즐 | 최고 (모델 최대) |
비용 영향
사고 토큰은 출력 토큰에 계산되어 그에 따라 청구됩니다. 2,000 토큰 응답을 생성하기 전에 100,000 토큰을 "사고"하는 모델은 102,000 출력 토큰으로 청구됩니다. 이것은 특히 높음 및 최고 수준에서 비용을 크게 증가시킬 수 있습니다.
기본값 대비 대략적인 비용 배율:
| 수준 | 대략적인 비용 배율 |
|---|---|
| 기본값 | 1x |
| 낮음 | 2-4x |
| 보통 | 5-15x |
| 높음 | 15-50x |
| 최고 | 30-100x+ |
정확한 배율은 질문의 복잡성에 따라 다릅니다. 높은 추론이 있는 간단한 질문은 예산의 일부만 사용할 수 있지만, 복잡한 문제는 전체 할당을 사용할 수 있습니다.
대부분의 작업에는 "보통"으로 시작하고 특히 어려운 문제를 해결해야 할 때만 "높음" 또는 "최고"로 늘리세요. 낮음에서 보통으로의 품질 향상이 높음에서 최고로의 향상보다 보통 더 눈에 띕니다.