본문으로 건너뛰기

사고 & 추론

일부 AI 모델은 응답 전에 "사고"하여 내부 사슬-of-thought 추론 과정을 보여줄 수 있습니다. AISCouncil는 여러 제공업체에서 확장 사고를 지원하여 모델이 복잡한 문제를 어떻게 추론하는지 볼 수 있습니다.

사고 모드란?

추론이 활성화되면 모델은 최종 답변을 생성하기 전에 내부 "사고" 과정을 생성합니다. 이 사고 출력은 다음을 포함할 수 있는 모델의 단계별 추론을 보여줍니다:

  • 복잡한 문제 분해
  • 여러 접근 방식 고려
  • 실수 자체 수정
  • 수학적 계산 수행
  • 트레이드오프 평가

사고 출력은 최종 응답 위의 접을 수 있는 섹션에 표시됩니다. 클릭하여 확장하고 전체 추론 체인을 확인하세요.

지원되는 제공업체

제공업체구현모델
AnthropicExtended thinking (thinking.budget_tokens)Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet
Google GeminiThinkingConfig (thinkingConfig.thinkingBudget)Gemini 2.5 Pro, Gemini 2.5 Flash
OpenAIReasoning effort (reasoning_effort)o1, o3, o3-mini, o4-mini
DeepSeek내장 추론DeepSeek R1, DeepSeek R1 (OpenRouter 경유)
OpenRouter기본 모델에 reasoning_effort 전달추론 가능한 모든 모델

노력 수준

추론 노력 드롭다운은 응답 전에 모델이 얼마나 "사고"하는지 제어합니다:

수준토큰 예산사용 시기
기본값 (끔)0표준 응답, 간단한 질문
낮음~8,192 토큰빠른 추론, 간단한 논리
보통~32,768 토큰보통 복잡성, 코드 생성
높음~128,000 토큰복잡한 분석, 상세한 문제 해결
최고 (모델 최대)모델의 최대 출력가장 어려운 문제를 위한 최대 추론 깊이
정보

토큰 예산은 대략적입니다. "낮음", "보통", "높음"은 특정 토큰 수에 매핑됩니다. "최고 (모델 최대)"는 호출 시점에 커뮤니티 모델 레지스트리에서 선택한 모델의 최대 출력 용량을 조회하고 거의 모든 것을 사고에 할당합니다.

"최고 (모델 최대)" 작동 방식

"최고 (모델 최대)"를 선택하면 플랫폼이 커뮤니티 모델 레지스트리에서 선택한 모델의 최대 출력 용량을 조회합니다. 예를 들어:

  • Claude Opus 4: 최대 ~127,000 사고 토큰
  • Gemini 2.5 Pro: 최대 ~64,512 사고 토큰
  • Gemini 2.5 Flash: 최대 ~64,512 사고 토큰

이것은 모델이 새로운 제한으로 업데이트되더라도 모델이 지원하는 최대 추론 깊이를 항상 얻을 수 있음을 보장합니다.

사용자 정의 예산

Anthropic과 Gemini의 경우 추론 필드에 숫자를 입력하여 정확한 숫자 토큰 예산을 지정할 수 있습니다. 예를 들어, 50000을 입력하면 정확히 50,000 토큰이 사고에 할당됩니다.

구성 위치

봇별 (설정 패널)

  1. 설정 패널 열기 (오른쪽 사이드바)
  2. 고급 설정 확장
  3. 추론 노력 드롭다운 찾기
  4. 원하는 수준 선택: 기본값, 낮음, 보통 또는 높음

프로필별 (설정)

  1. 설정 > 프로필 열기
  2. 프로필의 고급 설정 확장
  3. 추론 노력 드롭다운 설정
  4. 옵션: 기본값, 낮음, 보통, 높음 및 최고 (모델 최대)

Council 멤버별

  1. council 멤버 설정 열기 (멤버 행 확장)
  2. 추론 드롭다운 찾기
  3. 각 council 멤버에 대해 독립적으로 설정

Council에서 특정 멤버에만 추론을 활성화할 수 있습니다. 예를 들어, 의장에게 "높음" 추론 노력을 부여하고 다른 멤버는 "기본값"으로 유지하여 비용과 품질의 균형을 맞춥니다.

사고 출력 표시 방식

스트리밍 중에 모델이 사고 단계에 있을 때 채팅에 "Thinking..." 표시기가 표시됩니다. 사고가 완료되고 모델이 실제 응답을 시작하면 사고 출력이 접을 수 있는 세부 섹션으로 나타납니다:

[Thinking (12,847 chars)]     <-- 클릭하여 확장

모델의 실제 응답이 여기에 표시됩니다...

Council 모드에서는 각 멤버의 사고 출력이 해당 멤버의 응답 카드 내에 자체 접을 수 있는 섹션에 표시됩니다.

제공업체별 동작

Anthropic (Extended Thinking)

  • thinking 매개변수 사용: { type: "enabled", budget_tokens: N }
  • 중요: Anthropic은 확장 사고가 활성화되면 temperature: 1을 요구합니다. 플랫폼이 자동으로 처리합니다 -- 구성된 온도가 재정의됩니다.
  • 사고 출력은 SSE 스트림의 content_block_start (유형 thinking) 및 thinking_delta 이벤트를 통해 도착
  • max_tokens 매개변수는 사고와 응답 토큰을 모두 수용하도록 자동으로 증가

Google Gemini (ThinkingConfig)

  • generationConfig.thinkingConfig.thinkingBudget 사용
  • 사고가 활성화되면 maxOutputTokens가 자동으로 증가
  • 사고 출력은 Gemini 응답 스트림에 포함

OpenAI 호환 (Reasoning Effort)

  • 문자열 값이 있는 reasoning_effort 매개변수 사용: "low", "medium", "high"
  • 숫자 예산과 "max"는 OpenAI 호환 API용으로 "high"에 매핑
  • 추론 출력은 SSE 스트림의 delta.reasoning_content를 통해 도착
  • OpenAI, xAI (Grok), OpenRouter 및 기타 OpenAI 호환 제공업체에서 작동

사고 모드 사용 시기

작업추천 수준
간단한 Q&A, 캐주얼 채팅기본값 (끔)
코드 생성보통
복잡한 코드 디버깅높음
수학적 증명높음
다단계 분석높음
연구 종합보통에서 높음
창작 글쓰기기본값 또는 낮음
가장 어려운 추론 퍼즐최고 (모델 최대)

비용 영향

경고

사고 토큰은 출력 토큰에 계산되어 그에 따라 청구됩니다. 2,000 토큰 응답을 생성하기 전에 100,000 토큰을 "사고"하는 모델은 102,000 출력 토큰으로 청구됩니다. 이것은 특히 높음 및 최고 수준에서 비용을 크게 증가시킬 수 있습니다.

기본값 대비 대략적인 비용 배율:

수준대략적인 비용 배율
기본값1x
낮음2-4x
보통5-15x
높음15-50x
최고30-100x+

정확한 배율은 질문의 복잡성에 따라 다릅니다. 높은 추론이 있는 간단한 질문은 예산의 일부만 사용할 수 있지만, 복잡한 문제는 전체 할당을 사용할 수 있습니다.

대부분의 작업에는 "보통"으로 시작하고 특히 어려운 문제를 해결해야 할 때만 "높음" 또는 "최고"로 늘리세요. 낮음에서 보통으로의 품질 향상이 높음에서 최고로의 향상보다 보통 더 눈에 띕니다.