Saltar al contenido principal

Pensamiento y Razonamiento

Algunos modelos de IA pueden "pensar" antes de responder, mostrando su proceso de razonamiento de cadena de pensamiento interno. AISCouncil soporta pensamiento extendido a través de múltiples proveedores, permitiéndote ver cómo el modelo razona a través de problemas complejos.

¿Qué Es el Modo Pensamiento?

Cuando el razonamiento está habilitado, el modelo genera un proceso de "pensamiento" interno antes de producir su respuesta final. Esta salida de pensamiento muestra el razonamiento paso a paso del modelo, que puede incluir:

  • Descomponer problemas complejos
  • Considerar múltiples enfoques
  • Autocorregir errores
  • Trabajar a través de cálculos matemáticos
  • Evaluar compensaciones

La salida de pensamiento se muestra en una sección colapsable encima de la respuesta final. Haz clic para expandirla y ver la cadena de razonamiento completa.

Proveedores Soportados

ProveedorImplementaciónModelos
AnthropicExtended thinking (thinking.budget_tokens)Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet
Google GeminiThinkingConfig (thinkingConfig.thinkingBudget)Gemini 2.5 Pro, Gemini 2.5 Flash
OpenAIReasoning effort (reasoning_effort)o1, o3, o3-mini, o4-mini
DeepSeekRazonamiento integradoDeepSeek R1, DeepSeek R1 (vía OpenRouter)
OpenRouterPasa reasoning_effort al modelo subyacenteCualquier modelo con capacidad de razonamiento

Niveles de Esfuerzo

El dropdown de esfuerzo de razonamiento controla cuánto "pensamiento" hace el modelo antes de responder:

NivelPresupuesto de TokensCuándo Usar
Predeterminado (Apagado)0Respuestas estándar, preguntas simples
Bajo~8,192 tokensRazonamiento rápido, lógica directa
Medio~32,768 tokensComplejidad moderada, generación de código
Alto~128,000 tokensAnálisis complejo, resolución de problemas detallada
Máximo (Max del Modelo)Salida máxima del modeloMáxima profundidad de razonamiento para los problemas más difíciles
info

Los presupuestos de tokens son aproximados. "Bajo", "Medio" y "Alto" se mapean a conteos de tokens específicos. "Máximo (Max del Modelo)" busca dinámicamente la capacidad de salida máxima del modelo desde el registro y asigna casi todo a pensamiento.

Cómo Funciona "Máximo (Max del Modelo)"

Cuando seleccionas "Máximo (Max del Modelo)", la plataforma busca la capacidad de salida máxima del modelo seleccionado desde el registro de modelos de la comunidad al momento de la llamada. Por ejemplo:

  • Claude Opus 4: hasta ~127,000 tokens de pensamiento
  • Gemini 2.5 Pro: hasta ~64,512 tokens de pensamiento
  • Gemini 2.5 Flash: hasta ~64,512 tokens de pensamiento

Esto asegura que siempre obtengas la máxima profundidad de razonamiento que el modelo soporta, incluso cuando los modelos se actualizan con nuevos límites.

Presupuesto Personalizado

Para Anthropic y Gemini, puedes especificar un presupuesto de tokens numérico exacto ingresando un número en el campo de razonamiento. Por ejemplo, ingresar 50000 asigna exactamente 50,000 tokens para pensamiento.

Dónde Configurar

Por Bot (Panel de Configuración)

  1. Abre el panel de configuración (barra lateral derecha)
  2. Expande Configuración Avanzada
  3. Encuentra el dropdown Esfuerzo de Razonamiento
  4. Selecciona tu nivel deseado: Predeterminado, Bajo, Medio o Alto

Por Perfil (Configuración)

  1. Abre Configuración > Perfil
  2. Expande Configuración Avanzada para el perfil
  3. Establece el dropdown Esfuerzo de Razonamiento
  4. Las opciones incluyen: Predeterminado, Bajo, Medio, Alto y Máximo (Max del Modelo)

Por Miembro del Consejo

  1. Abre la configuración de miembro del consejo (expande una fila de miembro)
  2. Encuentra el dropdown Razonamiento
  3. Establece independientemente para cada miembro del consejo
consejo

En un consejo, puedes habilitar razonamiento solo para miembros específicos. Por ejemplo, da al presidente esfuerzo de razonamiento "Alto" mientras mantienes otros miembros en "Predeterminado" para balancear costo y calidad.

Cómo Se Muestra la Salida de Pensamiento

Durante la transmisión, cuando un modelo está en su fase de pensamiento, el chat muestra un indicador "Pensando...". Una vez que el pensamiento se completa y el modelo comienza su respuesta real, la salida de pensamiento aparece como una sección de detalles colapsable:

[Pensando (12,847 caracteres)]     <-- haz clic para expandir

La respuesta real del modelo aparece aquí...

En modo consejo, la salida de pensamiento de cada miembro se muestra en su propia sección colapsable dentro de la tarjeta de respuesta de ese miembro.

Comportamiento Específico del Proveedor

Anthropic (Extended Thinking)

  • Usa el parámetro thinking: { type: "enabled", budget_tokens: N }
  • Importante: Anthropic requiere temperature: 1 cuando el pensamiento extendido está habilitado. La plataforma maneja esto automáticamente -- tu temperatura configurada se anula.
  • La salida de pensamiento llega vía eventos content_block_start (tipo thinking) y thinking_delta en el flujo SSE
  • El parámetro max_tokens se aumenta automáticamente para acomodar tanto tokens de pensamiento como de respuesta

Google Gemini (ThinkingConfig)

  • Usa generationConfig.thinkingConfig.thinkingBudget
  • maxOutputTokens se aumenta automáticamente cuando el pensamiento está habilitado
  • La salida de pensamiento se incluye en el flujo de respuesta de Gemini

Compatible con OpenAI (Reasoning Effort)

  • Usa el parámetro reasoning_effort con valores de string: "low", "medium", "high"
  • Los presupuestos numéricos y "max" se mapean a "high" para APIs compatibles con OpenAI
  • La salida de razonamiento llega vía delta.reasoning_content en el flujo SSE
  • Funciona con OpenAI, xAI (Grok), OpenRouter y otros proveedores compatibles con OpenAI

Cuándo Usar Modo Pensamiento

TareaNivel Recomendado
Preguntas y respuestas simples, chat casualPredeterminado (Apagado)
Generación de códigoMedio
Debugging de código complejoAlto
Demostraciones matemáticasAlto
Análisis de múltiples pasosAlto
Síntesis de investigaciónMedio a Alto
Escritura creativaPredeterminado o Bajo
Puzzles de razonamiento más difícilesMáximo (Max del Modelo)

Implicaciones de Costo

aviso

Los tokens de pensamiento cuentan hacia tokens de salida y se facturan acordemente. Un modelo que "piensa" por 100,000 tokens antes de producir una respuesta de 2,000 tokens se factura por 102,000 tokens de salida. Esto puede aumentar significativamente los costos, especialmente en los niveles Alto y Máximo.

Multiplicadores de costo aproximados comparados con Predeterminado:

NivelMultiplicador de Costo Aproximado
Predeterminado1x
Bajo2-4x
Medio5-15x
Alto15-50x
Máximo30-100x+

El multiplicador exacto depende de la complejidad de la pregunta. Preguntas simples con razonamiento Alto pueden usar solo una fracción del presupuesto, mientras problemas complejos pueden usar la asignación completa.

consejo

Comienza con "Medio" para la mayoría de las tareas y solo aumenta a "Alto" o "Máximo" cuando necesitas que el modelo trabaje a través de problemas particularmente difíciles. La mejora de calidad de Bajo a Medio es usualmente más notable que de Alto a Máximo.