Pensamiento y Razonamiento
Algunos modelos de IA pueden "pensar" antes de responder, mostrando su proceso de razonamiento de cadena de pensamiento interno. AISCouncil soporta pensamiento extendido a través de múltiples proveedores, permitiéndote ver cómo el modelo razona a través de problemas complejos.
¿Qué Es el Modo Pensamiento?
Cuando el razonamiento está habilitado, el modelo genera un proceso de "pensamiento" interno antes de producir su respuesta final. Esta salida de pensamiento muestra el razonamiento paso a paso del modelo, que puede incluir:
- Descomponer problemas complejos
- Considerar múltiples enfoques
- Autocorregir errores
- Trabajar a través de cálculos matemáticos
- Evaluar compensaciones
La salida de pensamiento se muestra en una sección colapsable encima de la respuesta final. Haz clic para expandirla y ver la cadena de razonamiento completa.
Proveedores Soportados
| Proveedor | Implementación | Modelos |
|---|---|---|
| Anthropic | Extended thinking (thinking.budget_tokens) | Claude Opus 4, Claude Sonnet 4, Claude 3.5 Sonnet |
| Google Gemini | ThinkingConfig (thinkingConfig.thinkingBudget) | Gemini 2.5 Pro, Gemini 2.5 Flash |
| OpenAI | Reasoning effort (reasoning_effort) | o1, o3, o3-mini, o4-mini |
| DeepSeek | Razonamiento integrado | DeepSeek R1, DeepSeek R1 (vía OpenRouter) |
| OpenRouter | Pasa reasoning_effort al modelo subyacente | Cualquier modelo con capacidad de razonamiento |
Niveles de Esfuerzo
El dropdown de esfuerzo de razonamiento controla cuánto "pensamiento" hace el modelo antes de responder:
| Nivel | Presupuesto de Tokens | Cuándo Usar |
|---|---|---|
| Predeterminado (Apagado) | 0 | Respuestas estándar, preguntas simples |
| Bajo | ~8,192 tokens | Razonamiento rápido, lógica directa |
| Medio | ~32,768 tokens | Complejidad moderada, generación de código |
| Alto | ~128,000 tokens | Análisis complejo, resolución de problemas detallada |
| Máximo (Max del Modelo) | Salida máxima del modelo | Máxima profundidad de razonamiento para los problemas más difíciles |
Los presupuestos de tokens son aproximados. "Bajo", "Medio" y "Alto" se mapean a conteos de tokens específicos. "Máximo (Max del Modelo)" busca dinámicamente la capacidad de salida máxima del modelo desde el registro y asigna casi todo a pensamiento.
Cómo Funciona "Máximo (Max del Modelo)"
Cuando seleccionas "Máximo (Max del Modelo)", la plataforma busca la capacidad de salida máxima del modelo seleccionado desde el registro de modelos de la comunidad al momento de la llamada. Por ejemplo:
- Claude Opus 4: hasta ~127,000 tokens de pensamiento
- Gemini 2.5 Pro: hasta ~64,512 tokens de pensamiento
- Gemini 2.5 Flash: hasta ~64,512 tokens de pensamiento
Esto asegura que siempre obtengas la máxima profundidad de razonamiento que el modelo soporta, incluso cuando los modelos se actualizan con nuevos límites.
Presupuesto Personalizado
Para Anthropic y Gemini, puedes especificar un presupuesto de tokens numérico exacto ingresando un número en el campo de razonamiento. Por ejemplo, ingresar 50000 asigna exactamente 50,000 tokens para pensamiento.
Dónde Configurar
Por Bot (Panel de Configuración)
- Abre el panel de configuración (barra lateral derecha)
- Expande Configuración Avanzada
- Encuentra el dropdown Esfuerzo de Razonamiento
- Selecciona tu nivel deseado: Predeterminado, Bajo, Medio o Alto
Por Perfil (Configuración)
- Abre Configuración > Perfil
- Expande Configuración Avanzada para el perfil
- Establece el dropdown Esfuerzo de Razonamiento
- Las opciones incluyen: Predeterminado, Bajo, Medio, Alto y Máximo (Max del Modelo)
Por Miembro del Consejo
- Abre la configuración de miembro del consejo (expande una fila de miembro)
- Encuentra el dropdown Razonamiento
- Establece independientemente para cada miembro del consejo
En un consejo, puedes habilitar razonamiento solo para miembros específicos. Por ejemplo, da al presidente esfuerzo de razonamiento "Alto" mientras mantienes otros miembros en "Predeterminado" para balancear costo y calidad.
Cómo Se Muestra la Salida de Pensamiento
Durante la transmisión, cuando un modelo está en su fase de pensamiento, el chat muestra un indicador "Pensando...". Una vez que el pensamiento se completa y el modelo comienza su respuesta real, la salida de pensamiento aparece como una sección de detalles colapsable:
[Pensando (12,847 caracteres)] <-- haz clic para expandir
La respuesta real del modelo aparece aquí...
En modo consejo, la salida de pensamiento de cada miembro se muestra en su propia sección colapsable dentro de la tarjeta de respuesta de ese miembro.
Comportamiento Específico del Proveedor
Anthropic (Extended Thinking)
- Usa el parámetro
thinking:{ type: "enabled", budget_tokens: N } - Importante: Anthropic requiere
temperature: 1cuando el pensamiento extendido está habilitado. La plataforma maneja esto automáticamente -- tu temperatura configurada se anula. - La salida de pensamiento llega vía eventos
content_block_start(tipothinking) ythinking_deltaen el flujo SSE - El parámetro
max_tokensse aumenta automáticamente para acomodar tanto tokens de pensamiento como de respuesta
Google Gemini (ThinkingConfig)
- Usa
generationConfig.thinkingConfig.thinkingBudget maxOutputTokensse aumenta automáticamente cuando el pensamiento está habilitado- La salida de pensamiento se incluye en el flujo de respuesta de Gemini
Compatible con OpenAI (Reasoning Effort)
- Usa el parámetro
reasoning_effortcon valores de string:"low","medium","high" - Los presupuestos numéricos y
"max"se mapean a"high"para APIs compatibles con OpenAI - La salida de razonamiento llega vía
delta.reasoning_contenten el flujo SSE - Funciona con OpenAI, xAI (Grok), OpenRouter y otros proveedores compatibles con OpenAI
Cuándo Usar Modo Pensamiento
| Tarea | Nivel Recomendado |
|---|---|
| Preguntas y respuestas simples, chat casual | Predeterminado (Apagado) |
| Generación de código | Medio |
| Debugging de código complejo | Alto |
| Demostraciones matemáticas | Alto |
| Análisis de múltiples pasos | Alto |
| Síntesis de investigación | Medio a Alto |
| Escritura creativa | Predeterminado o Bajo |
| Puzzles de razonamiento más difíciles | Máximo (Max del Modelo) |
Implicaciones de Costo
Los tokens de pensamiento cuentan hacia tokens de salida y se facturan acordemente. Un modelo que "piensa" por 100,000 tokens antes de producir una respuesta de 2,000 tokens se factura por 102,000 tokens de salida. Esto puede aumentar significativamente los costos, especialmente en los niveles Alto y Máximo.
Multiplicadores de costo aproximados comparados con Predeterminado:
| Nivel | Multiplicador de Costo Aproximado |
|---|---|
| Predeterminado | 1x |
| Bajo | 2-4x |
| Medio | 5-15x |
| Alto | 15-50x |
| Máximo | 30-100x+ |
El multiplicador exacto depende de la complejidad de la pregunta. Preguntas simples con razonamiento Alto pueden usar solo una fracción del presupuesto, mientras problemas complejos pueden usar la asignación completa.
Comienza con "Medio" para la mayoría de las tareas y solo aumenta a "Alto" o "Máximo" cuando necesitas que el modelo trabaje a través de problemas particularmente difíciles. La mejora de calidad de Bajo a Medio es usualmente más notable que de Alto a Máximo.