Saltar al contenido principal

Ollama (Local)

Ollama te permite ejecutar LLMs de código abierto localmente en tu propia máquina. AISCouncil se conecta a tu instancia local de Ollama directamente desde el navegador -- no se requiere clave API de nube, y tus datos nunca salen de tu dispositivo.

¿Por Qué Ejecutar Localmente?

  • Privacidad completa -- tus conversaciones nunca salen de tu máquina
  • Sin costos de API -- gratis de usar, sin facturación por token
  • Sin límites de tasa -- limitado solo por tu hardware
  • Funciona offline -- no se necesita conexión a internet después de descargar el modelo
  • Sin clave API -- nada que gestionar o rotar

Instalar Ollama

  1. Descarga e instala Ollama desde ollama.com
  2. Descarga al menos un modelo:
# Modelos de propósito general populares
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B, ligero)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2

# Modelos enfocados en código
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # Alibaba Qwen 2.5 Coder

# Modelos de razonamiento
ollama pull deepseek-r1 # DeepSeek R1 (varios tamaños)

# Modelos de visión
ollama pull llava # LLaVA (visión + lenguaje)
ollama pull llama3.2-vision # Llama 3.2 Vision
  1. Inicia el servidor Ollama (se ejecuta automáticamente después de instalar en la mayoría de sistemas):
ollama serve

El servidor se ejecuta en http://localhost:11434 por defecto.

Configuración CORS

Paso Requerido

Los navegadores aplican restricciones de origen cruzado, así que debes permitir el origen de AISCouncil antes de que Ollama funcione. Establece la variable de entorno OLLAMA_ORIGINS antes de iniciar Ollama:

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

Para hacerlo permanente (macOS/Linux), agrega a tu perfil de shell (~/.bashrc, ~/.zshrc):

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (permanentemente): Establece OLLAMA_ORIGINS como una variable de entorno del sistema vía Propiedades del Sistema > Variables de Entorno.

Sin esta configuración, el navegador bloqueará todas las solicitudes a la API de Ollama con un error CORS.

No Se Necesita Clave API

Ollama no requiere una clave API. AISCouncil usa un valor marcador de posición interno (ollama) para el campo de clave. No necesitas ingresar nada en la configuración de clave API.

Detección Automática de Modelos

Al cargar la página, AISCouncil consulta GET /api/tags en el endpoint de Ollama para descubrir todos los modelos instalados localmente. Estos modelos aparecen automáticamente en el selector de modelos cuando eliges Ollama como proveedor.

Ningún modelo está predefinido -- cualquier modelo que hayas descargado localmente estará disponible. Si descargas nuevos modelos mientras la aplicación está abierta, recarga la página para detectarlos.

Endpoint Personalizado

Si Ollama se está ejecutando en una dirección no predeterminada (ej., un puerto diferente, una máquina remota o detrás de un proxy inverso), puedes configurar el endpoint:

  1. Abre Configuración > Modelo de IA
  2. Encuentra la sección Ollama
  3. Ingresa tu URL de endpoint personalizado (ej., http://192.168.1.100:11434)

El endpoint personalizado persiste en localStorage bajo la clave ais-ollama-endpoint.

Acceso Remoto

Si ejecutas Ollama en una máquina remota, asegúrate:

  1. El servidor Ollama se vincula a 0.0.0.0 (no solo localhost): OLLAMA_HOST=0.0.0.0 ollama serve
  2. OLLAMA_ORIGINS=* está establecido en la máquina remota
  3. El puerto (predeterminado 11434) es accesible desde la red de tu navegador

Modelos Soportados

Cualquier modelo disponible en la biblioteca de modelos de Ollama puede usarse. Las elecciones populares incluyen:

CategoríaModelosDescripción
GeneralLlama 3.3, Mistral, Gemma 2, Phi-3Chat y razonamiento de propósito general
CódigoCodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoderGeneración y análisis de código
RazonamientoDeepSeek R1, Qwen2.5Razonamiento de cadena de pensamiento
VisiónLLaVA, Llama 3.2 VisionComprensión de imágenes
PequeñoPhi-3 Mini, Gemma 2B, TinyLlamaDispositivos con pocos recursos

Requisitos de Hardware

El rendimiento de Ollama depende completamente de tu hardware local:

Tamaño de ModeloRAM RequeridaGPU RecomendadaModelos de Ejemplo
1-3B4 GBOpcionalTinyLlama, Phi-3 Mini
7-8B8 GB6+ GB VRAMMistral 7B, Llama 3.1 8B
13B16 GB8+ GB VRAMCodeLlama 13B
70B64 GB40+ GB VRAMLlama 3.3 70B
consejo

Para la mejor experiencia, usa un modelo que quepa en la VRAM de tu GPU. La inferencia solo con CPU funciona pero es significativamente más lenta. Los modelos cuantizados a 4-bit (Q4) requieren aproximadamente la mitad de RAM que las versiones de precisión completa.

Configuración

Al crear un perfil de bot, selecciona Ollama como proveedor y elige entre tus modelos disponibles localmente. Ollama usa la API Chat Completions compatible con OpenAI con transmisión SSE, por lo que se comporta idénticamente a los proveedores en la nube desde la perspectiva de la interfaz de chat.

Limitaciones

  • Ollama debe estar ejecutándose y accesible desde el navegador
  • La calidad y velocidad del modelo dependen completamente de tu hardware local
  • El soporte de visión y llamada de herramientas varía por modelo -- no todos los modelos Ollama soportan estas características
  • La primera respuesta después de cargar el modelo puede ser lenta (el modelo se carga en memoria en el primer uso)
  • Sin integración de UI de pensamiento/razonamiento para modelos de razonamiento locales (la salida de razonamiento aparece en línea)

Solución de Problemas

ProblemaSolución
"Failed to fetch" o error CORSEstablece OLLAMA_ORIGINS=* y reinicia Ollama
No hay modelos en el dropdownAsegúrate de que ollama serve se esté ejecutando y has descargado al menos un modelo
Respuestas muy lentasEl modelo puede no caber en la VRAM de GPU; prueba un modelo más pequeño o versión cuantizada
Conexión rechazadaVerifica que Ollama se esté ejecutando en el puerto esperado (predeterminado: 11434)
Endpoint personalizado no funcionaAsegúrate de que la URL incluya el protocolo (http://) y sin barra final