Pular para o conteúdo principal

Ollama (Local)

Ollama permite executar LLMs de código aberto localmente na sua própria máquina. O AISCouncil se conecta à sua instância Ollama local diretamente do navegador -- sem chave de API de nuvem necessária, e seus dados nunca saem do seu dispositivo.

Por Que Executar Localmente?

  • Privacidade completa -- suas conversas nunca saem da sua máquina
  • Sem custos de API -- gratuito para usar, sem cobrança por token
  • Sem limites de taxa -- limitado apenas pelo seu hardware
  • Funciona offline -- sem conexão de internet necessária após download do modelo
  • Sem chave de API -- nada para gerenciar ou rotacionar

Instalando Ollama

  1. Baixe e instale Ollama de ollama.com
  2. Baixe pelo menos um modelo:
# Modelos populares de propósito geral
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B, leve)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2

# Modelos focados em código
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # Alibaba Qwen 2.5 Coder

# Modelos de raciocínio
ollama pull deepseek-r1 # DeepSeek R1 (vários tamanhos)

# Modelos de visão
ollama pull llava # LLaVA (visão + linguagem)
ollama pull llama3.2-vision # Llama 3.2 Vision
  1. Inicie o servidor Ollama (ele executa automaticamente após instalação na maioria dos sistemas):
ollama serve

O servidor executa em http://localhost:11434 por padrão.

Configuração CORS

Passo Obrigatório

Navegadores impõem restrições de origem cruzada, então você deve permitir a origem do AISCouncil antes que Ollama funcione. Defina a variável de ambiente OLLAMA_ORIGINS antes de iniciar Ollama:

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

Para tornar permanente (macOS/Linux), adicione ao seu perfil de shell (~/.bashrc, ~/.zshrc):

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (permanentemente): Defina OLLAMA_ORIGINS como uma variável de ambiente do sistema via Propriedades do Sistema > Variáveis de Ambiente.

Sem essa configuração, o navegador bloqueará todas as solicitações para a API Ollama com um erro CORS.

Sem Chave de API Necessária

Ollama não requer uma chave de API. O AISCouncil usa um valor placeholder interno (ollama) para o campo de chave. Você não precisa inserir nada nas configurações de chave de API.

Detecção Automática de Modelos

No carregamento da página, o AISCouncil consulta GET /api/tags no endpoint Ollama para descobrir todos os modelos instalados localmente. Esses modelos aparecem automaticamente no seletor de modelos quando você escolhe Ollama como provedor.

Nenhum modelo é codificado -- o que você tiver baixado localmente estará disponível. Se você baixar novos modelos enquanto o aplicativo está aberto, recarregue a página para detectá-los.

Endpoint Personalizado

Se Ollama estiver executando em um endereço não padrão (ex: porta diferente, máquina remota ou atrás de proxy reverso), você pode configurar o endpoint:

  1. Abra Configurações > Modelo de IA
  2. Encontre a seção Ollama
  3. Insira sua URL de endpoint personalizado (ex: http://192.168.1.100:11434)

O endpoint personalizado é persistido no localStorage sob a chave ais-ollama-endpoint.

Acesso Remoto

Se executando Ollama em uma máquina remota, certifique-se:

  1. O servidor Ollama vincula a 0.0.0.0 (não apenas localhost): OLLAMA_HOST=0.0.0.0 ollama serve
  2. OLLAMA_ORIGINS=* está definido na máquina remota
  3. A porta (padrão 11434) é acessível pela rede do seu navegador

Modelos Suportados

Qualquer modelo disponível na biblioteca de modelos Ollama pode ser usado. Escolhas populares incluem:

CategoriaModelosDescrição
GeralLlama 3.3, Mistral, Gemma 2, Phi-3Chat e raciocínio de propósito geral
CódigoCodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoderGeração e análise de código
RaciocínioDeepSeek R1, Qwen2.5Raciocínio em cadeia de pensamento
VisãoLLaVA, Llama 3.2 VisionCompreensão de imagens
PequenoPhi-3 Mini, Gemma 2B, TinyLlamaDispositivos com poucos recursos

Requisitos de Hardware

O desempenho do Ollama depende inteiramente do seu hardware local:

Tamanho do ModeloRAM NecessáriaGPU RecomendadaModelos de Exemplo
1-3B4 GBOpcionalTinyLlama, Phi-3 Mini
7-8B8 GB6+ GB VRAMMistral 7B, Llama 3.1 8B
13B16 GB8+ GB VRAMCodeLlama 13B
70B64 GB40+ GB VRAMLlama 3.3 70B
dica

Para a melhor experiência, use um modelo que caiba na VRAM da sua GPU. Inferência apenas em CPU funciona mas é significativamente mais lenta. Modelos quantizados para 4-bit (Q4) exigem aproximadamente metade da RAM das versões de precisão completa.

Configuração

Ao criar um perfil de bot, selecione Ollama como provedor e escolha entre seus modelos disponíveis localmente. Ollama usa a API Chat Completions compatível com OpenAI com streaming SSE, então se comporta identicamente a provedores de nuvem da perspectiva da interface de chat.

Limitações

  • Ollama deve estar executando e acessível do navegador
  • Qualidade e velocidade do modelo dependem inteiramente do seu hardware local
  • Suporte a visão e chamada de ferramentas varia por modelo -- nem todos os modelos Ollama suportam esses recursos
  • Primeira resposta após carregamento do modelo pode ser lenta (modelo carrega na memória no primeiro uso)
  • Sem integração de UI de pensamento/raciocínio para modelos de raciocínio locais (saída de raciocínio aparece inline)

Solução de Problemas

ProblemaSolução
"Failed to fetch" ou erro CORSDefina OLLAMA_ORIGINS=* e reinicie Ollama
Nenhum modelo no menu suspensoCertifique-se de que ollama serve está executando e você baixou pelo menos um modelo
Respostas muito lentasO modelo pode não caber na VRAM da GPU; tente um modelo menor ou versão quantizada
Conexão recusadaVerifique se Ollama está executando na porta esperada (padrão: 11434)
Endpoint personalizado não funcionandoCertifique-se de que a URL inclui o protocolo (http://) e sem barra final