Ollama (Local)

Ollama permite executar LLMs de código aberto localmente na sua própria máquina. O AISCouncil se conecta à sua instância Ollama local diretamente do navegador -- sem chave de API de nuvem necessária, e seus dados nunca saem do seu dispositivo.

Por Que Executar Localmente?

Privacidade completa -- suas conversas nunca saem da sua máquina
Sem custos de API -- gratuito para usar, sem cobrança por token
Sem limites de taxa -- limitado apenas pelo seu hardware
Funciona offline -- sem conexão de internet necessária após download do modelo
Sem chave de API -- nada para gerenciar ou rotacionar

Instalando Ollama

Baixe e instale Ollama de ollama.com
Baixe pelo menos um modelo:

# Modelos populares de propósito geral
ollama pull llama3.3          # Meta Llama 3.3 (70B)
ollama pull llama3.2          # Meta Llama 3.2 (3B, leve)
ollama pull mistral           # Mistral 7B
ollama pull gemma2            # Google Gemma 2

# Modelos focados em código
ollama pull codellama         # Meta Code Llama
ollama pull deepseek-coder    # DeepSeek Coder
ollama pull qwen2.5-coder     # Alibaba Qwen 2.5 Coder

# Modelos de raciocínio
ollama pull deepseek-r1       # DeepSeek R1 (vários tamanhos)

# Modelos de visão
ollama pull llava             # LLaVA (visão + linguagem)
ollama pull llama3.2-vision   # Llama 3.2 Vision

Inicie o servidor Ollama (ele executa automaticamente após instalação na maioria dos sistemas):

ollama serve

O servidor executa em http://localhost:11434 por padrão.

Configuração CORS

Passo Obrigatório

Navegadores impõem restrições de origem cruzada, então você deve permitir a origem do AISCouncil antes que Ollama funcione. Defina a variável de ambiente OLLAMA_ORIGINS antes de iniciar Ollama:

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

Para tornar permanente (macOS/Linux), adicione ao seu perfil de shell (~/.bashrc, ~/.zshrc):

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (permanentemente): Defina OLLAMA_ORIGINS como uma variável de ambiente do sistema via Propriedades do Sistema > Variáveis de Ambiente.

Sem essa configuração, o navegador bloqueará todas as solicitações para a API Ollama com um erro CORS.

Sem Chave de API Necessária

Ollama não requer uma chave de API. O AISCouncil usa um valor placeholder interno (ollama) para o campo de chave. Você não precisa inserir nada nas configurações de chave de API.

Detecção Automática de Modelos

No carregamento da página, o AISCouncil consulta GET /api/tags no endpoint Ollama para descobrir todos os modelos instalados localmente. Esses modelos aparecem automaticamente no seletor de modelos quando você escolhe Ollama como provedor.

Nenhum modelo é codificado -- o que você tiver baixado localmente estará disponível. Se você baixar novos modelos enquanto o aplicativo está aberto, recarregue a página para detectá-los.

Endpoint Personalizado

Se Ollama estiver executando em um endereço não padrão (ex: porta diferente, máquina remota ou atrás de proxy reverso), você pode configurar o endpoint:

Abra Configurações > Modelo de IA
Encontre a seção Ollama
Insira sua URL de endpoint personalizado (ex: http://192.168.1.100:11434)

O endpoint personalizado é persistido no localStorage sob a chave ais-ollama-endpoint.

Acesso Remoto

Se executando Ollama em uma máquina remota, certifique-se:

O servidor Ollama vincula a 0.0.0.0 (não apenas localhost): OLLAMA_HOST=0.0.0.0 ollama serve
OLLAMA_ORIGINS=* está definido na máquina remota
A porta (padrão 11434) é acessível pela rede do seu navegador

Modelos Suportados

Qualquer modelo disponível na biblioteca de modelos Ollama pode ser usado. Escolhas populares incluem:

Categoria	Modelos	Descrição
Geral	Llama 3.3, Mistral, Gemma 2, Phi-3	Chat e raciocínio de propósito geral
Código	CodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoder	Geração e análise de código
Raciocínio	DeepSeek R1, Qwen2.5	Raciocínio em cadeia de pensamento
Visão	LLaVA, Llama 3.2 Vision	Compreensão de imagens
Pequeno	Phi-3 Mini, Gemma 2B, TinyLlama	Dispositivos com poucos recursos

Requisitos de Hardware

O desempenho do Ollama depende inteiramente do seu hardware local:

Tamanho do Modelo	RAM Necessária	GPU Recomendada	Modelos de Exemplo
1-3B	4 GB	Opcional	TinyLlama, Phi-3 Mini
7-8B	8 GB	6+ GB VRAM	Mistral 7B, Llama 3.1 8B
13B	16 GB	8+ GB VRAM	CodeLlama 13B
70B	64 GB	40+ GB VRAM	Llama 3.3 70B

dica

Para a melhor experiência, use um modelo que caiba na VRAM da sua GPU. Inferência apenas em CPU funciona mas é significativamente mais lenta. Modelos quantizados para 4-bit (Q4) exigem aproximadamente metade da RAM das versões de precisão completa.

Configuração

Ao criar um perfil de bot, selecione Ollama como provedor e escolha entre seus modelos disponíveis localmente. Ollama usa a API Chat Completions compatível com OpenAI com streaming SSE, então se comporta identicamente a provedores de nuvem da perspectiva da interface de chat.

Limitações

Ollama deve estar executando e acessível do navegador
Qualidade e velocidade do modelo dependem inteiramente do seu hardware local
Suporte a visão e chamada de ferramentas varia por modelo -- nem todos os modelos Ollama suportam esses recursos
Primeira resposta após carregamento do modelo pode ser lenta (modelo carrega na memória no primeiro uso)
Sem integração de UI de pensamento/raciocínio para modelos de raciocínio locais (saída de raciocínio aparece inline)

Solução de Problemas

Problema	Solução
"Failed to fetch" ou erro CORS	Defina `OLLAMA_ORIGINS=*` e reinicie Ollama
Nenhum modelo no menu suspenso	Certifique-se de que `ollama serve` está executando e você baixou pelo menos um modelo
Respostas muito lentas	O modelo pode não caber na VRAM da GPU; tente um modelo menor ou versão quantizada
Conexão recusada	Verifique se Ollama está executando na porta esperada (padrão: 11434)
Endpoint personalizado não funcionando	Certifique-se de que a URL inclui o protocolo (`http://`) e sem barra final

Por Que Executar Localmente?​

Instalando Ollama​

Configuração CORS​

Sem Chave de API Necessária​

Detecção Automática de Modelos​

Endpoint Personalizado​

Modelos Suportados​

Requisitos de Hardware​

Configuração​

Limitações​

Solução de Problemas​