Ollama (Local)
Ollama permite executar LLMs de código aberto localmente na sua própria máquina. O AISCouncil se conecta à sua instância Ollama local diretamente do navegador -- sem chave de API de nuvem necessária, e seus dados nunca saem do seu dispositivo.
Por Que Executar Localmente?
- Privacidade completa -- suas conversas nunca saem da sua máquina
- Sem custos de API -- gratuito para usar, sem cobrança por token
- Sem limites de taxa -- limitado apenas pelo seu hardware
- Funciona offline -- sem conexão de internet necessária após download do modelo
- Sem chave de API -- nada para gerenciar ou rotacionar
Instalando Ollama
- Baixe e instale Ollama de ollama.com
- Baixe pelo menos um modelo:
# Modelos populares de propósito geral
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B, leve)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2
# Modelos focados em código
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # Alibaba Qwen 2.5 Coder
# Modelos de raciocínio
ollama pull deepseek-r1 # DeepSeek R1 (vários tamanhos)
# Modelos de visão
ollama pull llava # LLaVA (visão + linguagem)
ollama pull llama3.2-vision # Llama 3.2 Vision
- Inicie o servidor Ollama (ele executa automaticamente após instalação na maioria dos sistemas):
ollama serve
O servidor executa em http://localhost:11434 por padrão.
Configuração CORS
Navegadores impõem restrições de origem cruzada, então você deve permitir a origem do AISCouncil antes que Ollama funcione. Defina a variável de ambiente OLLAMA_ORIGINS antes de iniciar Ollama:
macOS / Linux:
OLLAMA_ORIGINS=* ollama serve
Para tornar permanente (macOS/Linux), adicione ao seu perfil de shell (~/.bashrc, ~/.zshrc):
export OLLAMA_ORIGINS=*
Windows (PowerShell):
$env:OLLAMA_ORIGINS="*"
ollama serve
Windows (permanentemente): Defina OLLAMA_ORIGINS como uma variável de ambiente do sistema via Propriedades do Sistema > Variáveis de Ambiente.
Sem essa configuração, o navegador bloqueará todas as solicitações para a API Ollama com um erro CORS.
Sem Chave de API Necessária
Ollama não requer uma chave de API. O AISCouncil usa um valor placeholder interno (ollama) para o campo de chave. Você não precisa inserir nada nas configurações de chave de API.
Detecção Automática de Modelos
No carregamento da página, o AISCouncil consulta GET /api/tags no endpoint Ollama para descobrir todos os modelos instalados localmente. Esses modelos aparecem automaticamente no seletor de modelos quando você escolhe Ollama como provedor.
Nenhum modelo é codificado -- o que você tiver baixado localmente estará disponível. Se você baixar novos modelos enquanto o aplicativo está aberto, recarregue a página para detectá-los.
Endpoint Personalizado
Se Ollama estiver executando em um endereço não padrão (ex: porta diferente, máquina remota ou atrás de proxy reverso), você pode configurar o endpoint:
- Abra Configurações > Modelo de IA
- Encontre a seção Ollama
- Insira sua URL de endpoint personalizado (ex:
http://192.168.1.100:11434)
O endpoint personalizado é persistido no localStorage sob a chave ais-ollama-endpoint.
Se executando Ollama em uma máquina remota, certifique-se:
- O servidor Ollama vincula a
0.0.0.0(não apenaslocalhost):OLLAMA_HOST=0.0.0.0 ollama serve OLLAMA_ORIGINS=*está definido na máquina remota- A porta (padrão 11434) é acessível pela rede do seu navegador
Modelos Suportados
Qualquer modelo disponível na biblioteca de modelos Ollama pode ser usado. Escolhas populares incluem:
| Categoria | Modelos | Descrição |
|---|---|---|
| Geral | Llama 3.3, Mistral, Gemma 2, Phi-3 | Chat e raciocínio de propósito geral |
| Código | CodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoder | Geração e análise de código |
| Raciocínio | DeepSeek R1, Qwen2.5 | Raciocínio em cadeia de pensamento |
| Visão | LLaVA, Llama 3.2 Vision | Compreensão de imagens |
| Pequeno | Phi-3 Mini, Gemma 2B, TinyLlama | Dispositivos com poucos recursos |
Requisitos de Hardware
O desempenho do Ollama depende inteiramente do seu hardware local:
| Tamanho do Modelo | RAM Necessária | GPU Recomendada | Modelos de Exemplo |
|---|---|---|---|
| 1-3B | 4 GB | Opcional | TinyLlama, Phi-3 Mini |
| 7-8B | 8 GB | 6+ GB VRAM | Mistral 7B, Llama 3.1 8B |
| 13B | 16 GB | 8+ GB VRAM | CodeLlama 13B |
| 70B | 64 GB | 40+ GB VRAM | Llama 3.3 70B |
Para a melhor experiência, use um modelo que caiba na VRAM da sua GPU. Inferência apenas em CPU funciona mas é significativamente mais lenta. Modelos quantizados para 4-bit (Q4) exigem aproximadamente metade da RAM das versões de precisão completa.
Configuração
Ao criar um perfil de bot, selecione Ollama como provedor e escolha entre seus modelos disponíveis localmente. Ollama usa a API Chat Completions compatível com OpenAI com streaming SSE, então se comporta identicamente a provedores de nuvem da perspectiva da interface de chat.
Limitações
- Ollama deve estar executando e acessível do navegador
- Qualidade e velocidade do modelo dependem inteiramente do seu hardware local
- Suporte a visão e chamada de ferramentas varia por modelo -- nem todos os modelos Ollama suportam esses recursos
- Primeira resposta após carregamento do modelo pode ser lenta (modelo carrega na memória no primeiro uso)
- Sem integração de UI de pensamento/raciocínio para modelos de raciocínio locais (saída de raciocínio aparece inline)
Solução de Problemas
| Problema | Solução |
|---|---|
| "Failed to fetch" ou erro CORS | Defina OLLAMA_ORIGINS=* e reinicie Ollama |
| Nenhum modelo no menu suspenso | Certifique-se de que ollama serve está executando e você baixou pelo menos um modelo |
| Respostas muito lentas | O modelo pode não caber na VRAM da GPU; tente um modelo menor ou versão quantizada |
| Conexão recusada | Verifique se Ollama está executando na porta esperada (padrão: 11434) |
| Endpoint personalizado não funcionando | Certifique-se de que a URL inclui o protocolo (http://) e sem barra final |