Перейти к основному содержимому

Ollama (Локально)

Ollama позволяет запускать LLM с открытым кодом локально на вашей машине. AISCouncil подключается к вашему локальному экземпляру Ollama прямо из браузера — облачный API-ключ не требуется, и ваши данные никогда не покидают устройство.

Почему запускать локально?

  • Полная приватность — ваши разговоры никогда не покидают машину
  • Без API-расходов — бесплатно, нет биллинга за токены
  • Без rate limits — ограничено только вашим оборудованием
  • Работает офлайн — интернет-соединение не нужно после скачивания модели
  • Без API-ключа — нечего управлять или ротировать

Установка Ollama

  1. Скачайте и установите Ollama с ollama.com
  2. Скачайте хотя бы одну модель:
# Популярные модели общего назначения
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B, легковесная)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2

# Модели с фокусом на код
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # Alibaba Qwen 2.5 Coder

# Reasoning модели
ollama pull deepseek-r1 # DeepSeek R1 (различные размеры)

# Vision модели
ollama pull llava # LLaVA (vision + language)
ollama pull llama3.2-vision # Llama 3.2 Vision
  1. Запустите сервер Ollama (он запускается автоматически после установки на большинстве систем):
ollama serve

Сервер работает на http://localhost:11434 по умолчанию.

Конфигурация CORS

Обязательный шаг

Браузеры применяют cross-origin ограничения, поэтому вы должны разрешить origin AISCouncil перед тем, как Ollama заработает. Установите переменную окружения OLLAMA_ORIGINS перед запуском Ollama:

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

Для постоянной настройки (macOS/Linux), добавьте в профиль оболочки (~/.bashrc, ~/.zshrc):

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (постоянно): Установите OLLAMA_ORIGINS как системную переменную окружения через System Properties > Environment Variables.

Без этой настройки браузер заблокирует все запросы к Ollama API с ошибкой CORS.

API-ключ не нужен

Ollama не требует API-ключа. AISCouncil использует внутреннее placeholder-значение (ollama) для поля ключа. Вам не нужно вводить ничего в настройках API-ключа.

Автоопределение моделей

При загрузке страницы AISCouncil запрашивает GET /api/tags на эндпоинте Ollama для обнаружения всех локально установленных моделей. Эти модели появляются автоматически в селекторе моделей, когда вы выбираете Ollama как провайдера.

Никакие модели не хардкодятся — всё, что вы скачали локально, будет доступно. Если вы скачаете новые модели, пока приложение открыто, перезагрузите страницу для их обнаружения.

Кастомный эндпоинт

Если Ollama работает на нестандартном адресе (например, другой порт, удалённая машина или за reverse proxy), вы можете настроить эндпоинт:

  1. Откройте Settings > AI Model
  2. Найдите раздел Ollama
  3. Введите ваш кастомный URL эндпоинта (например, http://192.168.1.100:11434)

Кастомный эндпоинт сохраняется в localStorage под ключом ais-ollama-endpoint.

Удалённый доступ

Если Ollama запущена на удалённой машине, убедитесь:

  1. Сервер Ollama привязан к 0.0.0.0 (не только localhost): OLLAMA_HOST=0.0.0.0 ollama serve
  2. OLLAMA_ORIGINS=* установлено на удалённой машине
  3. Порт (по умолчанию 11434) доступен из сети вашего браузера

Поддерживаемые модели

Любая модель, доступная в библиотеке моделей Ollama, может использоваться. Популярные варианты:

КатегорияМоделиОписание
ОбщиеLlama 3.3, Mistral, Gemma 2, Phi-3Чат и reasoning общего назначения
КодCodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoderГенерация и анализ кода
ReasoningDeepSeek R1, Qwen2.5Chain-of-thought reasoning
VisionLLaVA, Llama 3.2 VisionПонимание изображений
МаленькиеPhi-3 Mini, Gemma 2B, TinyLlamaУстройства с ограниченными ресурсами

Требования к оборудованию

Производительность Ollama полностью зависит от вашего локального оборудования:

Размер моделиТребуется RAMРекомендуется GPUПримеры моделей
1-3B4 GBОпциональноTinyLlama, Phi-3 Mini
7-8B8 GB6+ GB VRAMMistral 7B, Llama 3.1 8B
13B16 GB8+ GB VRAMCodeLlama 13B
70B64 GB40+ GB VRAMLlama 3.3 70B
подсказка

Для лучшего опыта используйте модель, которая помещается в VRAM вашего GPU. CPU-only inference работает, но значительно медленнее. Модели, квантованные до 4-bit (Q4), требуют примерно половину RAM от full-precision версий.

Конфигурация

При создании профиля бота выберите Ollama как провайдера и выберите из локально доступных моделей. Ollama использует OpenAI-совместимый Chat Completions API с SSE стримингом, поэтому он ведёт себя идентично облачным провайдерам с точки зрения интерфейса чата.

Ограничения

  • Ollama должен быть запущен и доступен из браузера
  • Качество модели и скорость полностью зависят от вашего локального оборудования
  • Поддержка vision и tool-calling зависит от модели — не все модели Ollama поддерживают эти функции
  • Первый ответ после загрузки модели может быть медленным (модель загружается в память при первом использовании)
  • Нет интеграции thinking/reasoning UI для локальных reasoning моделей (вывод reasoning появляется inline)

Устранение неполадок

ПроблемаРешение
"Failed to fetch" или ошибка CORSУстановите OLLAMA_ORIGINS=* и перезапустите Ollama
Нет моделей в выпадающем спискеУбедитесь, что ollama serve запущен и вы скачали хотя бы одну модель
Очень медленные ответыМодель может не помещаться в GPU VRAM; попробуйте меньшую модель или квантованную версию
Connection refusedПроверьте, что Ollama работает на ожидаемом порту (по умолчанию: 11434)
Кастомный эндпоинт не работаетУбедитесь, что URL включает протокол (http://) и без trailing slash