Ollama (Локально)

Ollama позволяет запускать LLM с открытым кодом локально на вашей машине. AISCouncil подключается к вашему локальному экземпляру Ollama прямо из браузера — облачный API-ключ не требуется, и ваши данные никогда не покидают устройство.

Почему запускать локально?

Полная приватность — ваши разговоры никогда не покидают машину
Без API-расходов — бесплатно, нет биллинга за токены
Без rate limits — ограничено только вашим оборудованием
Работает офлайн — интернет-соединение не нужно после скачивания модели
Без API-ключа — нечего управлять или ротировать

Установка Ollama

Скачайте и установите Ollama с ollama.com
Скачайте хотя бы одну модель:

# Популярные модели общего назначения
ollama pull llama3.3          # Meta Llama 3.3 (70B)
ollama pull llama3.2          # Meta Llama 3.2 (3B, легковесная)
ollama pull mistral           # Mistral 7B
ollama pull gemma2            # Google Gemma 2

# Модели с фокусом на код
ollama pull codellama         # Meta Code Llama
ollama pull deepseek-coder    # DeepSeek Coder
ollama pull qwen2.5-coder     # Alibaba Qwen 2.5 Coder

# Reasoning модели
ollama pull deepseek-r1       # DeepSeek R1 (различные размеры)

# Vision модели
ollama pull llava             # LLaVA (vision + language)
ollama pull llama3.2-vision   # Llama 3.2 Vision

Запустите сервер Ollama (он запускается автоматически после установки на большинстве систем):

ollama serve

Сервер работает на http://localhost:11434 по умолчанию.

Конфигурация CORS

Обязательный шаг

Браузеры применяют cross-origin ограничения, поэтому вы должны разрешить origin AISCouncil перед тем, как Ollama заработает. Установите переменную окружения OLLAMA_ORIGINS перед запуском Ollama:

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

Для постоянной настройки (macOS/Linux), добавьте в профиль оболочки (~/.bashrc, ~/.zshrc):

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows (постоянно): Установите OLLAMA_ORIGINS как системную переменную окружения через System Properties > Environment Variables.

Без этой настройки браузер заблокирует все запросы к Ollama API с ошибкой CORS.

API-ключ не нужен

Ollama не требует API-ключа. AISCouncil использует внутреннее placeholder-значение (ollama) для поля ключа. Вам не нужно вводить ничего в настройках API-ключа.

Автоопределение моделей

При загрузке страницы AISCouncil запрашивает GET /api/tags на эндпоинте Ollama для обнаружения всех локально установленных моделей. Эти модели появляются автоматически в селекторе моделей, когда вы выбираете Ollama как провайдера.

Никакие модели не хардкодятся — всё, что вы скачали локально, будет доступно. Если вы скачаете новые модели, пока приложение открыто, перезагрузите страницу для их обнаружения.

Кастомный эндпоинт

Если Ollama работает на нестандартном адресе (например, другой порт, удалённая машина или за reverse proxy), вы можете настроить эндпоинт:

Откройте Settings > AI Model
Найдите раздел Ollama
Введите ваш кастомный URL эндпоинта (например, http://192.168.1.100:11434)

Кастомный эндпоинт сохраняется в localStorage под ключом ais-ollama-endpoint.

Удалённый доступ

Если Ollama запущена на удалённой машине, убедитесь:

Сервер Ollama привязан к 0.0.0.0 (не только localhost): OLLAMA_HOST=0.0.0.0 ollama serve
OLLAMA_ORIGINS=* установлено на удалённой машине
Порт (по умолчанию 11434) доступен из сети вашего браузера

Поддерживаемые модели

Любая модель, доступная в библиотеке моделей Ollama, может использоваться. Популярные варианты:

Категория	Модели	Описание
Общие	Llama 3.3, Mistral, Gemma 2, Phi-3	Чат и reasoning общего назначения
Код	CodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoder	Генерация и анализ кода
Reasoning	DeepSeek R1, Qwen2.5	Chain-of-thought reasoning
Vision	LLaVA, Llama 3.2 Vision	Понимание изображений
Маленькие	Phi-3 Mini, Gemma 2B, TinyLlama	Устройства с ограниченными ресурсами

Требования к оборудованию

Производительность Ollama полностью зависит от вашего локального оборудования:

Размер модели	Требуется RAM	Рекомендуется GPU	Примеры моделей
1-3B	4 GB	Опционально	TinyLlama, Phi-3 Mini
7-8B	8 GB	6+ GB VRAM	Mistral 7B, Llama 3.1 8B
13B	16 GB	8+ GB VRAM	CodeLlama 13B
70B	64 GB	40+ GB VRAM	Llama 3.3 70B

подсказка

Для лучшего опыта используйте модель, которая помещается в VRAM вашего GPU. CPU-only inference работает, но значительно медленнее. Модели, квантованные до 4-bit (Q4), требуют примерно половину RAM от full-precision версий.

Конфигурация

При создании профиля бота выберите Ollama как провайдера и выберите из локально доступных моделей. Ollama использует OpenAI-совместимый Chat Completions API с SSE стримингом, поэтому он ведёт себя идентично облачным провайдерам с точки зрения интерфейса чата.

Ограничения

Ollama должен быть запущен и доступен из браузера
Качество модели и скорость полностью зависят от вашего локального оборудования
Поддержка vision и tool-calling зависит от модели — не все модели Ollama поддерживают эти функции
Первый ответ после загрузки модели может быть медленным (модель загружается в память при первом использовании)
Нет интеграции thinking/reasoning UI для локальных reasoning моделей (вывод reasoning появляется inline)

Устранение неполадок

Проблема	Решение
"Failed to fetch" или ошибка CORS	Установите `OLLAMA_ORIGINS=*` и перезапустите Ollama
Нет моделей в выпадающем списке	Убедитесь, что `ollama serve` запущен и вы скачали хотя бы одну модель
Очень медленные ответы	Модель может не помещаться в GPU VRAM; попробуйте меньшую модель или квантованную версию
Connection refused	Проверьте, что Ollama работает на ожидаемом порту (по умолчанию: 11434)
Кастомный эндпоинт не работает	Убедитесь, что URL включает протокол (`http://`) и без trailing slash

Почему запускать локально?​

Установка Ollama​

Конфигурация CORS​

API-ключ не нужен​

Автоопределение моделей​

Кастомный эндпоинт​

Поддерживаемые модели​

Требования к оборудованию​

Конфигурация​

Ограничения​

Устранение неполадок​