Ollama (Локально)
Ollama позволяет запускать LLM с открытым кодом локально на вашей машине. AISCouncil подключается к вашему локальному экземпляру Ollama прямо из браузера — облачный API-ключ не требуется, и ваши данные никогда не покидают устройство.
Почему запускать локально?
- Полная приватность — ваши разговоры никогда не покидают машину
- Без API-расходов — бесплатно, нет биллинга за токены
- Без rate limits — ограничено только вашим оборудованием
- Работает офлайн — интернет-соединение не нужно после скачивания модели
- Без API-ключа — нечего управлять или ротировать
Установка Ollama
- Скачайте и установите Ollama с ollama.com
- Скачайте хотя бы одну модель:
# Популярные модели общего назначения
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B, легковесная)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2
# Модели с фокусом на код
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # Alibaba Qwen 2.5 Coder
# Reasoning модели
ollama pull deepseek-r1 # DeepSeek R1 (различные размеры)
# Vision модели
ollama pull llava # LLaVA (vision + language)
ollama pull llama3.2-vision # Llama 3.2 Vision
- Запустите сервер Ollama (он запускается автоматически после установки на большинстве систем):
ollama serve
Сервер работает на http://localhost:11434 по умолчанию.
Конфигурация CORS
Браузеры применяют cross-origin ограничения, поэтому вы должны разрешить origin AISCouncil перед тем, как Ollama заработает. Установите переменную окружения OLLAMA_ORIGINS перед запуском Ollama:
macOS / Linux:
OLLAMA_ORIGINS=* ollama serve
Для постоянной настройки (macOS/Linux), добавьте в профиль оболочки (~/.bashrc, ~/.zshrc):
export OLLAMA_ORIGINS=*
Windows (PowerShell):
$env:OLLAMA_ORIGINS="*"
ollama serve
Windows (постоянно): Установите OLLAMA_ORIGINS как системную переменную окружения через System Properties > Environment Variables.
Без этой настройки браузер заблокирует все запросы к Ollama API с ошибкой CORS.
API-ключ не нужен
Ollama не требует API-ключа. AISCouncil использует внутреннее placeholder-значение (ollama) для поля ключа. Вам не нужно вводить ничего в настройках API-ключа.
Автоопределение моделей
При загрузке страницы AISCouncil запрашивает GET /api/tags на эндпоинте Ollama для обнаружения всех локально установленных моделей. Эти модели появляются автоматически в селекторе моделей, когда вы выбираете Ollama как провайдера.
Никакие модели не хардкодятся — всё, что вы скачали локально, будет доступно. Если вы скачаете новые модели, пока приложение открыто, перезагрузите страницу для их обнаружения.
Кастомный эндпоинт
Если Ollama работает на нестандартном адресе (например, другой порт, удалённая машина или за reverse proxy), вы можете настроить эндпоинт:
- Откройте Settings > AI Model
- Найдите раздел Ollama
- Введите ваш кастомный URL эндпоинта (например,
http://192.168.1.100:11434)
Кастомный эндпоинт сохраняется в localStorage под ключом ais-ollama-endpoint.
Если Ollama запущена на удалённой машине, убедитесь:
- Сервер Ollama привязан к
0.0.0.0(не толькоlocalhost):OLLAMA_HOST=0.0.0.0 ollama serve OLLAMA_ORIGINS=*установлено на удалённой машине- Порт (по умолчанию 11434) доступен из сети вашего браузера
Поддерживаемые модели
Любая модель, доступная в библиотеке моделей Ollama, может использоваться. Популярные варианты:
| Категория | Модели | Описание |
|---|---|---|
| Общие | Llama 3.3, Mistral, Gemma 2, Phi-3 | Чат и reasoning общего назначения |
| Код | CodeLlama, DeepSeek Coder, Qwen 2.5 Coder, StarCoder | Генерация и анализ кода |
| Reasoning | DeepSeek R1, Qwen2.5 | Chain-of-thought reasoning |
| Vision | LLaVA, Llama 3.2 Vision | Понимание изображений |
| Маленькие | Phi-3 Mini, Gemma 2B, TinyLlama | Устройства с ограниченными ресурсами |
Требования к оборудованию
Производительность Ollama полностью зависит от вашего локального оборудования:
| Размер модели | Требуется RAM | Рекомендуется GPU | Примеры моделей |
|---|---|---|---|
| 1-3B | 4 GB | Опционально | TinyLlama, Phi-3 Mini |
| 7-8B | 8 GB | 6+ GB VRAM | Mistral 7B, Llama 3.1 8B |
| 13B | 16 GB | 8+ GB VRAM | CodeLlama 13B |
| 70B | 64 GB | 40+ GB VRAM | Llama 3.3 70B |
Для лучшего опыта используйте модель, которая помещается в VRAM вашего GPU. CPU-only inference работает, но значительно медленнее. Модели, квантованные до 4-bit (Q4), требуют примерно половину RAM от full-precision версий.
Конфигурация
При создании профиля бота выберите Ollama как провайдера и выберите из локально доступных моделей. Ollama использует OpenAI-совместимый Chat Completions API с SSE стримингом, поэтому он ведёт себя идентично облачным провайдерам с точки зрения интерфейса чата.
Ограничения
- Ollama должен быть запущен и доступен из браузера
- Качество модели и скорость полностью зависят от вашего локального оборудования
- Поддержка vision и tool-calling зависит от модели — не все модели Ollama поддерживают эти функции
- Первый ответ после загрузки модели может быть медленным (модель загружается в память при первом использовании)
- Нет интеграции thinking/reasoning UI для локальных reasoning моделей (вывод reasoning появляется inline)
Устранение неполадок
| Проблема | Решение |
|---|---|
| "Failed to fetch" или ошибка CORS | Установите OLLAMA_ORIGINS=* и перезапустите Ollama |
| Нет моделей в выпадающем списке | Убедитесь, что ollama serve запущен и вы скачали хотя бы одну модель |
| Очень медленные ответы | Модель может не помещаться в GPU VRAM; попробуйте меньшую модель или квантованную версию |
| Connection refused | Проверьте, что Ollama работает на ожидаемом порту (по умолчанию: 11434) |
| Кастомный эндпоинт не работает | Убедитесь, что URL включает протокол (http://) и без trailing slash |