Ollama(本地)
Ollama 让您在本地机器上运行开源 LLM。AISCouncil 直接从浏览器连接到您的本地 Ollama 实例 —— 无需云 API 密钥,您的数据永远不会离开您的设备。
为什么要本地运行?
- 完全隐私 —— 您的对话永远不会离开您的机器
- 无 API 成本 —— 免费使用,无按 token 计费
- 无速率限制 —— 仅受您的硬件限制
- 离线可用 —— 模型下载后无需网络连接
- 无 API 密钥 —— 无需管理或轮换
安装 Ollama
- 从 ollama.com 下载并安装 Ollama
- 拉取至少一个模型:
# 流行的通用模型
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B,轻量级)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2
# 代码专用模型
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # 阿里巴巴 Qwen 2.5 Coder
# 推理模型
ollama pull deepseek-r1 # DeepSeek R1(各种尺寸)
# 视觉模型
ollama pull llava # LLaVA(视觉 + 语言)
ollama pull llama3.2-vision # Llama 3.2 Vision
- 启动 Ollama 服务器(在大多数系统上安装后自动运行):
ollama serve
服务器默认在 http://localhost:11434 上运行。
CORS 配置
浏览器执行跨域限制,因此您必须在 Ollama 工作之前允许 AISCouncil 来源。在启动 Ollama 之前设置 OLLAMA_ORIGINS 环境变量:
macOS / Linux:
OLLAMA_ORIGINS=* ollama serve
永久设置 (macOS/Linux),添加到您的 shell 配置文件(~/.bashrc、~/.zshrc):
export OLLAMA_ORIGINS=*
Windows (PowerShell):
$env:OLLAMA_ORIGINS="*"
ollama serve
Windows(永久): 通过系统属性 > 环境变量将 OLLAMA_ORIGINS 设置为系统环境变量。
如果没有此设置,浏览器将阻止所有对 Ollama API 的请求并显示 CORS 错误。
无需 API 密钥
Ollama 不需要 API 密钥。AISCouncil 使用内部占位符值(ollama)作为密钥字段。您无需在 API 密钥设置中输入任何内容。
自动模型检测
页面加载时,AISCouncil 查询 Ollama 端点上的 GET /api/tags 以发现所有本地安装的模型。当您选择 Ollama 作为提供商时,这些模型会自动出现在模型选择器中。
没有模型是硬编码的 —— 您本地拉取的任何模型都可用。如果您在应用程序打开时拉取新模型,请重新加载页面以检测它们。
自定义端点
如果 Ollama 在非默认地址上运行(例如,不同端口、远程机器或反向代理后),您可以配置端点:
- 打开设置 > AI 模型
- 找到 Ollama 部分
- 输入您的自定义端点 URL(例如
http://192.168.1.100:11434)
自定义端点持久化存储在 localStorage 的 ais-ollama-endpoint 键下。
如果在远程机器上运行 Ollama,请确保:
- Ollama 服务器绑定到
0.0.0.0(不仅仅是localhost):OLLAMA_HOST=0.0.0.0 ollama serve - 在远程机器上设置
OLLAMA_ORIGINS=* - 端口(默认 11434)可从您浏览器的网络访问
支持的模型
Ollama 模型库中的任何模型都可以使用。热门选择包括:
| 类别 | 模型 | 描述 |
|---|---|---|
| 通用 | Llama 3.3、Mistral、Gemma 2、Phi-3 | 全能聊天和推理 |
| 代码 | CodeLlama、DeepSeek Coder、Qwen 2.5 Coder、StarCoder | 代码生成和分析 |
| 推理 | DeepSeek R1、Qwen2.5 | 链式思维推理 |
| 视觉 | LLaVA、Llama 3.2 Vision | 图像理解 |
| 小型 | Phi-3 Mini、Gemma 2B、TinyLlama | 低资源设备 |
硬件要求
Ollama 的性能完全取决于您的本地硬件:
| 模型大小 | 所需内存 | 推荐 GPU | 示例模型 |
|---|---|---|---|
| 1-3B | 4 GB | 可选 | TinyLlama、Phi-3 Mini |
| 7-8B | 8 GB | 6+ GB 显存 | Mistral 7B、Llama 3.1 8B |
| 13B | 16 GB | 8+ GB 显存 | CodeLlama 13B |
| 70B | 64 GB | 40+ GB 显存 | Llama 3.3 70B |
为了获得最佳体验,使用适合您 GPU 显存的模型。纯 CPU 推理可以工作但速度明显较慢。量化到 4 位 (Q4) 的模型大约需要完整精度版本一半的内存。
配置
创建机器人配置文件时,选择 Ollama 作为提供商并从本地可用模型中选择。Ollama 使用 OpenAI 兼容的 Chat Completions API 和 SSE 流式传输,因此从聊天界面角度来看,它与云提供商的行为完全相同。
限制
- Ollama 必须正在运行且可从浏览器访问
- 模型质量和速度完全取决于您的本地硬件
- 视觉和工具调用支持因模型而异 —— 并非所有 Ollama 模型都支持这些功能
- 模型加载后的首次响应可能较慢(模型在首次使用时加载到内存中)
- 本地推理模型没有思考/推理 UI 集成(推理输出内联显示)
故障排除
| 问题 | 解决方案 |
|---|---|
| "Failed to fetch" 或 CORS 错误 | 设置 OLLAMA_ORIGINS=* 并重启 Ollama |
| 下拉菜单中没有模型 | 确保正在运行 ollama serve 且您已拉取至少一个模型 |
| 响应非常慢 | 模型可能不适合 GPU 显存;尝试较小的模型或量化版本 |
| 连接被拒绝 | 检查 Ollama 是否在预期端口上运行(默认:11434) |
| 自定义端点不工作 | 确保 URL 包含协议(http://)且没有尾部斜杠 |