Ollama（本地）

Ollama 让您在本地机器上运行开源 LLM。AISCouncil 直接从浏览器连接到您的本地 Ollama 实例 —— 无需云 API 密钥，您的数据永远不会离开您的设备。

为什么要本地运行？

完全隐私 —— 您的对话永远不会离开您的机器
无 API 成本 —— 免费使用，无按 token 计费
无速率限制 —— 仅受您的硬件限制
离线可用 —— 模型下载后无需网络连接
无 API 密钥 —— 无需管理或轮换

安装 Ollama

从 ollama.com 下载并安装 Ollama
拉取至少一个模型：

# 流行的通用模型
ollama pull llama3.3          # Meta Llama 3.3 (70B)
ollama pull llama3.2          # Meta Llama 3.2 (3B，轻量级)
ollama pull mistral           # Mistral 7B
ollama pull gemma2            # Google Gemma 2

# 代码专用模型
ollama pull codellama         # Meta Code Llama
ollama pull deepseek-coder    # DeepSeek Coder
ollama pull qwen2.5-coder     # 阿里巴巴 Qwen 2.5 Coder

# 推理模型
ollama pull deepseek-r1       # DeepSeek R1（各种尺寸）

# 视觉模型
ollama pull llava             # LLaVA（视觉 + 语言）
ollama pull llama3.2-vision   # Llama 3.2 Vision

启动 Ollama 服务器（在大多数系统上安装后自动运行）：

ollama serve

服务器默认在 http://localhost:11434 上运行。

CORS 配置

必需步骤

浏览器执行跨域限制，因此您必须在 Ollama 工作之前允许 AISCouncil 来源。在启动 Ollama 之前设置 OLLAMA_ORIGINS 环境变量：

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

永久设置 (macOS/Linux)，添加到您的 shell 配置文件（~/.bashrc、~/.zshrc）：

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows（永久）： 通过系统属性 > 环境变量将 OLLAMA_ORIGINS 设置为系统环境变量。

如果没有此设置，浏览器将阻止所有对 Ollama API 的请求并显示 CORS 错误。

无需 API 密钥

Ollama 不需要 API 密钥。AISCouncil 使用内部占位符值（ollama）作为密钥字段。您无需在 API 密钥设置中输入任何内容。

自动模型检测

页面加载时，AISCouncil 查询 Ollama 端点上的 GET /api/tags 以发现所有本地安装的模型。当您选择 Ollama 作为提供商时，这些模型会自动出现在模型选择器中。

没有模型是硬编码的 —— 您本地拉取的任何模型都可用。如果您在应用程序打开时拉取新模型，请重新加载页面以检测它们。

自定义端点

如果 Ollama 在非默认地址上运行（例如，不同端口、远程机器或反向代理后），您可以配置端点：

打开设置 > AI 模型
找到 Ollama 部分
输入您的自定义端点 URL（例如 http://192.168.1.100:11434）

自定义端点持久化存储在 localStorage 的 ais-ollama-endpoint 键下。

远程访问

如果在远程机器上运行 Ollama，请确保：

Ollama 服务器绑定到 0.0.0.0（不仅仅是 localhost）：OLLAMA_HOST=0.0.0.0 ollama serve
在远程机器上设置 OLLAMA_ORIGINS=*
端口（默认 11434）可从您浏览器的网络访问

支持的模型

Ollama 模型库中的任何模型都可以使用。热门选择包括：

类别	模型	描述
通用	Llama 3.3、Mistral、Gemma 2、Phi-3	全能聊天和推理
代码	CodeLlama、DeepSeek Coder、Qwen 2.5 Coder、StarCoder	代码生成和分析
推理	DeepSeek R1、Qwen2.5	链式思维推理
视觉	LLaVA、Llama 3.2 Vision	图像理解
小型	Phi-3 Mini、Gemma 2B、TinyLlama	低资源设备

硬件要求

Ollama 的性能完全取决于您的本地硬件：

模型大小	所需内存	推荐 GPU	示例模型
1-3B	4 GB	可选	TinyLlama、Phi-3 Mini
7-8B	8 GB	6+ GB 显存	Mistral 7B、Llama 3.1 8B
13B	16 GB	8+ GB 显存	CodeLlama 13B
70B	64 GB	40+ GB 显存	Llama 3.3 70B

提示

为了获得最佳体验，使用适合您 GPU 显存的模型。纯 CPU 推理可以工作但速度明显较慢。量化到 4 位 (Q4) 的模型大约需要完整精度版本一半的内存。

配置

创建机器人配置文件时，选择 Ollama 作为提供商并从本地可用模型中选择。Ollama 使用 OpenAI 兼容的 Chat Completions API 和 SSE 流式传输，因此从聊天界面角度来看，它与云提供商的行为完全相同。

限制

Ollama 必须正在运行且可从浏览器访问
模型质量和速度完全取决于您的本地硬件
视觉和工具调用支持因模型而异 —— 并非所有 Ollama 模型都支持这些功能
模型加载后的首次响应可能较慢（模型在首次使用时加载到内存中）
本地推理模型没有思考/推理 UI 集成（推理输出内联显示）

故障排除

问题	解决方案
"Failed to fetch" 或 CORS 错误	设置 `OLLAMA_ORIGINS=*` 并重启 Ollama
下拉菜单中没有模型	确保正在运行 `ollama serve` 且您已拉取至少一个模型
响应非常慢	模型可能不适合 GPU 显存；尝试较小的模型或量化版本
连接被拒绝	检查 Ollama 是否在预期端口上运行（默认：11434）
自定义端点不工作	确保 URL 包含协议（`http://`）且没有尾部斜杠

为什么要本地运行？​

安装 Ollama​

CORS 配置​

无需 API 密钥​

自动模型检测​

自定义端点​

支持的模型​

硬件要求​

配置​

限制​

故障排除​