跳到主要内容

Ollama(本地)

Ollama 让您在本地机器上运行开源 LLM。AISCouncil 直接从浏览器连接到您的本地 Ollama 实例 —— 无需云 API 密钥,您的数据永远不会离开您的设备。

为什么要本地运行?

  • 完全隐私 —— 您的对话永远不会离开您的机器
  • 无 API 成本 —— 免费使用,无按 token 计费
  • 无速率限制 —— 仅受您的硬件限制
  • 离线可用 —— 模型下载后无需网络连接
  • 无 API 密钥 —— 无需管理或轮换

安装 Ollama

  1. ollama.com 下载并安装 Ollama
  2. 拉取至少一个模型:
# 流行的通用模型
ollama pull llama3.3 # Meta Llama 3.3 (70B)
ollama pull llama3.2 # Meta Llama 3.2 (3B,轻量级)
ollama pull mistral # Mistral 7B
ollama pull gemma2 # Google Gemma 2

# 代码专用模型
ollama pull codellama # Meta Code Llama
ollama pull deepseek-coder # DeepSeek Coder
ollama pull qwen2.5-coder # 阿里巴巴 Qwen 2.5 Coder

# 推理模型
ollama pull deepseek-r1 # DeepSeek R1(各种尺寸)

# 视觉模型
ollama pull llava # LLaVA(视觉 + 语言)
ollama pull llama3.2-vision # Llama 3.2 Vision
  1. 启动 Ollama 服务器(在大多数系统上安装后自动运行):
ollama serve

服务器默认在 http://localhost:11434 上运行。

CORS 配置

必需步骤

浏览器执行跨域限制,因此您必须在 Ollama 工作之前允许 AISCouncil 来源。在启动 Ollama 之前设置 OLLAMA_ORIGINS 环境变量:

macOS / Linux:

OLLAMA_ORIGINS=* ollama serve

永久设置 (macOS/Linux),添加到您的 shell 配置文件(~/.bashrc~/.zshrc):

export OLLAMA_ORIGINS=*

Windows (PowerShell):

$env:OLLAMA_ORIGINS="*"
ollama serve

Windows(永久): 通过系统属性 > 环境变量将 OLLAMA_ORIGINS 设置为系统环境变量。

如果没有此设置,浏览器将阻止所有对 Ollama API 的请求并显示 CORS 错误。

无需 API 密钥

Ollama 不需要 API 密钥。AISCouncil 使用内部占位符值(ollama)作为密钥字段。您无需在 API 密钥设置中输入任何内容。

自动模型检测

页面加载时,AISCouncil 查询 Ollama 端点上的 GET /api/tags 以发现所有本地安装的模型。当您选择 Ollama 作为提供商时,这些模型会自动出现在模型选择器中。

没有模型是硬编码的 —— 您本地拉取的任何模型都可用。如果您在应用程序打开时拉取新模型,请重新加载页面以检测它们。

自定义端点

如果 Ollama 在非默认地址上运行(例如,不同端口、远程机器或反向代理后),您可以配置端点:

  1. 打开设置 > AI 模型
  2. 找到 Ollama 部分
  3. 输入您的自定义端点 URL(例如 http://192.168.1.100:11434

自定义端点持久化存储在 localStorageais-ollama-endpoint 键下。

远程访问

如果在远程机器上运行 Ollama,请确保:

  1. Ollama 服务器绑定到 0.0.0.0(不仅仅是 localhost):OLLAMA_HOST=0.0.0.0 ollama serve
  2. 在远程机器上设置 OLLAMA_ORIGINS=*
  3. 端口(默认 11434)可从您浏览器的网络访问

支持的模型

Ollama 模型库中的任何模型都可以使用。热门选择包括:

类别模型描述
通用Llama 3.3、Mistral、Gemma 2、Phi-3全能聊天和推理
代码CodeLlama、DeepSeek Coder、Qwen 2.5 Coder、StarCoder代码生成和分析
推理DeepSeek R1、Qwen2.5链式思维推理
视觉LLaVA、Llama 3.2 Vision图像理解
小型Phi-3 Mini、Gemma 2B、TinyLlama低资源设备

硬件要求

Ollama 的性能完全取决于您的本地硬件:

模型大小所需内存推荐 GPU示例模型
1-3B4 GB可选TinyLlama、Phi-3 Mini
7-8B8 GB6+ GB 显存Mistral 7B、Llama 3.1 8B
13B16 GB8+ GB 显存CodeLlama 13B
70B64 GB40+ GB 显存Llama 3.3 70B
提示

为了获得最佳体验,使用适合您 GPU 显存的模型。纯 CPU 推理可以工作但速度明显较慢。量化到 4 位 (Q4) 的模型大约需要完整精度版本一半的内存。

配置

创建机器人配置文件时,选择 Ollama 作为提供商并从本地可用模型中选择。Ollama 使用 OpenAI 兼容的 Chat Completions API 和 SSE 流式传输,因此从聊天界面角度来看,它与云提供商的行为完全相同。

限制

  • Ollama 必须正在运行且可从浏览器访问
  • 模型质量和速度完全取决于您的本地硬件
  • 视觉和工具调用支持因模型而异 —— 并非所有 Ollama 模型都支持这些功能
  • 模型加载后的首次响应可能较慢(模型在首次使用时加载到内存中)
  • 本地推理模型没有思考/推理 UI 集成(推理输出内联显示)

故障排除

问题解决方案
"Failed to fetch" 或 CORS 错误设置 OLLAMA_ORIGINS=* 并重启 Ollama
下拉菜单中没有模型确保正在运行 ollama serve 且您已拉取至少一个模型
响应非常慢模型可能不适合 GPU 显存;尝试较小的模型或量化版本
连接被拒绝检查 Ollama 是否在预期端口上运行(默认:11434)
自定义端点不工作确保 URL 包含协议(http://)且没有尾部斜杠