LLM 委员会
LLM 委员会功能让您可以同时查询多个 AI 模型,并将它们的响应合并为一个更高质量的答案。您不需要依赖单个模型,而是组建一个由 2 个或更多模型组成的委员会,共同审议。
什么是委员会?
委员会是一组协同处理您发送的每条消息的 AI 模型配置文件。每个委员会成员可以是不同的提供商、模型和系统提示词。当您发送消息时,所有成员都会响应,可选地互相审查彼此的工作,由指定的主席综合最终答案。
委员会特别适用于:
- 研究 —— 获取关于某个主题的多个观点
- 代码审查 —— 让不同模型互相检查工作
- 决策 —— 权衡相互竞争的观点
- 质量保证 —— 发现单个模型可能遗漏的错误
7 种委员会风格
每种委员会风格定义了模型的交互方式。选择最适合您使用场景的风格。
委员会(默认)
标准的 3 阶段审议流程:
- 第一阶段 —— 分发: 您的消息并行发送给所有成员。每个模型生成自己独立的响应。
- 第二阶段 —— 同行评审: 每个成员审查其他成员的响应,并从最好到最差进行排名并给出理由。
- 第三阶段 —— 主席综合: 指定的主席模型阅读所有响应和同行评审,然后生成全面的最终报告。
最适合: 研究、分析、需要全面覆盖的复杂问题。
比较
所有模型并行响应,它们的响应并排显示在网格中。没有投票、没有同行评审、没有综合步骤。
- 仅第一阶段(分发)
- 响应以列显示
- 没有主席,没有最终答案
最适合: 比较模型能力、跨模型测试提示词、查看不同模型如何处理同一问题。
竞技场
模型进行正面竞争。所有模型响应,然后同行评审决定获胜者。最佳响应获胜。
最适合: 寻找单个最佳答案、竞争性基准测试。
MoA(智能体混合)
分层精炼,每个模型基于前一个模型的输出进行构建。模型不是独立的并行响应,而是迭代改进彼此的工作。
最适合: 受益于迭代改进的任务,如写作和编辑。
路由器
智能路由自动为每个查询选择最佳模型。路由器不是查询所有模型,而是分析您的消息并将其发送给单个最合适的模型。
最适合: 成本优化、将不同类型的问题路由到专用模型。
辩论
模型被分配对立面(支持和反对)并争论各自的立场:
- 开场陈述: 每个模型为其分配的一方辩护
- 反驳: 模型回应对方的论点(可配置的轮数)
- 主持人裁决: 主席公正分析双方并做出裁决
辩论方自动分配(交替)或可以为每个成员手动设置。
最适合: 探索有争议的话题、压力测试想法、发现论点中的弱点。
您可以在委员会设置中设置辩论轮数。更多轮数意味着更深入的论证,但 API 成本更高。
共识
模型对最佳答案进行投票,无需综合步骤:
- 所有模型独立响应(分发)
- 每个模型审查并排名其他响应(同行评审)
- 得分最高的响应被选为最终答案
没有主席综合 —— 获胜响应按原样使用。
最适合: 当您想要群体的选择而非综合摘要时。
创建委员会
使用向导(新用户)
- 当向导出现时,在步骤 0 选择 集群
- 从预设标签页选择模型或添加自定义模型
- 为每个提供商连接 API 密钥(免费模型跳过)
- 配置委员会设置:名称、图标、风格和成员摘要
- 点击 准备就绪 创建委员会
从设置(现有用户)
- 打开设置并进入配置文件标签页
- 使用配置文件选择器添加成员(每个成员引用一个已保存的配置文件)
- 从风格网格设置委员会风格
- 配置主席、投票模式和轮数
- 保存配置文件
委员会成员始终是配置文件引用。首先创建单独的配置文件(每个模型一个),然后将它们组装成委员会。这让您可以在多个委员会中重复使用相同的配置文件。
委员会成员
每个委员会成员都有自己的设置,可以覆盖委员会默认值:
| 设置 | 描述 |
|---|---|
| 配置文件 | 使用哪个已保存的配置文件(提供商 + 模型) |
| 系统提示词 | 覆盖成员的默认系统提示词 |
| 温度 | 覆盖此成员的温度 |
| 最大 Token | 覆盖最大输出 token |
| 推理投入 | 设置思考/推理级别(关闭、低、中、高、最高) |
| 辩论方 | 对于辩论风格:分配支持、反对或自动 |
成员被标记为 A、B、C 等,以便在委员会输出中识别。
主席角色
主席是负责在委员会、竞技场和辩论风格中综合最终答案的模型。默认情况下,第一个成员(A)是主席,但您可以在委员会设置中更改此设置。
主席接收:
- 原始用户消息
- 第一阶段的所有成员响应
- 第二阶段的所有同行评审排名
- 生成全面研究报告的指令
选择您最有能力的模型作为主席。主席承担最繁重的工作 —— 它需要处理所有其他响应并产生连贯的综合。
投票模式
启用同行评审时,成员相互排名响应。投票模式决定如何统计这些排名:
| 模式 | 工作原理 |
|---|---|
| 加权 | 成员根据排名位置获得积分。第一名得 N 分,第二名得 N-1 分,依此类推。 |
| 多数决 | 只有第一名票数计算。获得最多第一名排名的响应获胜。 |
投票分数显示在最终输出中每个成员响应旁边。
成本估算
运行委员会会按成员数量和阶段数倍增 API 使用量。在发送消息之前,平台根据以下估算成本:
- 成员数量
- 阶段数量(因风格而异)
- 预期 token 数量
- 注册表中的每个模型定价
成本估算显示在每次响应后的委员会输出页脚中:
API 调用: 7 | Token: 24,531 | 预估成本: $0.1847
有许多成员和付费模型的委员会可能很昂贵。比较模式是最便宜的(仅第一阶段),而带有多个轮次完整委员会或辩论是最昂贵的。
实时流式传输
委员会审议实时流式传输。在第一阶段,您可以看到每个成员的响应在生成时逐个出现在网格中。状态指示器显示哪些成员正在思考、流式传输、完成或失败。
在第三阶段,主席的综合像常规聊天响应一样逐个 token 流式传输。
示例用例
| 风格 | 用例 | 示例成员 |
|---|---|---|
| 委员会 | 技术主题研究报告 | Claude(分析型)+ GPT-4o(广度)+ Grok(反例型) |
| 比较 | 跨模型测试提示词 | Gemini Flash + Claude Haiku + GPT-4o mini |
| 竞技场 | 寻找最佳代码解决方案 | Claude Sonnet + GPT-4o + DeepSeek Coder |
| MoA | 润色博客文章 | GPT-4o(草稿)+ Claude(编辑)+ Gemini(润色) |
| 路由器 | 日常混合使用 | 数学模型 + 代码模型 + 创意模型 |
| 辩论 | 我们应该使用微服务吗? | 2 个支持模型 + 2 个反对模型 |
| 共识 | 应该使用哪个框架? | 3-5 个不同模型投票 |
免费模型委员会
您可以完全使用免费模型(OpenRouter 免费额度、Gemini 免费额度)构建委员会。平台通过顺序发送请求而非并行来自动处理免费模型的速率限制。
免费模型有较低的速率限制(通常每分钟 8 个请求)。顺序执行意味着委员会审议需要更长时间,但可以可靠工作而不会达到速率限制。