跳到主要内容

智能体循环内部机制

核心编排引擎是 run_agent.py 中的 AIAgent 类——这是一个大型文件(约4400行),负责从提示词组装到工具调度再到服务提供商故障转移的所有事务。

核心职责

AIAgent 负责:

  • 通过 prompt_builder.py 组装有效的系统提示词和工具架构
  • 选择正确的服务提供商/API模式(聊天补全、代码响应、Anthropic消息)
  • 执行可中断的模型调用并支持取消操作
  • 执行工具调用(通过线程池顺序或并发执行)
  • 以OpenAI消息格式维护对话历史
  • 处理压缩、重试和备用模型切换
  • 跨父级和子级智能体跟踪迭代预算
  • 在上下文丢失前刷新持久化内存

两个入口点

# 简单接口 —— 返回最终响应字符串
response = agent.chat("修复 main.py 中的漏洞")

# 完整接口 —— 返回包含消息、元数据、使用统计的字典
result = agent.run_conversation(
user_message="修复 main.py 中的漏洞",
system_message=None, # 若省略则自动构建
conversation_history=None, # 若省略则从会话中自动加载
task_id="task_abc123"
)

chat()run_conversation() 的一个简单封装,它从结果字典中提取 final_response 字段。

API 模式

Hermes 支持三种 API 执行模式,通过提供者选择、显式参数和基本 URL 启发式规则确定:

API 模式用途客户端类型
chat_completionsOpenAI 兼容端点(OpenRouter、自定义、大多数提供者)openai.OpenAI
codex_responsesOpenAI Codex / Responses APIopenai.OpenAI(使用 Responses 格式)
anthropic_messages原生 Anthropic Messages APIanthropic.Anthropic(通过适配器)

该模式决定了消息格式化、工具调用结构、响应解析以及缓存/流式传输的工作方式。所有三种模式在 API 调用前后都汇聚到相同内部消息格式(OpenAI 风格的 role/content/tool_calls 字典)。

模式解析顺序:

  1. 显式的 api_mode 构造函数参数(最高优先级)
  2. 特定提供者检测(例如,anthropic 提供者 → anthropic_messages
  3. 基本 URL 启发式规则(例如,api.anthropic.comanthropic_messages
  4. 默认:chat_completions

轮次生命周期

智能体循环的每次迭代都遵循以下序列:

run_conversation()
1. 若未提供则生成 task_id
2. 将用户消息追加到对话历史
3. 构建或重用缓存的系统提示 (prompt_builder.py)
4. 检查是否需要预飞压缩(>50% 上下文)
5. 从对话历史构建 API 消息
- chat_completions:原样使用 OpenAI 格式
- codex_responses:转换为 Responses API 输入项
- anthropic_messages:通过 anthropic_adapter.py 转换
6. 注入临时提示层(预算警告、上下文压力)
7. 若使用 Anthropic,则应用提示缓存标记
8. 进行可中断的 API 调用 (_interruptible_api_call)
9. 解析响应:
- 若为 tool_calls:执行它们,追加结果,循环回步骤 5
- 若为文本响应:持久化会话,必要时刷新内存,返回

消息格式

所有消息内部均使用 OpenAI 兼容格式:

{"role": "system", "content": "..."}
{"role": "user", "content": "..."}
{"role": "assistant", "content": "...", "tool_calls": [...]}
{"role": "tool", "tool_call_id": "...", "content": "..."}

推理内容(来自支持扩展思考的模型)存储在 assistant_msg["reasoning"] 中,并可通过 reasoning_callback 选择性显示。

消息交替规则

智能体循环强制执行严格的消息角色交替:

  • 在系统消息之后:User → Assistant → User → Assistant → ...
  • 在工具调用期间:Assistant (with tool_calls) → Tool → Tool → ... → Assistant
  • 绝不 连续出现两个 assistant 消息
  • 绝不 连续出现两个 user 消息
  • 只有 tool 角色可以有连续条目(并行工具结果)

提供者会验证这些序列,并会拒绝格式错误的历史记录。

可中断的 API 调用

API 请求被包装在 _interruptible_api_call() 中,该函数在后台线程中运行实际的 HTTP 调用,同时监控中断事件:

┌────────────────────────────────────────────────────┐
│ 主线程 API 线程 │
│ │
│ 等待: HTTP POST │
│ - 响应就绪 ───▶ 发送到提供者 │
│ - 中断事件 │
│ - 超时 │
└────────────────────────────────────────────────────┘

当被中断时(用户发送新消息、/stop 命令或信号):

  • API 线程被放弃(响应被丢弃)
  • 智能体可以处理新输入或干净地关闭
  • 没有部分响应被注入对话历史

工具执行

顺序执行 vs 并发执行

当模型返回工具调用时:

  • 单个工具调用 → 在主线程中直接执行
  • 多个工具调用 → 通过 ThreadPoolExecutor 并发执行
    • 例外:标记为交互式的工具(例如,clarify)强制顺序执行
    • 结果按原始工具调用顺序重新插入,与完成顺序无关

执行流程

对于 response.tool_calls 中的每个 tool_call:
1. 从 tools/registry.py 解析处理器
2. 触发 pre_tool_call 插件钩子
3. 检查是否为危险命令 (tools/approval.py)
- 若为危险:调用 approval_callback,等待用户
4. 使用参数 + task_id 执行处理器
5. 触发 post_tool_call 插件钩子
6. 将 {"role": "tool", "content": result} 追加到历史记录

智能体级工具

某些工具在到达 handle_function_call() 之前会被 run_agent.py 拦截

工具拦截原因
todo读取/写入智能体本地任务状态
memory写入具有字符限制的持久化内存文件
session_search通过智能体的会话数据库查询会话历史
delegate_task生成具有隔离上下文的子智能体

这些工具直接修改智能体状态,并返回合成的工具结果,而不经过注册表。

回调表面

AIAgent 支持特定于平台的回调,以在 CLI、网关和 ACP 集成中实现实时进度:

回调触发时机使用者
tool_progress_callback每个工具执行之前/之后CLI 旋转器、网关进度消息
thinking_callback当模型开始/停止思考时CLI "思考中..." 指示器
reasoning_callback当模型返回推理内容时CLI 推理显示、网关推理块
clarify_callback当调用 clarify 工具时CLI 输入提示、网关交互消息
step_callback每个完整的智能体轮次之后网关步骤跟踪、ACP 进度
stream_delta_callback每个流式传输令牌(启用时)CLI 流式传输显示
tool_gen_callback从流中解析出工具调用时CLI 旋转器中的工具预览
status_callback状态变化(思考、执行等)ACP 状态更新

预算和回退行为

迭代预算

智能体通过 IterationBudget 跟踪迭代:

  • 默认:90 次迭代(可通过 agent.max_turns 配置)
  • 每个智能体都有自己的预算。子智能体获得独立的预算,上限为 delegation.max_iterations(默认为 50)—— 父智能体 + 子智能体的总迭代次数可以超过父智能体的上限
  • 达到 100% 时,智能体停止并返回已完成工作的摘要

回退模型

当主模型失败时(429 速率限制、5xx 服务器错误、401/403 认证错误):

  1. 检查配置中的 fallback_providers 列表
  2. 按顺序尝试每个回退
  3. 成功时,使用新提供者继续对话
  4. 遇到 401/403 时,尝试凭据刷新,然后再进行故障转移

回退系统还独立涵盖辅助任务 —— 视觉、压缩和网络提取各自具有自己的回退链,可通过 auxiliary.* 配置部分进行配置。

压缩和持久化

压缩触发时机

  • 预飞(API 调用前):如果对话超过模型上下文窗口的 50%
  • 网关自动压缩:如果对话超过 85%(更激进,在轮次之间运行)

压缩期间发生的情况

  1. 首先将内存刷新到磁盘(防止数据丢失)
  2. 中间的对话轮次被总结为紧凑的摘要
  3. 最后 N 条消息被完整保留(compression.protect_last_n,默认:20)
  4. 工具调用/结果消息对保持在一起(永不拆分)
  5. 生成新的会话谱系 ID(压缩会创建一个"子"会话)

会话持久化

每个轮次之后:

  • 消息被保存到会话存储(通过 hermes_state.py 的 SQLite)
  • 内存更改被刷新到 MEMORY.md / USER.md
  • 稍后可通过 /resumehermes chat --resume 恢复会话

关键源文件

文件用途
run_agent.pyAIAgent 类 —— 完整的智能体循环
agent/prompt_builder.py从内存、技能、上下文文件、个性组装系统提示
agent/context_engine.pyContextEngine ABC —— 可插拔的上下文管理
agent/context_compressor.py默认引擎 —— 有损总结算法
agent/prompt_caching.pyAnthropic 提示缓存标记和缓存指标
agent/auxiliary_client.py辅助 LLM 客户端,用于旁路任务(视觉、总结)
model_tools.py工具模式集合,handle_function_call() 分发

相关文档