hermes - 💡(How to fix) Fix feat: 每轮对话从头到尾重新处理全部历史上下文的体验优化

Official PRs (…)
ON THIS PAGE

Recommended Tools

×6

Utilities matched from this issue’s tags and category — try them while you read without losing context.

GitHub issue graph ai analysis

Paste a GitHub issue URL. We fetch that issue, discover linked issues from bodies/comments/timeline, collect linked pull requests, and produce a structured English report.

The report is written in English Markdown for sharing and archival.

Helpful · Quick feedback

Loading…
RAW_BUFFERClick to expand / collapse

描述

当前 Hermes Agent 的工作模式是:每次用户发新消息,系统都会从头到尾把整个会话历史(包括所有之前的消息、工具调用输入输出)重新打包发给模型。从用户视角看,感觉是"每次从上到下刷新一遍",体验不太好。

具体表现

  • 每次用户发新消息,模型都要"重新阅读"从第1条到当前的全部内容
  • 即使会话没有切换、上下文还在,系统也没有增量机制
  • 导致响应延迟随着会话变长而线性增加
  • 用户终端上能看到明显的"从头到尾滚一遍"的过程

期望

希望有一种方式能减轻这种"每轮全量刷新"的感觉,例如:

  1. 滑动窗口 — 只保留最近 N 轮对话,自动截断早期内容
  2. 上下文摘要 — 系统自动将早期对话压缩成一段摘要,替换原始消息
  3. 增量上下文 — 如果 API 允许(或通过某种缓存机制),只传递新增的部分
  4. 至少提供一个配置项 — 让用户可以选择上下文管理的策略(全量 vs 窗口 vs 摘要)

当前可用的替代方案

我知道可以通过 /compress 手动压缩上下文。但这需要用户主动操作,且压缩时机和效果不可控。期望有一个自动化的、可配置的方案。

环境

  • 平台:CLI(WSL2)
  • 模型提供商/模型:DeepSeek / deepseek-v4-flash
  • 上下文长度设置:默认

Vote matrix · Quick signals

Works
Did the solution work? Tap to confirm.
Easy Fix
Was it a quick fix?
Time Saver
Did it save you time?
Blocking
Was it severely blocking?
Common Issue
Are others likely hitting this too?
Flaky / Intermittent
Is it intermittent?
Verified / Reproducible
Can you reproduce it reliably?
Loading…

Still need to ship something?

×6

Another batch ranked right after the header list — different links, same matching logic.

Back to top recommendations

TRENDING

hermes - 💡(How to fix) Fix feat: 每轮对话从头到尾重新处理全部历史上下文的体验优化