Nox-Lumen MfgNox-Lumen Mfg

Agent 设置

"个人中心 → 智能体(Agent)" 是 combo agent 最底层的调优入口。Plan Mode 决定"怎么规划",这里决定"怎么记、怎么忘、怎么压缩、怎么检索"。

技术概念参考:核心概念 / 可观测性核心概念 / 多租户核心概念 / 架构

1. 页面总览

入口:头像 → 我的设置 → 智能体(Agent,脑图标)

Agent 设置页全景(6 个 Collapse Panel 折叠在左,顶部工具栏)

顶部工具栏:

按钮作用
未保存 / 已保存状态灯,有改动未保存时变橙色
查看 JSON以 JSON 格式查看当前配置(用于调试 / 备份)
重置默认恢复出厂配置(有确认弹窗)
保存配置持久化到后端(对所有后续会话生效)
Rendering diagram…

这里改的是你所有 Agent 的默认值。单个 Agent 创建时可以 override 这里的设置;会话内 Plan Mode 切换则更细粒度。优先级:单会话 Plan Mode > 单 Agent override > 全局默认

2. Panel ① 会话压缩(Compaction)

Token 快满的时候,系统总结旧消息丢弃冗余,腾出空间。这是 combo agent 长会话不崩盘的关键。

会话压缩 Panel 展开(三种模式单选 + 阈值/保留条数/总结 Token)

2.1 压缩模式(compactionMode

模式描述适用
标准压缩 default常规压缩:总结旧消息,保留最近 N 条 + 摘要推荐,日常默认
安全压缩 safeguard保守压缩:只在非常接近上限时才触发,保留更多细节精准任务(合规审查、代码审计)
关闭压缩 off不压缩,直接硬截断调试用,不建议生产

2.2 关键参数

字段范围含义
保留 Token 下限 reserveTokensFloor1K–100K压缩后至少保留这么多可用 token 给后续对话
保留最近消息 keepLastMessages1–100压缩时不处理的最近 N 条(默认 10)
摘要最大 Token summaryMaxTokens100–10K总结后的摘要长度上限

2.3 Memory Flush(记忆落盘)

压缩的副产品:被压缩的消息 + 摘要,按需写入长期记忆(LTM),跨会话可检索

字段含义
启用记忆落盘开关,开了压缩时顺便 flush
软阈值 Token softThresholdTokensToken 占用达到此值就开始 flush(不等硬压缩)
系统 Prompt指导 LLM 如何抽取长期事实(默认模板已有)
用户 Prompt抽取时注入的用户侧 prompt

3. Panel ② 上下文裁剪(Context Pruning)

压缩针对历史消息;裁剪针对单条消息中的工具返回(如一次 SQL 查询返回 50K 行,没必要全带给 LLM)。

上下文裁剪 Panel(三种模式 + 软裁阈值 Slider + 硬清除阈值 Slider)

3.1 裁剪模式(pruningMode

模式描述
关闭 off不裁,大工具返回直接入上下文
自适应 adaptive(默认)按比例软裁 + 超阈值硬清除(推荐)
激进 aggressive更早触发裁剪,适合上下文窗口紧张的小模型

3.2 关键参数

字段范围含义
保护最近 N 轮 keepLastAssistants0–20最近 N 轮 Assistant 回复不被裁
软裁阈值 softTrimRatio0–1达到上限这个比例时开始软裁
硬清除阈值 hardClearRatio0–1达到此比例时直接删除工具返回,用占位符替代
最小可裁字符数 minPrunableToolChars1K–500K小于此值的工具返回不裁(避免误伤)

3.3 软裁详参

软裁 = 中间截断。保留开头/结尾的摘要性内容。

字段含义
软裁最大字符单次工具返回裁剪后的上限(默认 8K)
开头保留头 N 字符保留(默认 2K)
结尾保留尾 N 字符保留(默认 2K)

3.4 硬清除 & 占位

enableHardClear 后,达硬阈值直接删工具返回,插入一行:

[已清除:工具 X 的返回(共 N 字符)。如需查看请到 Ledger。]

3.5 工具级白/黑名单

字段作用
允许裁剪的工具 toolsAllow只对名单内工具裁;空=所有工具
禁止裁剪的工具 toolsDeny名单内工具永不裁(比如 graft_getledger_read

典型设置:toolsDeny 放入对正确性极敏感的工具,如 doors_queryalm_create_requirementtoolsAllow 可以留空表示默认对所有工具裁剪。

LTM(长期记忆)的检索侧配置。上面压缩 + 落盘写入 LTM,这里决定怎么把写进去的东西读出来

记忆检索 Panel(开关 + 数据源多选 + Chunk 配置 + 同步策略 + 查询参数 + 混合检索权重)

4.1 基础开关

字段作用
启用记忆检索 memorySearchEnabled总开关,关了就不查 LTM
数据源 memorySources多选:memory(记忆事实)/ sessions(历史会话)/ final_results(任务终稿)

4.2 切片(Chunking)

把 LTM 中的长记忆切成片段入向量库。

字段范围含义
Chunk Token50–2000单片段 token 数(默认 512)
Chunk Overlap0–500相邻片段重叠 token(默认 64)

4.3 同步策略

LTM 数据不是即时写入 ES 的,有同步节拍:

字段含义
会话启动时同步每次打开会话触发一次增量同步
搜索时同步每次检索前同步一下(最保鲜,开销最大)
同步间隔(分钟)定时同步,1–1440
字节变更阈值单会话数据增量达此值触发同步
消息变更阈值单会话消息增量达此值触发同步

4.4 查询参数

字段范围含义
最大返回数 queryMaxResults1–50单次检索 top-k(默认 10)
最小相关性得分 queryMinScore0–1低于该得分的片段丢弃

4.5 混合检索(Hybrid)

Rendering diagram…
字段范围建议
启用混合检索ON/OFF推荐 ON
向量权重0–1语义权重(默认 0.7)
文本权重0–1BM25 权重(默认 0.3)

5. Panel ④ 会话(Session)

会话 Panel(隔离粒度 / 程序记忆开关 / 重置策略)

5.1 会话隔离(sessionScope

模式含义典型
per-sender每个用户独立会话个人助手场景
per-agent每个 Agent 独立会话多 Agent 工作台
shared多个 Agent 共享一条会话团队协同、多 Agent 接力

5.2 程序记忆(Program Memory)

类似系统里的"执行画像"。

开关含义
统计运行次数记录每次 Agent 被调度次数
追踪任务历史记录每次 run 的 start/end/params
索引最终结果把 final answer 入 LTM(可跨会话引用)
最大任务历史1–500,FIFO 滚动

5.3 重置策略

字段含义
重置模式 resetModeidle(空闲超时重置)/ daily(每日定时重置)
空闲分钟idle 模式下,N 分钟无活动清会话
每日重置时刻daily 模式下,0–23 时(如凌晨 3 点)

6. Panel ⑤ 存储(Storage)

决定 LTM 数据实际存在哪里

存储 Panel(驱动选择 + 索引名 + 嵌入模型)

6.1 存储驱动(storageDriver

驱动适用备注
Elasticsearch生产默认,多租户、大规模需要 ES 集群
Infinity单机部署、轻量原生 C++ 向量库,嵌入式
SQLite本地开发、单机 POC不支持大并发

6.2 索引名

多环境共用同一个 ES 时用索引名隔离。命名建议:combo_ltm_<env>_<tenant>

6.3 嵌入模型

这里配的是 LTM 内部检索用的 embedding(和知识库的 embedding 是独立的,别混淆)。

字段含义
模型名bge-m3text-embedding-3-small
向量维度64–4096,与模型一致

7. Panel ⑥ Agent 基础

Agent 基础 Panel(工作目录 / 主模型 / 备用模型 / 上下文 token / 思考深度 / 超时)

字段范围含义
工作目录 workspace任意路径Agent sandbox 沙箱根目录
主模型 primaryModelprovider/model-nameopenai/gpt-5anthropic/claude-4.7-sonnet
备用模型 fallbackModels多选字符串主模型不可用时按顺序降级
上下文 Token contextTokens1K–1M模型支持的上下文窗口,由模型决定
思考深度 thinkingDefaultlow / medium / high对应 OpenAI o 系列的 reasoning effort,或 Anthropic 的 thinking budget
超时(秒) timeoutSeconds10–3600单轮 Agent 调用硬超时

思考深度 对使用费用和速度影响巨大:

  • low:响应 < 3s,适合简单润色
  • medium:3–15s(默认)
  • high:15–120s,适合复杂规划、代码审查、合规判断

结合 Plan Mode:Fast + low 最便宜,Full + high 最贵但质量最高。

8. 典型配置组合

8.1 日常写作 / 问答

compactionMode     : default
pruningMode        : adaptive
memorySearchEnabled: true
sessionScope       : per-sender
primaryModel       : openai/gpt-5
thinkingDefault    : medium
contextTokens      : 128000

8.2 专利撰写 / 合规审查(高严谨)

compactionMode     : safeguard      # 保守压缩,尽量不丢细节
pruningMode        : off            # 关闭裁剪,完整保留工具返回
memorySearchEnabled: true
memorySources      : [memory, sessions, final_results]
primaryModel       : anthropic/claude-4.7-sonnet
thinkingDefault    : high
contextTokens      : 200000
timeoutSeconds     : 600

8.3 大规模代码审查 / ASPICE 追溯

compactionMode     : default
pruningMode        : aggressive
hardClearRatio     : 0.7            # 超 70% 直接丢工具返回
toolsDeny          : [graft_get, alm_create_requirement]  # 关键工具不裁
sessionScope       : shared         # 多 Agent 接力

9. 保存 & 生效

  • 改动后必须点右上角「保存配置」,未保存状态灯会变橙。
  • 保存后即时生效,下一轮对话就是新配置。
  • 正在运行的 Agent 不受影响(除非点停止后重发)。
  • 可点「重置默认」一键回滚,有确认弹窗。

10. 下一步

On this page