Nox-Lumen MfgNox-Lumen Mfg

可观测性

为什么可观测性是核心

在企业场景下,AI 不仅要"能用",还必须"可治理":

  • 合规审计 — 每一条判断都要带依据
  • 故障定位 — Agent 为什么这么决策?
  • 成本治理 — Token 消耗、模型调用、外部 API 用量
  • 质量追溯 — 产出结论的每一步都可回溯

四个可观测性层面

层面观测对象典型工具
业务层会话、技能调用、产出文件工作台审计日志
Agent 层每一次思考、工具调用、Sub-agent 委派Session 执行轨迹
系统层模型调用、token 消耗、延迟Prometheus + Grafana
基础设施层CPU / 内存 / 网络 / 存储标准云监控

Session 执行轨迹(Session Replay)

每个 Session 都可以完整回放:

Rendering diagram…

回放面板包含:

  • 每一步的时间戳
  • 每一步的模型调用(含 prompt 与 completion)
  • 每一步的工具调用(含参数与返回值)
  • 每一步的 token 使用量与成本

这让故障复现合规审计都可做到分钟级。

Ledger:步骤级纪律执行

Ledger 是 Orchestrator 的核心组件,逐步记录:

  • step_status 追踪(pending / running / success / failed)
  • 每条匹配的置信度
  • 低置信度自动触发语义回溯多轮校验
  • 纪律校验与 replan 熔断触发条件

Ledger 的记录是 Agent 不可跳过的——不是"做完才记",而是"记一条做一条"。

分布式追踪

基于 OpenTelemetry 标准:

Rendering diagram…
  • Trace ID 贯穿整个请求链路
  • 跨 Agent / 跨 Sub-agent / 跨外部 API 的调用全部串联
  • 与 Jaeger / Tempo / DataDog 等标准 APM 系统对接

成本可视化

按维度聚合:

  • 按租户 / 用户 / Session / 技能
  • 按模型 / 时间段
  • 按成功 / 失败状态

便于做模型成本优化与预算控制。

相关文档

On this page