Nox-Lumen MfgNox-Lumen Mfg

监控与运维

监控三大维度

Rendering diagram…

系统监控

关键指标

指标阈值建议说明
CPU 使用率< 70%持续 > 80% 需扩容
内存使用率< 75%内存溢出是主要风险
磁盘 IO< 70% utilization热点在 ES / MinIO
磁盘使用率< 80%超过立即告警
网络带宽< 70%跨节点流量主要来自 ES / MinIO

接入方式

  • Prometheus + Grafana — 官方提供 dashboard 模板
  • Zabbix — 内网企业常用
  • 信创监控 — 支持华为 / 国产监控平台

端点:

/metrics       # Prometheus 抓取
/v1/health     # 健康检查
/v1/ready      # 就绪检查(K8s 用)

应用监控

Agent 运行指标

指标含义关注
session.active当前活跃 Session 数并发压力
agent.step.durationAgent 每步耗时(p50/p95/p99)响应速度
tool.call.success_rate工具调用成功率外部系统稳定性
compaction.triggered上下文压缩次数会话复杂度
hook.execution.countHook 执行次数Hook 是否正常

错误率

指标告警阈值
API 5xx 错误率> 1% 持续 5 分钟
LLM 调用失败率> 5% 持续 10 分钟
Tool 调用失败率(按工具)> 10% 持续 15 分钟
Session 超时率> 3%

LLM 成本监控

LLM 成本是运营里最大的变量之一,平台内置成本监控看板:

核心指标

指标粒度
Token 用量按租户 / 用户 / Session / 模型 / 时段
调用成本(¥)按模型单价折算
平均响应延迟按模型 / 按调用类型
Cache 命中率平台内置 prompt cache

成本优化建议

现象优化
单 Session token 占用高检查是否触发 Compaction;优化长文档拆分
某租户 token 暴涨是否误用 / 是否需要限额
LLM 延迟高是否切到更快的模型(例:long-context → regular)
Cache 命中率低检查 prompt 是否可模板化

成本告警

可配置"每日 / 每月成本超限"告警,超限后:

  • 软告警:通知管理员,继续运行
  • 硬限制:达到限额后自动降级(切更便宜模型)或暂停

日志

日志级别与分层

默认级别
API 后端INFO
Agent 运行时INFO
Hook / Tool 执行INFO
审计日志总是 INFO(不可关闭)

日志采集

  • 容器日志走 stdout / stderr
  • 可接 Filebeat / Fluentd / Vector 到 ELK / Loki
  • 审计日志独立通道采集,不与业务日志混

告警规则模板

平台提供开箱即用的告警规则:

- name: 高错误率
  expr: rate(http_5xx[5m]) > 0.01
  severity: critical
 
- name: LLM 调用失败
  expr: rate(llm_error[10m]) > 0.05
  severity: warning
 
- name: 磁盘将满
  expr: disk_used_percent > 85
  severity: critical
 
- name: 某租户 token 爆表
  expr: sum by (tenant) (rate(llm_tokens[1h])) > 1000000
  severity: warning

告警渠道:飞书 / 企微 / 邮件 / 短信 / Webhook。

性能调优

水平扩展

组件扩展方式触发指标
API 后端多实例 + Nginx / HAProxy 负载均衡CPU > 70%
Agent Worker多 worker 节点Session 队列深度 > 阈值
搜索引擎增加节点查询 p95 > 500ms
对象存储增加节点存储容量 > 70%

垂直扩展

关键节点(数据库 / ES)在初期垂直扩展(加 CPU / 内存)比水平扩展更划算。

LLM 侧加速

  • 切用并发更高的 LLM 提供商
  • 私有化自部署用 vLLM / TensorRT-LLM 加速推理
  • 打开响应流式输出(SSE)提升用户体感

备份与容灾

备份

数据类型频率方式
关系数据库每日全备 + 每 5 分钟 WALpg_basebackup / 替代等效
搜索引擎每周全备ES snapshot 到 S3/MinIO
对象存储实时MinIO → 异地复制
配置每次变更Git 版本化

恢复目标

RTO(恢复时间)RPO(数据丢失窗口)
关键业务 2 小时最多 15 分钟
非关键业务 1 天最多 24 小时

容灾方案

  • 同城双活:两机房近实时同步,一机房故障 < 2 分钟切换
  • 异地灾备:跨城异步复制,RPO 1 小时

运维自动化

平台提供运维脚本:

  • 一键升级 / 回滚
  • 健康巡检(每日生成报告)
  • 数据归档 / 清理
  • 性能采样 + 火焰图

相关文档

On this page