监控与运维

监控三大维度

Rendering diagram…

系统监控

关键指标

指标	阈值建议	说明
CPU 使用率	< 70%	持续 > 80% 需扩容
内存使用率	< 75%	内存溢出是主要风险
磁盘 IO	< 70% utilization	热点在 ES / MinIO
磁盘使用率	< 80%	超过立即告警
网络带宽	< 70%	跨节点流量主要来自 ES / MinIO

接入方式

Prometheus + Grafana — 官方提供 dashboard 模板
Zabbix — 内网企业常用
信创监控 — 支持华为 / 国产监控平台

端点：

/metrics       # Prometheus 抓取
/v1/health     # 健康检查
/v1/ready      # 就绪检查（K8s 用）

应用监控

Agent 运行指标

指标	含义	关注
`session.active`	当前活跃 Session 数	并发压力
`agent.step.duration`	Agent 每步耗时（p50/p95/p99）	响应速度
`tool.call.success_rate`	工具调用成功率	外部系统稳定性
`compaction.triggered`	上下文压缩次数	会话复杂度
`hook.execution.count`	Hook 执行次数	Hook 是否正常

错误率

指标	告警阈值
API 5xx 错误率	> 1% 持续 5 分钟
LLM 调用失败率	> 5% 持续 10 分钟
Tool 调用失败率（按工具）	> 10% 持续 15 分钟
Session 超时率	> 3%

LLM 成本监控

LLM 成本是运营里最大的变量之一，平台内置成本监控看板：

核心指标

指标	粒度
Token 用量	按租户 / 用户 / Session / 模型 / 时段
调用成本（¥）	按模型单价折算
平均响应延迟	按模型 / 按调用类型
Cache 命中率	平台内置 prompt cache

成本优化建议

现象	优化
单 Session token 占用高	检查是否触发 Compaction；优化长文档拆分
某租户 token 暴涨	是否误用 / 是否需要限额
LLM 延迟高	是否切到更快的模型（例：long-context → regular）
Cache 命中率低	检查 prompt 是否可模板化

成本告警

可配置"每日 / 每月成本超限"告警，超限后：

软告警：通知管理员，继续运行
硬限制：达到限额后自动降级（切更便宜模型）或暂停

日志

日志级别与分层

层	默认级别
API 后端	INFO
Agent 运行时	INFO
Hook / Tool 执行	INFO
审计日志	总是 INFO（不可关闭）

日志采集

容器日志走 stdout / stderr
可接 Filebeat / Fluentd / Vector 到 ELK / Loki
审计日志独立通道采集，不与业务日志混

告警规则模板

平台提供开箱即用的告警规则：

- name: 高错误率
  expr: rate(http_5xx[5m]) > 0.01
  severity: critical
 
- name: LLM 调用失败
  expr: rate(llm_error[10m]) > 0.05
  severity: warning
 
- name: 磁盘将满
  expr: disk_used_percent > 85
  severity: critical
 
- name: 某租户 token 爆表
  expr: sum by (tenant) (rate(llm_tokens[1h])) > 1000000
  severity: warning

告警渠道：飞书 / 企微 / 邮件 / 短信 / Webhook。

性能调优

水平扩展

组件	扩展方式	触发指标
API 后端	多实例 + Nginx / HAProxy 负载均衡	CPU > 70%
Agent Worker	多 worker 节点	Session 队列深度 > 阈值
搜索引擎	增加节点	查询 p95 > 500ms
对象存储	增加节点	存储容量 > 70%

垂直扩展

关键节点（数据库 / ES）在初期垂直扩展（加 CPU / 内存）比水平扩展更划算。

LLM 侧加速

切用并发更高的 LLM 提供商
私有化自部署用 vLLM / TensorRT-LLM 加速推理
打开响应流式输出（SSE）提升用户体感

备份与容灾

备份

数据类型	频率	方式
关系数据库	每日全备 + 每 5 分钟 WAL	pg_basebackup / 替代等效
搜索引擎	每周全备	ES snapshot 到 S3/MinIO
对象存储	实时	MinIO → 异地复制
配置	每次变更	Git 版本化

恢复目标

RTO（恢复时间）	RPO（数据丢失窗口）
关键业务 2 小时	最多 15 分钟
非关键业务 1 天	最多 24 小时

容灾方案

同城双活：两机房近实时同步，一机房故障 < 2 分钟切换
异地灾备：跨城异步复制，RPO 1 小时

运维自动化

平台提供运维脚本：

一键升级 / 回滚
健康巡检（每日生成报告）
数据归档 / 清理
性能采样 + 火焰图

监控与运维

监控三大维度

系统监控

关键指标

接入方式

应用监控

Agent 运行指标

错误率

LLM 成本监控

核心指标

成本优化建议

成本告警

日志

日志级别与分层

日志采集

告警规则模板

性能调优

水平扩展

垂直扩展

LLM 侧加速

备份与容灾

备份

恢复目标

容灾方案

运维自动化

相关文档

On this page