监控与运维
Rendering diagram…
| 指标 | 阈值建议 | 说明 |
|---|
| CPU 使用率 | < 70% | 持续 > 80% 需扩容 |
| 内存使用率 | < 75% | 内存溢出是主要风险 |
| 磁盘 IO | < 70% utilization | 热点在 ES / MinIO |
| 磁盘使用率 | < 80% | 超过立即告警 |
| 网络带宽 | < 70% | 跨节点流量主要来自 ES / MinIO |
- Prometheus + Grafana — 官方提供 dashboard 模板
- Zabbix — 内网企业常用
- 信创监控 — 支持华为 / 国产监控平台
端点:
/metrics # Prometheus 抓取
/v1/health # 健康检查
/v1/ready # 就绪检查(K8s 用)
| 指标 | 含义 | 关注 |
|---|
session.active | 当前活跃 Session 数 | 并发压力 |
agent.step.duration | Agent 每步耗时(p50/p95/p99) | 响应速度 |
tool.call.success_rate | 工具调用成功率 | 外部系统稳定性 |
compaction.triggered | 上下文压缩次数 | 会话复杂度 |
hook.execution.count | Hook 执行次数 | Hook 是否正常 |
| 指标 | 告警阈值 |
|---|
| API 5xx 错误率 | > 1% 持续 5 分钟 |
| LLM 调用失败率 | > 5% 持续 10 分钟 |
| Tool 调用失败率(按工具) | > 10% 持续 15 分钟 |
| Session 超时率 | > 3% |
LLM 成本是运营里最大的变量之一,平台内置成本监控看板:
| 指标 | 粒度 |
|---|
| Token 用量 | 按租户 / 用户 / Session / 模型 / 时段 |
| 调用成本(¥) | 按模型单价折算 |
| 平均响应延迟 | 按模型 / 按调用类型 |
| Cache 命中率 | 平台内置 prompt cache |
| 现象 | 优化 |
|---|
| 单 Session token 占用高 | 检查是否触发 Compaction;优化长文档拆分 |
| 某租户 token 暴涨 | 是否误用 / 是否需要限额 |
| LLM 延迟高 | 是否切到更快的模型(例:long-context → regular) |
| Cache 命中率低 | 检查 prompt 是否可模板化 |
可配置"每日 / 每月成本超限"告警,超限后:
- 软告警:通知管理员,继续运行
- 硬限制:达到限额后自动降级(切更便宜模型)或暂停
| 层 | 默认级别 |
|---|
| API 后端 | INFO |
| Agent 运行时 | INFO |
| Hook / Tool 执行 | INFO |
| 审计日志 | 总是 INFO(不可关闭) |
- 容器日志走
stdout / stderr
- 可接 Filebeat / Fluentd / Vector 到 ELK / Loki
- 审计日志独立通道采集,不与业务日志混
平台提供开箱即用的告警规则:
- name: 高错误率
expr: rate(http_5xx[5m]) > 0.01
severity: critical
- name: LLM 调用失败
expr: rate(llm_error[10m]) > 0.05
severity: warning
- name: 磁盘将满
expr: disk_used_percent > 85
severity: critical
- name: 某租户 token 爆表
expr: sum by (tenant) (rate(llm_tokens[1h])) > 1000000
severity: warning
告警渠道:飞书 / 企微 / 邮件 / 短信 / Webhook。
| 组件 | 扩展方式 | 触发指标 |
|---|
| API 后端 | 多实例 + Nginx / HAProxy 负载均衡 | CPU > 70% |
| Agent Worker | 多 worker 节点 | Session 队列深度 > 阈值 |
| 搜索引擎 | 增加节点 | 查询 p95 > 500ms |
| 对象存储 | 增加节点 | 存储容量 > 70% |
关键节点(数据库 / ES)在初期垂直扩展(加 CPU / 内存)比水平扩展更划算。
- 切用并发更高的 LLM 提供商
- 私有化自部署用 vLLM / TensorRT-LLM 加速推理
- 打开响应流式输出(SSE)提升用户体感
| 数据类型 | 频率 | 方式 |
|---|
| 关系数据库 | 每日全备 + 每 5 分钟 WAL | pg_basebackup / 替代等效 |
| 搜索引擎 | 每周全备 | ES snapshot 到 S3/MinIO |
| 对象存储 | 实时 | MinIO → 异地复制 |
| 配置 | 每次变更 | Git 版本化 |
| RTO(恢复时间) | RPO(数据丢失窗口) |
|---|
| 关键业务 2 小时 | 最多 15 分钟 |
| 非关键业务 1 天 | 最多 24 小时 |
- 同城双活:两机房近实时同步,一机房故障 < 2 分钟切换
- 异地灾备:跨城异步复制,RPO 1 小时
平台提供运维脚本:
- 一键升级 / 回滚
- 健康巡检(每日生成报告)
- 数据归档 / 清理
- 性能采样 + 火焰图