服务可靠性管理 (Service Reliability Management)

Harness 服务可靠性管理 (SRM) 模块帮助 SRE 团队主动监控系统可靠性，快速识别和响应问题，确保服务符合 SLO（服务等级目标）。

核心功能

SLO 管理

SLO 定义：定义和跟踪关键服务等级目标
Error Budget 追踪：监控剩余错误预算
SLO 状态仪表板：实时了解服务健康状况
预测分析：基于历史数据预测 SLO 达成情况

主动监控

健康评分：对服务进行综合健康评估
异常检测：自动识别性能异常
根因分析：快速定位问题根源
关联分析：关联日志、追踪和指标数据

事故管理

自动告警：基于 SLO 违反触发告警
On-Call 集成：与 PagerDuty、Slack 等告警工具集成
事件追踪：完整的故障事件记录
复盘分析：事后分析与改进建议

适用场景

场景	SRM 功能
SLO 达成追踪	Error Budget 计算和告警
异常检测	自动识别性能下降
事故响应	快速告警和事件追踪
可靠性评估	服务健康评分

快速开始

1. 定义 SLO

定义服务的关键指标和目标：

 slo:
   name: payment-service-availability
   target: 99.9%
   window: 30d
   indicator:
     type: availability
     good: http.status < 500
     total: http.total

2. 配置监控

连接数据源，设置指标收集规则。

3. 设置告警

配置 Error Budget 告警规则和阈值。

4. 仪表板监控

通过 SRM 仪表板监控服务健康状态。

5. 事故响应

发生故障时，SRM 自动创建事件并通知相关人员。

与其他模块集成

CD：在部署流水线中集成 SLO 检查
CE：将混沌实验结果与 SLO 关联
CCM：将成本数据与服务质量关联

SLO 实现流程

定义 SLO → 配置监控 → 收集数据 → Error Budget 追踪 → 告警 → 改进

最佳实践

从关键服务开始：优先为收入相关服务定义 SLO
设置合理的 SLI：选择能真实反映用户体验的指标
Error Budget 告警：在 Error Budget 消耗过快时告警
持续改进：基于故障复盘优化系统

关键指标

指标	说明
可用性	服务正常响应时间占比
延迟	请求响应时间（如 P99 延迟）
错误率	失败请求占总请求的比例
吞吐量	每秒处理的请求数

默认

服务可靠性管理 (SRM)

服务可靠性管理 (Service Reliability Management)

核心功能

SLO 管理

主动监控

事故管理

适用场景

快速开始

1. 定义 SLO

2. 配置监控

3. 设置告警

4. 仪表板监控

5. 事故响应

与其他模块集成

SLO 实现流程

最佳实践

关键指标

相关资源

默认

​服务可靠性管理 (Service Reliability Management)

​核心功能

​SLO 管理

​主动监控

​事故管理

​适用场景

​快速开始

​1. 定义 SLO

​2. 配置监控

​3. 设置告警

​4. 仪表板监控

​5. 事故响应

​与其他模块集成

​SLO 实现流程

​最佳实践

​关键指标

​相关资源

服务可靠性管理 (Service Reliability Management)

核心功能

SLO 管理

主动监控

事故管理

适用场景

快速开始

1. 定义 SLO

2. 配置监控

3. 设置告警

4. 仪表板监控

5. 事故响应

与其他模块集成

SLO 实现流程

最佳实践

关键指标

相关资源