错误追踪 (Continuous Error Tracking)
Harness 错误追踪 (CET) 模块提供实时的应用错误监控和诊断能力,帮助开发团队快速发现、定位和修复生产环境中的问题。核心功能
实时监控
- 实时错误收集:即时捕获应用中的异常和错误
- 性能影响分析:了解错误对用户体验的影响
- 错误趋势:追踪错误数量和频率的变化
- 多语言支持:Java、Python、Node.js、Go 等主流语言
根因分析
- 堆栈追踪:完整的错误堆栈信息
- 变量状态:错误发生时的变量值
- 日志关联:关联相关日志便于调试
- 分布式追踪:跨服务的错误追踪
团队协作
- 告警通知:通过 Slack、Email、PagerDuty 等渠道告警
- 问题分配:将错误分配给相应开发人员
- 状态管理:跟踪错误的处理进度
- 团队过滤:按团队或服务过滤错误
智能聚合
- 指纹识别:智能识别和聚合相似错误
- 版本关联:将错误与代码版本关联
- 重复检测:避免重复告警
适用场景
| 场景 | CET 功能 |
|---|---|
| 生产问题发现 | 实时告警 |
| 快速调试 | 完整堆栈和变量信息 |
| 回归检测 | 新版本引入的错误检测 |
| SLA 监控 | 错误率趋势追踪 |
快速开始
1. 安装 Agent
根据您的技术栈安装对应的 CET Agent:2. 配置 Agent
设置数据收集和上传配置:3. 部署应用
部署带有 CET Agent 的应用。4. 查看错误
通过 Harness 控制台查看收集到的错误。5. 配置告警
设置告警规则和通知渠道。错误信息
CET 收集以下错误信息:| 类别 | 信息 |
|---|---|
| 异常类型 | 异常名称和类 |
| 堆栈追踪 | 完整的调用栈 |
| 请求信息 | HTTP 请求详情 |
| 用户信息 | 触发错误的用户 |
| 环境上下文 | 服务器信息、版本等 |
与其他模块集成
- SRM:将错误率纳入 SLO 监控
- CD:在部署流水线中显示错误率变化
- CCM:了解错误对系统资源的影响
最佳实践
- 全面覆盖:在所有关键服务中部署 Agent
- 过滤噪音:合理配置忽略规则,过滤不重要的错误
- 快速响应:配置合理的告警阈值,避免告警疲劳
- 持续改进:定期 review 错误趋势,识别系统性问题