跳转到主要内容

错误追踪 (Continuous Error Tracking)

Harness 错误追踪 (CET) 模块提供实时的应用错误监控和诊断能力,帮助开发团队快速发现、定位和修复生产环境中的问题。

核心功能

实时监控

  • 实时错误收集:即时捕获应用中的异常和错误
  • 性能影响分析:了解错误对用户体验的影响
  • 错误趋势:追踪错误数量和频率的变化
  • 多语言支持:Java、Python、Node.js、Go 等主流语言

根因分析

  • 堆栈追踪:完整的错误堆栈信息
  • 变量状态:错误发生时的变量值
  • 日志关联:关联相关日志便于调试
  • 分布式追踪:跨服务的错误追踪

团队协作

  • 告警通知:通过 Slack、Email、PagerDuty 等渠道告警
  • 问题分配:将错误分配给相应开发人员
  • 状态管理:跟踪错误的处理进度
  • 团队过滤:按团队或服务过滤错误

智能聚合

  • 指纹识别:智能识别和聚合相似错误
  • 版本关联:将错误与代码版本关联
  • 重复检测:避免重复告警

适用场景

场景CET 功能
生产问题发现实时告警
快速调试完整堆栈和变量信息
回归检测新版本引入的错误检测
SLA 监控错误率趋势追踪

快速开始

1. 安装 Agent

根据您的技术栈安装对应的 CET Agent:
# Node.js
npm install @harness/cet-node-agent

# Python
pip install harness-cet-python

2. 配置 Agent

设置数据收集和上传配置:
# harness-cet.yaml
accountId: your-account-id
applicationId: your-app-id
endpoint: https://cet.harness.io

3. 部署应用

部署带有 CET Agent 的应用。

4. 查看错误

通过 Harness 控制台查看收集到的错误。

5. 配置告警

设置告警规则和通知渠道。

错误信息

CET 收集以下错误信息:
类别信息
异常类型异常名称和类
堆栈追踪完整的调用栈
请求信息HTTP 请求详情
用户信息触发错误的用户
环境上下文服务器信息、版本等

与其他模块集成

  • SRM:将错误率纳入 SLO 监控
  • CD:在部署流水线中显示错误率变化
  • CCM:了解错误对系统资源的影响

最佳实践

  1. 全面覆盖:在所有关键服务中部署 Agent
  2. 过滤噪音:合理配置忽略规则,过滤不重要的错误
  3. 快速响应:配置合理的告警阈值,避免告警疲劳
  4. 持续改进:定期 review 错误趋势,识别系统性问题

相关资源