混沌工程 (Chaos Engineering)

Harness 混沌工程 (CE) 模块基于 CNCF Litmus 项目构建，帮助团队通过主动注入故障来发现系统弱点，提升生产环境的韧性和可靠性。

核心功能

故障库

内置 200+ 预置故障，覆盖多种场景：

类别	故障类型
Kubernetes	Pod Kill、Container Kill、Pod CPU/Memory Stress
云平台	AWS AZ Failure、Azure VM Stress、GCP Network Latency
网络	Network Partition、DNS Failure、Packet Loss
应用	Process Kill、Service Delay、Exception Injection
基础设施	Disk Stress、IO Delay、Node Restart

实验编排

可视化编辑器：通过图形界面设计混沌实验
探针系统：验证系统在故障下的行为是否符合预期
Timeline 视图：直观展示实验执行过程和结果

ChaosGuard

企业级混沌工程治理平台：

专家护栏：预定义最佳实践和安全边界
自动护栏：运行时保护生产系统免受意外故障影响
规模化管理：管理多个团队和项目的混沌实验

适用场景

场景	说明
韧性验证	验证系统在组件故障时的表现
SLO 验证	确认系统是否满足预定义的可靠性目标
演练准备	训练团队处理故障的能力
回归测试	确保新版本部署后系统仍然具备韧性

快速开始

1. 安装 Chaos Delegate

在 Kubernetes 集群中安装 Harness Chaos Delegate。

2. 创建混沌实验

使用 Chaos Studio 设计实验，选择目标应用程序和故障类型。

3. 定义探针

配置验证探针，确认系统在故障下的预期行为：

probes:
  - name: http-probe
    type: http
    httpProbe:
      url: "http://payment-service/health"
      responseCode: "200"
      timeout: 5s

4. 执行实验

在非生产环境执行实验，观察系统行为。

5. 分析结果

根据探针结果和监控数据评估系统韧性。

与 CI/CD 集成

混沌实验可以集成到 CI/CD 流水线中：

stages:
  - cd:
      name: Deploy
      steps:
        - deploy
  - chaos:
      name: Resilience Test
      experiment:
        - pod-kill
        - network-partition

集成模式

部署前验证：确保新版本在故障下仍正常运行
定期演练：按计划执行混沌实验
事件驱动：在检测到性能下降时触发实验

最佳实践

从非生产开始：先在测试环境验证实验脚本
小范围、低影响：开始时只影响少量资源
设置安全护栏：配置自动终止条件，防止故障扩散
监控关键指标：定义实验成功/失败的标准
文档化学习：记录发现的问题和改进措施

安全考虑

生产环境需谨慎：生产环境实验需经过严格审批
时间窗口：选择业务低峰期执行实验
回滚计划：准备手动或自动恢复措施
团队通知：确保相关团队知道实验计划

默认

混沌工程 (CE)

混沌工程 (Chaos Engineering)

核心功能

故障库

实验编排

ChaosGuard

适用场景

快速开始

1. 安装 Chaos Delegate

2. 创建混沌实验

3. 定义探针

4. 执行实验

5. 分析结果

与 CI/CD 集成

集成模式

最佳实践

安全考虑

相关资源

默认

​混沌工程 (Chaos Engineering)

​核心功能

​故障库

​实验编排

​ChaosGuard

​适用场景

​快速开始

​1. 安装 Chaos Delegate

​2. 创建混沌实验

​3. 定义探针

​4. 执行实验

​5. 分析结果

​与 CI/CD 集成

​集成模式

​最佳实践

​安全考虑

​相关资源

混沌工程 (Chaos Engineering)

核心功能

故障库

实验编排

ChaosGuard

适用场景

快速开始

1. 安装 Chaos Delegate

2. 创建混沌实验

3. 定义探针

4. 执行实验

5. 分析结果

与 CI/CD 集成

集成模式

最佳实践

安全考虑

相关资源