即将开始的GIAC课程
分布式服务下的混沌工程实践
混沌工程
2019-06-22 11:00--12:00
背景介绍:
在微服务系统的大环境下,系统间的依赖已日益复杂,可能没有人能说清单个故障发生对整个系统的影响。传统的测试更多的是验证各个服务的功能和性能瓶颈,但单个微服务故障可能会影响整个服务不可用,减少故障的最好方法就是让问题经常性的发生。所以落地混沌工程,在可控范围或环境下,通过不断重复失败过程,持续提升分布式系统的容错和弹性能力。
解决思路/成功要点:
1.快速有效的搭建一个混沌实验平台
2.梳理核心链路服务
3.确定服务的稳态、自动容错方案和预期业务影响
4.修复发现的问题,持续演练
5.组织演练突袭,做到以战养战
成果:
通过混沌工程,提升了主链路服务的容错能力,改善了监控的有效性以及锻炼了相关人员定位与解决问题的应急能力,并沉淀出一套混沌工程工具 chaosblade,服务于混沌工程社区,同时依靠社区的力量完善更多的混沌实验场景,共同推进混沌工程领域的发展。
花名穹谷,多年应用性能监控研发和分布式系统高可用架构经验,现专注于混沌工程领域,具备多年混沌工程研发和实践经验。开源项目 ChaosBlade 的负责人,阿里云应用高可用服务(AHAS)和应用服务发现(APDS)产品研发,混沌工程布道师。
即将开始的GIAC课程
分布式服务下的混沌工程实践
混沌工程
2019-06-22 11:00--12:00
背景介绍:
在微服务系统的大环境下,系统间的依赖已日益复杂,可能没有人能说清单个故障发生对整个系统的影响。传统的测试更多的是验证各个服务的功能和性能瓶颈,但单个微服务故障可能会影响整个服务不可用,减少故障的最好方法就是让问题经常性的发生。所以落地混沌工程,在可控范围或环境下,通过不断重复失败过程,持续提升分布式系统的容错和弹性能力。
解决思路/成功要点:
1.快速有效的搭建一个混沌实验平台
2.梳理核心链路服务
3.确定服务的稳态、自动容错方案和预期业务影响
4.修复发现的问题,持续演练
5.组织演练突袭,做到以战养战
成果:
通过混沌工程,提升了主链路服务的容错能力,改善了监控的有效性以及锻炼了相关人员定位与解决问题的应急能力,并沉淀出一套混沌工程工具 chaosblade,服务于混沌工程社区,同时依靠社区的力量完善更多的混沌实验场景,共同推进混沌工程领域的发展。