即将开始的GIAC课程
混沌工程与系统稳定性设计模式
混沌工程
2019-06-22 10:00--11:00
背景介绍:
混沌工程是什么?有什么价值?如何将系统设计得能在生产环境上抵御“混沌猴”的攻击和不可预知的灾难?
解决思路/成功要点:
不要止步于所发现的“根本原因”,简单地惩罚替罪羊了事。因为大部分现实问题都是非线形问题,既无法预测,又不易发现导致异常结果的细微原因
用所发现的“根本原因”作为启发,本着“不信有好事”和“能在局部破坏下实现自愈”的设计原则,进行系统的稳定性设计,把分布式系统各个子服务打造成“明哲自保”的自治子系统,从而维持整个系统的稳定性。
成果:
某金融公司的业务系统出现客户登录异常事故,重启了各种服务,排查了9个小时才发现是一台外部证书注册审批系统死机的问题。而这个问题可以使用超时、断路器和快速失败的系统稳定性模式来解决。
能辅导软件开发团队又快又好地交付软件的ThoughtWorks高级技术教练。5年来辅导过多家国内大型金融机构的敏捷和DevOps转型。曾搞编程道场,所以人称“道长”。经常在简书撰写敏捷开发博客,署名“吾真本” 。工作20多年,做过开发、测试、项目管理、技术教练。《驯服烂代码》作者,《发布!》(第2版)译者。
即将开始的GIAC课程
混沌工程与系统稳定性设计模式
混沌工程
2019-06-22 10:00--11:00
背景介绍:
混沌工程是什么?有什么价值?如何将系统设计得能在生产环境上抵御“混沌猴”的攻击和不可预知的灾难?
解决思路/成功要点:
不要止步于所发现的“根本原因”,简单地惩罚替罪羊了事。因为大部分现实问题都是非线形问题,既无法预测,又不易发现导致异常结果的细微原因
用所发现的“根本原因”作为启发,本着“不信有好事”和“能在局部破坏下实现自愈”的设计原则,进行系统的稳定性设计,把分布式系统各个子服务打造成“明哲自保”的自治子系统,从而维持整个系统的稳定性。
成果:
某金融公司的业务系统出现客户登录异常事故,重启了各种服务,排查了9个小时才发现是一台外部证书注册审批系统死机的问题。而这个问题可以使用超时、断路器和快速失败的系统稳定性模式来解决。