专题出品人: 洪小军

AfterShip CTO

专题:混沌工程

混沌工程随着2010年Netflix的Chaos Money的开发和应用得到更多的关注,国内外的公司也都在做各种实践尝试。2017年Netflix将之体系的梳理为混沌工程理论,此后越来越多公司设立了专门的Chaos Engineering团队。相比于被动的应对故障,在可控的影响下实施混沌工程实验,提前揭示系统弱点,可以增强我们对系统可恢复性的信心,做到尽量少出问题,及其出问题后能尽快解决。本专题将从几个典型的实践案例,来与大家一同探讨行业在这个领域的实践和发展趋势。

本专题下的议题

Chaos Engineering – past, present and future
Vilas Veeraraghavan Walmart Labs Director Of Engineering
所属专题:混沌工程

课程概要

A large number of companies have actively reduced their dependence on a managed data center solution and instead have migrated to a cloud native solution for all of their software needs. The rush to make massive ecosystems of micro services in the cloud has resulted in creating extremely complex cross connections that are not necessarily well-designed. This leads to customer facing outages and problems caused by small glitches in the system which require hours of debugging and almost always result in lost revenue. To prevent this, we propose a solution - create controlled Chaos in the system and learn where your weaknesses are before your customers do. This field of engineering is called - Chaos engineering (or resilience engineering). This is a rapidly growing discipline that began at Netflix and has now spawned an entire industry on its own.

In this talk, I will present the history and the primary motivations that propelled the movement for chaos engineering. I will also touch upon the innovations, the state of the industry and the popular products that are being used to adopt this discipline in companies today. I will draw on my experiences at Netflix and Walmart labs to present a picture of the future where chaos engineering will become a staple for any cloud delivery platform.

听众收益

Learn about Chaos engineering – what were the motivations for it, where we are today and where we are going. Learn how to implement it in your own company and reap the benefits of getting resilient

分布式服务下的混沌工程实践
肖长军 阿里巴巴 技术专家
所属专题:混沌工程

课程概要

背景介绍:
在微服务系统的大环境下,系统间的依赖已日益复杂,可能没有人能说清单个故障发生对整个系统的影响。传统的测试更多的是验证各个服务的功能和性能瓶颈,但单个微服务故障可能会影响整个服务不可用,减少故障的最好方法就是让问题经常性的发生。所以落地混沌工程,在可控范围或环境下,通过不断重复失败过程,持续提升分布式系统的容错和弹性能力。

解决思路/成功要点:
1.快速有效的搭建一个混沌实验平台
2.梳理核心链路服务
3.确定服务的稳态、自动容错方案和预期业务影响
4.修复发现的问题,持续演练
5.组织演练突袭,做到以战养战

成果:
通过混沌工程,提升了主链路服务的容错能力,改善了监控的有效性以及锻炼了相关人员定位与解决问题的应急能力,并沉淀出一套混沌工程工具 chaosblade,服务于混沌工程社区,同时依靠社区的力量完善更多的混沌实验场景,共同推进混沌工程领域的发展。

听众收益

1.了解混沌工程是什么
2.了解分布式服务下,混沌工程的价值
3.企业中该如何开展混沌工程

混沌工程与系统稳定性设计模式
伍斌 ThoughtWorks 技术教练
所属专题:混沌工程

课程概要

背景介绍:
混沌工程是什么?有什么价值?如何将系统设计得能在生产环境上抵御“混沌猴”的攻击和不可预知的灾难?

解决思路/成功要点:
不要止步于所发现的“根本原因”,简单地惩罚替罪羊了事。因为大部分现实问题都是非线形问题,既无法预测,又不易发现导致异常结果的细微原因
用所发现的“根本原因”作为启发,本着“不信有好事”和“能在局部破坏下实现自愈”的设计原则,进行系统的稳定性设计,把分布式系统各个子服务打造成“明哲自保”的自治子系统,从而维持整个系统的稳定性。

成果:
某金融公司的业务系统出现客户登录异常事故,重启了各种服务,排查了9个小时才发现是一台外部证书注册审批系统死机的问题。而这个问题可以使用超时、断路器和快速失败的系统稳定性模式来解决。

听众收益

1、了解什么是混沌工程
2、了解为什么要做混沌工程
3、了解系统稳定性设计的模式和反模式,来应对“混沌猴”的攻击和生产环境中不可预知的灾难

洪小军,目前担任AfterShip CTO,负责AfterShip整体研发团队。
曾在美图公司担任技术副总裁一职,负责整体后端基础设施、平台服务、创新技术及其美图秀秀等的研发和管理工作。
在此之前负责新浪微博架构平台团队,推动微博平台基础设施及其部分核心业务的研发和落地。超过十年亿级以上用户高并发的大型互联网系统架构设计和研发经验。
曾为TGO厦门鲲鹏会会长和美图互联网技术沙龙的发起人。

专题:混沌工程

混沌工程随着2010年Netflix的Chaos Money的开发和应用得到更多的关注,国内外的公司也都在做各种实践尝试。2017年Netflix将之体系的梳理为混沌工程理论,此后越来越多公司设立了专门的Chaos Engineering团队。相比于被动的应对故障,在可控的影响下实施混沌工程实验,提前揭示系统弱点,可以增强我们对系统可恢复性的信心,做到尽量少出问题,及其出问题后能尽快解决。本专题将从几个典型的实践案例,来与大家一同探讨行业在这个领域的实践和发展趋势。

其他相关专题

CopyRight © 2008-2019 Msup & 高可用架构