专题:混沌工程
混沌工程随着2010年Netflix的Chaos Money的开发和应用得到更多的关注,国内外的公司也都在做各种实践尝试。2017年Netflix将之体系的梳理为混沌工程理论,此后越来越多公司设立了专门的Chaos Engineering团队。相比于被动的应对故障,在可控的影响下实施混沌工程实验,提前揭示系统弱点,可以增强我们对系统可恢复性的信心,做到尽量少出问题,及其出问题后能尽快解决。本专题将从几个典型的实践案例,来与大家一同探讨行业在这个领域的实践和发展趋势。
本专题下的议题
Chaos Engineering – past, present and future
Vilas Veeraraghavan Walmart Labs Director Of Engineering
所属专题:混沌工程
课程概要
A large number of companies have actively reduced their dependence on a managed data center solution and instead have migrated to a cloud native solution for all of their software needs. The rush to make massive ecosystems of micro services in the cloud has resulted in creating extremely complex cross connections that are not necessarily well-designed. This leads to customer facing outages and problems caused by small glitches in the system which require hours of debugging and almost always result in lost revenue. To prevent this, we propose a solution - create controlled Chaos in the system and learn where your weaknesses are before your customers do. This field of engineering is called - Chaos engineering (or resilience engineering). This is a rapidly growing discipline that began at Netflix and has now spawned an entire industry on its own.
In this talk, I will present the history and the primary motivations that propelled the movement for chaos engineering. I will also touch upon the innovations, the state of the industry and the popular products that are being used to adopt this discipline in companies today. I will draw on my experiences at Netflix and Walmart labs to present a picture of the future where chaos engineering will become a staple for any cloud delivery platform.
听众收益
Learn about Chaos engineering – what were the motivations for it, where we are today and where we are going. Learn how to implement it in your own company and reap the benefits of getting resilient
分布式服务下的混沌工程实践
肖长军 阿里巴巴 技术专家
所属专题:混沌工程
课程概要
背景介绍:
在微服务系统的大环境下,系统间的依赖已日益复杂,可能没有人能说清单个故障发生对整个系统的影响。传统的测试更多的是验证各个服务的功能和性能瓶颈,但单个微服务故障可能会影响整个服务不可用,减少故障的最好方法就是让问题经常性的发生。所以落地混沌工程,在可控范围或环境下,通过不断重复失败过程,持续提升分布式系统的容错和弹性能力。
解决思路/成功要点:
1.快速有效的搭建一个混沌实验平台
2.梳理核心链路服务
3.确定服务的稳态、自动容错方案和预期业务影响
4.修复发现的问题,持续演练
5.组织演练突袭,做到以战养战
成果:
通过混沌工程,提升了主链路服务的容错能力,改善了监控的有效性以及锻炼了相关人员定位与解决问题的应急能力,并沉淀出一套混沌工程工具 chaosblade,服务于混沌工程社区,同时依靠社区的力量完善更多的混沌实验场景,共同推进混沌工程领域的发展。
听众收益
1.了解混沌工程是什么
2.了解分布式服务下,混沌工程的价值
3.企业中该如何开展混沌工程
混沌工程与系统稳定性设计模式
伍斌 ThoughtWorks 技术教练
所属专题:混沌工程
课程概要
背景介绍:
混沌工程是什么?有什么价值?如何将系统设计得能在生产环境上抵御“混沌猴”的攻击和不可预知的灾难?
解决思路/成功要点:
不要止步于所发现的“根本原因”,简单地惩罚替罪羊了事。因为大部分现实问题都是非线形问题,既无法预测,又不易发现导致异常结果的细微原因
用所发现的“根本原因”作为启发,本着“不信有好事”和“能在局部破坏下实现自愈”的设计原则,进行系统的稳定性设计,把分布式系统各个子服务打造成“明哲自保”的自治子系统,从而维持整个系统的稳定性。
成果:
某金融公司的业务系统出现客户登录异常事故,重启了各种服务,排查了9个小时才发现是一台外部证书注册审批系统死机的问题。而这个问题可以使用超时、断路器和快速失败的系统稳定性模式来解决。
听众收益
1、了解什么是混沌工程
2、了解为什么要做混沌工程
3、了解系统稳定性设计的模式和反模式,来应对“混沌猴”的攻击和生产环境中不可预知的灾难
洪小军,目前担任AfterShip CTO,负责AfterShip整体研发团队。
曾在美图公司担任技术副总裁一职,负责整体后端基础设施、平台服务、创新技术及其美图秀秀等的研发和管理工作。
在此之前负责新浪微博架构平台团队,推动微博平台基础设施及其部分核心业务的研发和落地。超过十年亿级以上用户高并发的大型互联网系统架构设计和研发经验。
曾为TGO厦门鲲鹏会会长和美图互联网技术沙龙的发起人。
专题:混沌工程
混沌工程随着2010年Netflix的Chaos Money的开发和应用得到更多的关注,国内外的公司也都在做各种实践尝试。2017年Netflix将之体系的梳理为混沌工程理论,此后越来越多公司设立了专门的Chaos Engineering团队。相比于被动的应对故障,在可控的影响下实施混沌工程实验,提前揭示系统弱点,可以增强我们对系统可恢复性的信心,做到尽量少出问题,及其出问题后能尽快解决。本专题将从几个典型的实践案例,来与大家一同探讨行业在这个领域的实践和发展趋势。
其他相关专题
-
软件性能
专题出品人:麦俊生
美图 架构平台技术总监
性能优化是软件项目开发过程中一个永恒的话题。流量、数据不断增长和业务复杂度永远在向着“榨干”硬件的趋势逼近,无论硬件设备发展到何种程度,无论研发团队有多么丰富的经验积累,性能优化永远是一个非常棘手而又无法绕开的问题。各大互联网公司的不同类型业务对性能优化也各有差异、中小互联网公司对性能优化也往往仅限于“理论”上,在本专题中,我们将邀请专家从多业务场景多维度深度介绍和分析在不同场景化下如何进行性能优化,我们希望能够在吸取不同场景的性能优化实践后能够实实在在的在自身的业务系统中实际落地应用。
-
架构演进
专题出品人:许令波
小桔车服 小桔充电技术负责人
架构的核心目标就是支撑业务的快速发展, 业务是快速变化的, 技术架构则需要在充分理解业务的前提下, 尽可能高效和低成本的解决业务问题, 甚至提前预测业务可能的变化而提前进行技术布局。而不同的业务场景, 往往在架构设计上也会体现不同的侧重点, 比如微博的FEED服务交互往往必须采用低延迟的 RPC模式, 而异步的消息队列式交互方式则在电商架构上有着广泛的应用场景, 社交行业人与人之间的复杂关系模型则对图数据库有着更深入的要求等等。本专题重点结合典型互联网行业真实的业务场景, 来探讨架构设计的经典模式和通用准则。
-
混沌工程
专题出品人:洪小军
AfterShip CTO
混沌工程随着2010年Netflix的Chaos Money的开发和应用得到更多的关注,国内外的公司也都在做各种实践尝试。2017年Netflix将之体系的梳理为混沌工程理论,此后越来越多公司设立了专门的Chaos Engineering团队。相比于被动的应对故障,在可控的影响下实施混沌工程实验,提前揭示系统弱点,可以增强我们对系统可恢复性的信心,做到尽量少出问题,及其出问题后能尽快解决。本专题将从几个典型的实践案例,来与大家一同探讨行业在这个领域的实践和发展趋势。
-
微服务
专题出品人:张志欢
腾讯 前台开发组组长
当前,“微服务”已经被越来越多的企业作为软件开发的首选架构思路。为什么会出现这样的情况?在这之前究竟发生了什么使得大家对这样一种架构趋之若鹜?而对于已经采用了“微服务”架构的企业又面临着怎样的阵痛?在本期专题中,我们将邀请专家着重讨论实践中碰见的问题。
-
中间件
专题出品人:张亮
京东数科 数据研发负责人
中间件是大型互联网架构基础设施最重要的一部分,学习中间件设计,提升架构的最快途径。中间件经过多年的发展,一方面可以很好的平台化,一方面可以更好的支撑上层应用,从而解决软件复用的问题。在本论坛中,我们邀请了专家探讨几种常见的中间件,比如消息中间件,数据库中间件等。
-
大中台
专题出品人:左耳朵耗子
MegaEase CEO
近年来,随着云服务思想落地生根结果;微服务架构切实的提高了生产效率;深度学习不断深入内容处理的各个领域促进生产力的发展。 在消息系统,数据仓库,计算框架,存储系统等基础架构层建设逐步提升的基础上,大型互联网公司进一步提出了业务基础设施的需求。在基础架构和上层业务之间急需一个中台系统来承载。中台系统把业务层同性的算法能力,服务能力,业务能力高度集成,有效组织 ,动态规划。更好的帮助上层业务。 希望通过本专题各个大型互联网公司的架构师们,对各自探索过的路径的分享,给与会者一个全面的对比学习机会。