专题出品人: 于雨

蚂蚁金服 可信原生部工程师

专题:云原生

本专题下的议题

dubbogo 3.0:dubbo 在云原生时代的基石
于雨 蚂蚁金服 可信原生部工程师
所属专题:云原生

课程概要

案例背景:
1 统一通信协议
2 统一序列化协议
3 与其他框架互联互通
4 作为数据面融入云原生时代控制面事实标准 istio

解决思路:
1 采用基于基于 h2 的兼容 gRPC 的通信框架以统一通信协议;
2 采用基于 triple 的序列化协议以统一序列化协议;
3 采用新的应用注册模型以与 Spring Cloud 框架互联互通;
4 基于 istio xDS 协议重构 dubbo 的路由协议;

成果:
让一个有着 14 年历史的国内第一微服务治理框架在云原生时代与时俱进, 是对待前辈开拓者和当下用户信任的最佳方式,也为国内其他开源项目树立一个持续演进长期维护的标杆。

听众收益

1 了解国内第一微服务治理框架在云原生时代的思考;
2 了解 dubbogo 和云原生热门技术的整合;
3 了解 dubbogo 的后续方向和规划。

使用 SkyWalking 监控 Kubernetes 事件
柯振旭 Tetrate 可观测性工程师
所属专题:云原生

课程概要

案例背景:
Kubernetes 集群几乎时刻都在产生事件,这些事件中包含的关键信息可能是后续线上故障的主要原因,而这部分事件通常不容易与故障指标进行关联。本案例将详细介绍 Apache SkyWalking 如何将 Kubernetes 产生的事件与 SkyWalking 本身的监控指标进行关联分析,帮助用户快速定位故障原因。

解决思路:
解决方案通过利用 skywalking-kubernetes-event-exporter 监听 Kubernetes 事件,对事件进行提纯、收集、发送至 SkyWalking 后端进行分析和存储,配合 SkyWalking 收集的系统指标,能够快速发现 Kubernetes 产生的事件所影响的系统指标。

成果:
达到预期。Kubernetes 产生的事件中,影响系统指标的事件能够从 Apache SkyWalking 的指标仪表盘上面直观反映出来,帮助 SRE 工程师快速判断系统指标/故障产生的原因,实现快速恢复。

听众收益

1. 学习了解 Apache SkyWalking 在云原生场景下提供的强大的可观测性能力。
2. 学习利用 Kubernetes 事件来辅助分析系统故障和提供系统告警。
3. 获得使用 Apache SkyWalking 和 Kubernetes Event Exporter 进行系统监控最佳实践。

快手中间件mesh化实践
姜涛 快手 基础架构中心 服务网格负责人
所属专题:云原生

课程概要

案例背景:
1.Mesh技术回顾
2.快手mesh落地选型思考
3.快手mesh落地挑战与解决方法(复杂环境、超大规模、策略复杂、业务接入意愿不高等)
4.未来展望

解决思路:
1、需要借鉴社区思路
2、需要根据实际情况,做深度定制
3、性能、稳定性是关键

成果:
redis、grpc、http、zk、mysql都已验证并落地,稳定运行

听众收益

1、如何解决mesh落地超大规模的问题
2、如何解决mesh落地复杂环境的问题
3、如何将复杂sdk逻辑下沉到mesh中
4、mesh平台化建设
5、如何提高用户接入意愿

一个云原生服务的爆炸半径治理
黄帅 亚马逊 资深技术专家
所属专题:云原生

课程概要

案例背景:
整个案例从十年前的一次生产事件入手,深刻剖析了事件发生的来龙去脉:人为的网络错误变更,冲击了冗余网络的备用服务器,回滚后却很快引发了更严重的重镜像风暴,进而导致块存储API服务失效,无法响应用户请求。而事后复盘发现,毒化这一切的刽子手,来自于一个经典的主副本链式存储复制方案。当主本发生故障时,通过专门的配置服务,自动调整主副本的顺序和节点角色,继续进行上述链式复制,确保数据的持久性。正常状况下,该配置服务处理的流量很小;但当发生大规模故障(如电源或网络故障)时,大量节点失效,则需要通过配置服务保证块存储服务的强一致性,因为卷IO会一直阻塞直到复制完成,同时该配置服务的可用性也是保证数据持久性的关键。然而CAP定理中可用性和一致性的互相限制,以及分布式系统实际的运行情况,无法直接采用市面上已有的相关产品。

解决思路:
CAP定理对可用性和一致性的定义限定非常严格,并不适合应用于实际的生产系统。而且并不是所有的数据都需要对所有的用户可用。 因此,要想在强一致性的保证下,尽可能实现高可用性的关键,就变成如何最大程度地减少爆炸半径。经过数年的研究,探索出一种新的解决方案,即基于Cell新架构模式:遵循控制平面和数据平面在设计上的隔离;建立基础设施层面的故障隔离支撑;合理选择Cell组合的大小;利用基础设施感知驱动(网络和电源拓扑)的Cell编排策略”不远不近“,平衡可用性、延迟和数据持久性;应用随机分区技术,将用户打散在多个Cell中,大幅度降低爆炸半径;持续的内化的混沌工程实践,大幅提升实际运行效果。

成果:
经过数年的研究、设计、测试和落地,这个新解决方案,目前已在多个数据中心大规模部署,对外提供服务,大规模运行。

听众收益

1. 复盘真实的生产事件,剖析经典可用性方案上遇到的新问题
2. 了解现实设计中平衡强一致性、高可用性和低延迟性能的方法
3. 了解云原生服务减小爆炸半径的多种手段和方案组合

于雨(github @AlexStocks),dubbogo 社区负责人,一个有十多年服务端基础架构研发经验的一线人员,熟悉即时通信、NoSQL 和服务治理, 陆续参与改进过 Redis/Pika/Pika-port/Dubbo/Sentinel-go 等知名项目,目前从事容器编排和 service mesh 相关工作。

专题:云原生

CopyRight © 2008-2021 Msup & 高可用架构

京ICP备09001521号