张译尹  |

阿里巴巴

全球运行指挥中心 高级算法工程师

即将开始的GIAC课程

阿里巴巴立体化智能监控策略的探索和实践

智能运维/SRE

2019-06-21 14:30--15:30

【案例背景介绍】
阿里巴巴集团在业务规模不断扩大、业务形态不断变化的背景下,为了保证业务的稳定运行和故障的快速恢复,我们需要通过更加智能化的手段来支持和管理应急预警、故障发现、故障分析、故障恢复等一系列故障处理过程。同时,在重保阿里安全生产的驱动下,我们也积极探索了一些有别于传统监控的新场景,通过立体化智能监控策略来提升业务监控的质量和效率,拓展了传统监控的应用场景。

【解决思路/成功要点】
 增强版的业务监控算法策略:该策略覆盖了阿里巴巴集团业务监控黄金指标,通过基于深度学习的监控指标路由模块、统计/机器学习算法来进行异常检测,并采取开放参数来贴近业务所需。
 应用监控层面的智能化监控策略:该策略覆盖了阿里巴巴应用监控指标,通过综合多个指标和固定阈值量化获得当前应用的健康分,召回线上应用容量水位异常。
 面向千万级系统指标的无阈值的智能监控策略:该策略覆盖了阿里巴巴集团海量系统基础指标,结合极值理论自适应学习波形特征,提供免人工维护的无阈值异常检测能力。
 多指标异常波动相关性分析策略: 该策略能够自动发现监控指标间的异常波动关联程度并引入聚类算法挖掘多监控指标异常波动相关关系(与清华裴丹老师团队合作成果),助力海量指标异常报警收敛。

【成果】
立体化智能监控算法策略的准确率、召回率双双85%+,并已经集成在阿里巴巴集团多个业务部门的运维平台中。

负责阿里巴巴集团智能监控策略算法设计和研发工作,对于基于机器学习/深度学习的时间序列异常检测,时间序列相关性检测及聚类分析,运维类工单智能化处理等领域都有着丰富的算法经验和技术成果。毕业于伦敦大学学院统计和机器学习专业,在加入阿里巴巴之前,曾经在westwell深度学习研究院从事研究员工作。

即将开始的GIAC课程

阿里巴巴立体化智能监控策略的探索和实践

智能运维/SRE

2019-06-21 14:30--15:30

【案例背景介绍】
阿里巴巴集团在业务规模不断扩大、业务形态不断变化的背景下,为了保证业务的稳定运行和故障的快速恢复,我们需要通过更加智能化的手段来支持和管理应急预警、故障发现、故障分析、故障恢复等一系列故障处理过程。同时,在重保阿里安全生产的驱动下,我们也积极探索了一些有别于传统监控的新场景,通过立体化智能监控策略来提升业务监控的质量和效率,拓展了传统监控的应用场景。

【解决思路/成功要点】
 增强版的业务监控算法策略:该策略覆盖了阿里巴巴集团业务监控黄金指标,通过基于深度学习的监控指标路由模块、统计/机器学习算法来进行异常检测,并采取开放参数来贴近业务所需。
 应用监控层面的智能化监控策略:该策略覆盖了阿里巴巴应用监控指标,通过综合多个指标和固定阈值量化获得当前应用的健康分,召回线上应用容量水位异常。
 面向千万级系统指标的无阈值的智能监控策略:该策略覆盖了阿里巴巴集团海量系统基础指标,结合极值理论自适应学习波形特征,提供免人工维护的无阈值异常检测能力。
 多指标异常波动相关性分析策略: 该策略能够自动发现监控指标间的异常波动关联程度并引入聚类算法挖掘多监控指标异常波动相关关系(与清华裴丹老师团队合作成果),助力海量指标异常报警收敛。

【成果】
立体化智能监控算法策略的准确率、召回率双双85%+,并已经集成在阿里巴巴集团多个业务部门的运维平台中。

CopyRight © 2008-2019 Msup & 高可用架构