虎牙直播AIOps落地实践

案例来源:虎牙直播
会议地点:深圳
分享时间: 2020-08-14 11:00-12:00

郑健彦  |

虎牙直播 基础保障部 AIOps leader

2017年华南理工大学硕士毕业后,加入联想数据中心部门负责故障预测等工作。2019年加入虎牙直播,在质量,效率和成本三个方面落地AIOps,涉及异常检测,多维度根因定位,时序预测和大数据算力调度等相关工作。

课程概要

案例背景:
随着虎牙直播业务体量的增长和混合云建设,如何持续高效地保障线上服务的稳定性,成为虎牙AIOps团队的重点。

解决思路:
1. 通过监控业务指标和用户反馈实现覆盖监控虎牙大部分业务场景。
2. 尝试无监督算法积累异常标签,使用有监督算法实现实时精确告警。
3. 结合多维下钻分析算法应用到根因定位,达到“告警即定界”的效果,提高故障排查效率。

成果:
降低MTTR升SLA,在质量和效率上的实践取得不错的效果,持续保障线上服务稳定性。

听众收益

1. 监控如何覆盖绝大多数业务场景。
2. 在缺少时序异常标注数据的情况下,如何落地异常检测。
3. 如何实现用户反馈内容的监控。

郑健彦  |

虎牙直播
基础保障部 AIOps leader

2017年华南理工大学硕士毕业后,加入联想数据中心部门负责故障预测等工作。2019年加入虎牙直播,在质量,效率和成本三个方面落地AIOps,涉及异常检测,多维度根因定位,时序预测和大数据算力调度等相关工作。

课程概要

案例背景:
随着虎牙直播业务体量的增长和混合云建设,如何持续高效地保障线上服务的稳定性,成为虎牙AIOps团队的重点。

解决思路:
1. 通过监控业务指标和用户反馈实现覆盖监控虎牙大部分业务场景。
2. 尝试无监督算法积累异常标签,使用有监督算法实现实时精确告警。
3. 结合多维下钻分析算法应用到根因定位,达到“告警即定界”的效果,提高故障排查效率。

成果:
降低MTTR升SLA,在质量和效率上的实践取得不错的效果,持续保障线上服务稳定性。

听众收益

1. 监控如何覆盖绝大多数业务场景。
2. 在缺少时序异常标注数据的情况下,如何落地异常检测。
3. 如何实现用户反馈内容的监控。

CopyRight © 2008-2020 Msup & 高可用架构

京ICP备09001521号