专题出品人: 杨锦涛(Osier Yang)

腾讯科技 专家工程师

专题:智能运维

随着大数据、人工智能、云计算技术的日渐成熟和飞速发展,传统的运维技术和解决方案已经不能满足需求,智能运维已成为运维的热点领域。如何利用AI提升运维的能力和效率,是保障业务高可用所面临的最大挑战。

本专题下的议题

百度金融行业AIOps解决方案
陈云 百度 资深研发工程师
所属专题:智能运维

课程概要

对于金融行业来说故障会导致直接的资金损失,所以运维工程师投入了大量的时间和精力在监控系统,尽可能加快故障恢复甚至避免故障发生。如何利用好海量的监控数据是一个值得思考的问题。究竟哪些指标需要监控,应该应用何种异常检测算法,如何减少配置成本;如何缩短诊断时间;如何进行故障预警。
本次演讲,我们结合互联网行业过去故障处理、故障预警、故障巡检等场景的经验,介绍我们在金融行业的AIOps解决方案方面的思考,帮助运维工程师快速“救火”,并在考虑如何“防火”,希望与大家一起探讨。

听众收益

1. 百度智能运维发展历史和思路
2. 百度证券AIOps解决方案(故障管理场景)
3. 百度内外落地效果和案例

腾讯会议--腾讯云业务的最佳实践
周小军 腾讯科技 云服务平台技术服务专家
所属专题:智能运维

课程概要

案例背景:
业务在公有云上快速扩展的挑战

解决思路:
借助公有云平台,完成业务的全国几大区部署;通过云原生帮助业务版本高效迭代;通过质量优化提升用户体验。

成果:
技术团队对服务的架构、承载能力做了优化,同时腾挪腾讯云全国资源进行多次扩容。日均扩容云主机近1.5万台,8天总共扩容超过10万台云主机,涉及超百万核的计算资源投入。强大的云资源保障下,会议完美的扛住了全国用户的访问请求。在线用户天天攀升,稳健地顶住了多次的流量高峰。

听众收益

基于公有云的SaaS产品,凭借强大的公有云架构,从最早的广州云,快速扩容到全国几大区域的SET,用户量从春节前的几十万在线增长到数千万在线。

通过腾讯云后端IaaS、云PaaS运维服务支持,高效的支撑了海量流量的服务保障。

通过业务和系统的可观测性,及时掌握业务和系统瓶颈,快速定位问题,及时优化,保证了业务的高可用性。

业务的春节云上成长经验,可以给更多的,通过公有云高速成长的业务参考借鉴。

虎牙直播AIOps落地实践
郑健彦 虎牙直播 基础保障部 AIOps leader
所属专题:智能运维

课程概要

案例背景:
随着虎牙直播业务体量的增长和混合云建设,如何持续高效地保障线上服务的稳定性,成为虎牙AIOps团队的重点。

解决思路:
1. 通过监控业务指标和用户反馈实现覆盖监控虎牙大部分业务场景。
2. 尝试无监督算法积累异常标签,使用有监督算法实现实时精确告警。
3. 结合多维下钻分析算法应用到根因定位,达到“告警即定界”的效果,提高故障排查效率。

成果:
降低MTTR升SLA,在质量和效率上的实践取得不错的效果,持续保障线上服务稳定性。

听众收益

1. 监控如何覆盖绝大多数业务场景。
2. 在缺少时序异常标注数据的情况下,如何落地异常检测。
3. 如何实现用户反馈内容的监控。

曾在 Red Hat Cloud BU 从事虚拟化研发,在青云QingCloud 担任存储产品线 QingStor 研发总监。虚拟化核心开源项目 libvirt 项目的前 Committer,对 Open Source、Linux Kernel、虚拟化、分布式存储、IaaS、物联网等领域有深入研究和理解。当前专注于网络工程及大规模虚拟网络的研究。

专题:智能运维

随着大数据、人工智能、云计算技术的日渐成熟和飞速发展,传统的运维技术和解决方案已经不能满足需求,智能运维已成为运维的热点领域。如何利用AI提升运维的能力和效率,是保障业务高可用所面临的最大挑战。

其他相关专题

CopyRight © 2008-2020 Msup & 高可用架构

京ICP备09001521号