美图如何基于AIOps构建智能监控体系

韩剑

美图    运维部高级DevOps工程师

2013年加入美图,参与了美图运维体系、监控体系的整体构建过程。在系统运维管理及运维开发方面有丰富的经验。对开源监控系统、时序数据库有比较深入的研究。目前主要关注方向在机器学习、AIOps、容器技术上。

演讲概要

以“让更多人变美”为使命,怀揣着“打造美丽生态链,让每个人都使用美图产品”的愿景,美图公司产品矩阵目前在全球15亿台设备激活,MAU超过4.8亿,知名的产品如美图秀秀,美颜相机,美拍,美图手机,美图美妆等,覆盖工具产品,社交,电商,智能硬件及区块链等软硬件领域。一个成熟的监控体系,必须具备监控指标覆盖全,报警准确无误,监控数据可视化的用户体验好,能帮助到业务的监控体系才好的监控体系,本次分享主要介绍,我们是如何支撑这么大规模产品快速交付,如何构建整套智能化监控体系,以及AIops在其中扮演的关键作用。主要包含以下内容:
1)构建端到端的,统一化的监控体系,业务低成本即可接入整套体系,具备从用户端中的各种指标,再到服务端的业务体系指标,囊括物理资源维度,业务维度,中间件维度的一体化指标体系
2)具有统一化的告警收敛平台
3)具有统一化的对外可视化Dashboard
4)基于AIOps,构建异常检测系统

听众收益

1)如何构建一套成体系的监控系统
2)如何用开源技术,大数据技术解决大规模下的监控系统问题
3)如何降低每个团队,每个个体收到的报警,优化告警收敛策略,业务的关联关系告警等核心问题
4)如何建立全公司统一的可视化Dashboard,以及可视化监控大屏
5)AIOps时代,在监控体系中如何大有可为的应用