百度服务器每天会收到数百亿次来自用户的请求,这些请求在到达百度服务器之前,需要在百度外的公共网络上经过多层网络设备(如运营商接入交换机等)和链路(如运营商骨干网链路、省网链路等)的转发及传输。公共网络中的设备或者链路故障,会导致部分用户无法正常访问百度的服务,影响用户体验。因此,需要对用户到百度的外网连通性进行实时监控,在故障时引导用户流量绕过故障设备/链路,从而提高用户体验。
猎鹰:作为百度外网质量监控平台,对整个百度的外网访问质量进行实时监测,实现了分钟级的外网故障发现和告警,同时提供丰富的数据可视化展示,为百度服务的可用性保驾护航,成为百度运维工程师日常工作的必备利器之一。
接下来,本文将对百度外网质量监控平台猎鹰进行介绍,主要介绍外网监控概述、外网故障场景以及相关需求。
为什么需要外网监控?
百度拥有数十万台服务器,这些服务器分布在不同地理位置的互联网数据中心中。当用户访问百度服务的时候,域名解析服务(dns)会给用户返回一个vip地址(虚机地址),然后用户的请求会被转发到这个vip地址上。用户的请求在到达这个vip地址之前,依次会经过用户本地接入设备(比如adsl)→用户所在地域的网络运营商接入设备→运营商骨干网链路→百度idc所在地域的运营商接入设备→百度idc的vip.
外网监控对运维的价值
那么对于百度的运维工程师和网络组工程师来说,日常工作中对外网监控系统有哪些通用需求呢?通过对运维工程师和网络组工程师进行相关调研,整理需求如下:
1、真实反映用户到百度idc间的网络访问质量
对于运维工程师来说,他们真正关注的是影响用户访问体验的网络故障,因此,真实反映用户到百度idc间的网络访问质量是外网监控系统进行网络质量监测的基础。
2、覆盖全国三大运营商的各个省份
百度服务每天会收到数百亿次来自三大运营商各个省份的用户请求,为了尽可能多地发现用户端到百度idc间的网络问题,监测点应当尽量覆盖三大运营商的各个省份。
3、准确快速地主动告警,确定故障类型及影响范围
当出现网络故障时,需要快速检测出故障并进行主动告警,需要确定故障类型(机房侧故障、骨干网故障、单省份故障),以便于决定采取何种策略进行止损,并且需要确定故障影响范围(即哪些业务线受到影响了),没有受到影响的业务线的运维工程师不需要收到故障告警。同时,为了尽可能地缩短故障影响的时间,需要尽可能快地检测出故障。
4、支持不同视角的可视化展示
运维工程师通常情况下只关注与其服务相关的网络质量视图,而网络组工程师通常需要关注全局的网络质量视图,因此需要提供多种不同视角的网络质量视图,让运维工程师和网络组工程师都能够快速地获取到其关心的网络质量视图。
小结
本文从宏观上介绍了百度外网质量监控的意义、外网故障场景分类以及百度运维工程师对外网监控系统的需求。
【尊龙凯时网址的版权声明】:本站内容来自于与互联网(注明原创稿件除外),供访客免费学习需要。如文章或图像侵犯到您的权益,请及时告知,我们第一时间删除处理!谢谢!