安顺网站设计,企业网站建设哪家服务好,wordpress php开发手册,wordpress百度云下载文件戳蓝字“CSDN云计算”关注我们哦#xff01;原文#xff1a;https://mp.weixin.qq.com/s/qAkoG-Hut9Tfd9tOFRwafg提到服务器宕机检测#xff0c;大家会想到#xff0c;宕机能够很快知道#xff0c;这个有什么可做的?实际上#xff0c;很多时候服务器宕机#xff0c;并不… 戳蓝字“CSDN云计算”关注我们哦原文https://mp.weixin.qq.com/s/qAkoG-Hut9Tfd9tOFRwafg提到服务器宕机检测大家会想到宕机能够很快知道这个有什么可做的?实际上很多时候服务器宕机并不总是被及时感知。服务器宕机ping或者ssh这是最简单的做法但真正的工程实践没这么简单。想要获知服务器宕机怎么办?可以通过服务器宕机实时检测1)发现宕机。2)提前告警。3)告知宕机的详细原因如硬件故障内核bug网络异常等等。4)自动报修生成工单。我们知道进行全网物理机宕机准确探测与实时发现可以给宕机分析提供第一现场获取第一现场的日志。也可以尽早将宕机数据推送给业务或运营感知并处理如自动报修业务迁移等从而尽可能将业务影响降到最低。更重要的是准确的宕机发现数据可以为宕机预测提供准确的标注数据为后期宕机预测提供数据基础并且这些数据提供给运营部门进行整体分析提升处理效率。那么如何可以准确发现宕机减少误报呢?我们可以有以下操作比如心跳源检测异常顾名思义通过心跳源初步发现异常。通常心跳变化会有三类消息update消息delete消息和insert消息。心跳逻辑在于正常情况下SA服务端与NC建立长连接每数秒缓存一次心跳每几分钟打包上报一次但当NC异常时长连接感知后立即上报异常并修改路由表。所以心跳异常做到秒级感知。update消息在有心跳发生变化情况下都会有心跳异常和心跳恢复正常时都会发起是主要的心跳来源。delete消息在心跳异常并且SA判断ping不通且ssh不通情况下发起删除该条消息避免延迟太长。insert消息在新增加机器 或者重装后重新上位的机器发起该消息对宕机发现价值不大配合uptime使用。心跳源检测任务逻辑主要是监听并缓存uptime消息同时避免时间窗内多次消息冲突导致信息被覆盖。异常排除排除非物理机器将系统中暂时不关注的VM等产生的异常信息排除掉。排除非业务状态的机器如装机状态中的包括生产中维修中迁移中重装中销毁中重启中无管控状态只监控正常状态的机器。排除非正在工作的机器如非working状态机器。网络干扰排除宕机分析中较多误报是由于网络问题干扰无法准确判断出物理机是否宕机有可能是网络问题。排除上联网络设备异常导致的误报包括机房断网演练小面积网络故障上联网络故障如通过探测丢包情况使用一些逻辑初步判断网络问题。服务器本身未丢包的误报除了需要过滤出网络问题还要通过丢包数据分析过滤掉SA误报问题 SA异常会上报心跳异常被误理解为宕机。 icmp及tcp丢包分析icmp采集频率为固定数秒tcp采集频率固定数秒包括多个不同大小包(163264128256等)的丢包情况根据分析时间窗内两项数据的丢包情况特殊情况干扰排除个别机房有时候会出现大面积风暴式的无故心跳异常同时网络ping包异常但上联网络设备ping包正常这种误报一般根据具体case具体进行针对性的分析。如根据监控每个机房的上报频率排除干扰。进一步识别误报至此大部分干扰已经过滤掉但仍有一部分误报隐藏其中。比如心跳异常ping异常都合乎宕机判断的逻辑会导致误判成宕机如导致网卡被打爆或者重试率高这种是业务原因导致网络异常但业务认为不是异常需要排除掉。再例如服务器并没有挂掉但是IO延时和资源占用率各项指标都不正常等场景。针对以上等情况增加uptime判断以及带外日志分析排查。宕机时间点探测uptime确定是否发生重启。进一步通过分析日志是否连续判断是否发生重启。日志重启特征值匹配确认是否发生重启。如果还不能确定使用uptime的时间窗技术进行重启。仍不能确定的待处理进入长尾处理名单。长尾再次处理未确认的待处理的会加入到长尾列表中像这种分钟级的心跳异常ping异常但串口日志一直正常输出的情况一般就是某种死机死到连网络都不通的场景。会观察一段时间一个固定时间窗内仍未恢复或重启的话就暂时报宕机。后期会把这种死机单独找划分归类。讲了这么多到底效果怎么样?我们从准确率和覆盖率来看准确率目前发现的宕机中有很高准确度可以区分出真正宕机或者未宕机。而判断为宕机的数据中也存在少量的由于缺少相关信息导致误报该部分将进一步优化逐渐降低误报在新的措施之后该比例会接近0。覆盖率当前统计的覆盖率已经能很好的支撑日常宕机处理该数据在有足够的特征后会进一步提升。目前宕机感知是宕机分析的基础通过服务器宕机实时检测会把相应的宕机原因分布整理出来明确具体的原因达成服务器极致可靠性。推荐阅读Gartner的预言通向混合IT之旅崩溃新浪程序员加班错失 77 万年会大奖刚刚华为又被美国盯上了阿里“菜鸟”AI以太坊升级的拖油瓶竟只是这几行代码程序员有话说 | 程序猿在乘地铁的时候都在想什么?清华北大“世界排名断崖式下跌”1.微信群添加小编微信color_ld备注“进群姓名公司职位”即可加入【云计算学习交流群】和志同道合的朋友们共同打卡学习2.征稿投稿邮箱liudancsdn.net微信号color_ld。请备注投稿姓名公司职位。喜欢就点击“好看”吧