做转运网站,搜狐自助建站哪个平台好用,长沙做旅游网站多少钱,广州建站服务商1、业务监控
这类指标是管理层非常关注的#xff0c;代表企业营收#xff0c;或者跟客户主流程相关#xff0c;类似 BI 数据。不过相比 BI 数据#xff0c;业务监控指标有两点不同。
对精确度要求没有那么高#xff1a;因为监控只要发现趋势异常就可以#xff0c;至于是…1、业务监控
这类指标是管理层非常关注的代表企业营收或者跟客户主流程相关类似 BI 数据。不过相比 BI 数据业务监控指标有两点不同。
对精确度要求没有那么高因为监控只要发现趋势异常就可以至于是从 5000 变成了 1000 还是变成了 1001没有什么区别。对实时性要求很高很多 BI 数据可能是小时级别或天级别的这个时效性无法满足监控的需求监控是希望越早发现问题越好要是一个小时才发现问题黄花菜都凉了。
技术人员应该针对这类指标做高优保障如果所有的指标都同等对待重要的告警就容易被普通告警淹没所以告警一定要分级对待。
在微服务和云原生技术盛行的当下某个机器的 CPU 飙高了或者 IO 打满了对最终用户的体验可能是没有任何影响的但是核心业务指标异常一定是故障因为这类指标异常代表着最终用户体验受损或者造成了直接资损。
2、应用监控
应用监控就是指对应用程序Application的监控Google 的四个黄金指标、RED 方法主要就是针对应用监控的。
每个公司都应该有统一的 APMApplication Performance Management也就是应用性能管理方案从指标着手的话一般使用埋点机制来做比如 StatsD、Prometheus SDK 等或者直接分析接入层日志从日志提取指标从链路追踪着手的话可以使用 Zipkin、SkyWalking 等。
像 Java 这种字节码技术的语言采用 JavaAgent 技术可以做到代码无侵入埋点。但是像 Go、C 这类语言一般都是采用埋点机制来做由统一的工具团队提供一些框架在框架里内置埋点逻辑这样普通研发人员也就基本不会有代码侵入的感觉了。
3、组件监控
把各类数据库、中间件、云平台统称为组件组件监控是非常考验知识广度的。一般监控系统的研发人员很难把每个组件的机理都搞清楚所以定义统一的接入数据规范让专业的人去采集各个组件的数据是更合理的做法。
有个好现象是很多组件的研发人员已经开始让组件自身直接支持 Prometheus 协议吐出 metrics 数据除了 etcd、Kubernetes 这些云原生时代的组件一些老的组件比如 RabbitMQ、ZooKeeper 等也在新版本里直接做了支持。
4、资源监控
基础资源的监控主要是针对设备和网络设备又分为服务器、网络设备网络监控又分为连通性监控、质量监控、流量监控。
5、设备监控
一提起设备监控你可能立马会想到 CPU、内存使用率监控除了这些之外如果我们想获取硬件模块的健康状况比如电源电压、风扇转速、主板环境温度等就需要走 IPMI 协议通过带外网络采集。
网络设备典型的就是交换机、防火墙一般是通过 SNMP 协议获取指标比如交换机各个网口的流量、包量。也可以通过 syslog 的方式把交换机的日志转存出来到服务器上分析。
6、网络监控
网络连通性监控最为常见通过 ICMP 协议部署探针机器对目标设备做 PING 探测能探通就表示能连通探测失败就是连不通。当然有些机器可能是禁 PING 的此时就需要用 TCP 或 HTTP 之类的协议去探测了。
PING 探测可以拿到丢包率和延迟数据我们可以用这些数据分析网络质量。比如两个机房之间的专线我们用 A 机房的探针去探测 B 机房的目的设备就能轻易知道机房之间的网络质量情况。
最后是流量监控也会用在多个地方比如机器的网卡流量、交换机的网口流量、机房出口流量也是整个监控体系的重要一环。 此文章为8月Day2学习笔记内容来源于极客时间《运维监控系统实战笔记》推荐该课程。