加入收藏 | 设为首页 | 会员中心 | 我要投稿 南平站长网 (https://www.0599zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

发布时间:2019-05-17 02:36:28 所属栏目:教程 来源:中国联通大数据
导读:副标题#e# 如果你是一个经验丰富的运维开发人员,那么你一定知道ganglia、nagios、zabbix、elasticsearch、grafana等组件。这些开源组件都有着深厚的发展背景及功能价值,但需要合理搭配选择,如何配比资源从而达到性能的最优,这里就体现了运维人的深厚功

平台监控项种类繁多,有hdfs、yarn、zookeeper、kafka、storm、spark、hbase等平台服务。每个服务下有多种角色类别,如hdfs服务中包括Namenode、Datenode、Failover Controller、JournalNode 。每个角色类别下又有多个实例。如此产生的监控指标实例达几十万个。目前联通大数据使用的CDH版本大数据平台,基础监控指标全面多样。根据现状,平台层面我们主要配置比较关键的一些监控项。

  • 集群yarn队列资源占用多维画像:帮助平台管理人员合理评估个队列资源使用情况,快速做出适当调整。

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

  • zeeplin操作日志:zeepline并没有相关的可视化审计日志,通过实时的获取zeeplin操作日志来展现zeeplin操作,方便运维人员审计。

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

  • hdfs各目录文件数及存储多维画像:实时统计各业务用户的数据目录存储,便于分析hdfs存储增量过大的目录。

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

  • 集群namenode RPC 实时多维画像:当hadoop集群节点数达到千台左右时,集群业务对于yarn队列资源使用达到百分之八十以上,且集群写多读少,很容易造成namenode-rpc等待队列深度过大,造成namenode-rpc延迟,这将会严重影响集群整体业务的运行。半小时能跑完的任务,可能会跑数个小时。根本原因还是集群承载业务数量过多,并且业务逻辑设计不合理,造成yarn任务执行过程频繁操作hdfs文件系统,产生了大量的rpc操作。更底层的,每个dn节点的磁盘负载也会过高,造成数据读写io超时。

(编辑:南平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读