加入收藏 | 设为首页 | 会员中心 | 我要投稿 南平站长网 (https://www.0599zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

发布时间:2019-05-17 02:36:28 所属栏目:教程 来源:中国联通大数据
导读:副标题#e# 如果你是一个经验丰富的运维开发人员,那么你一定知道ganglia、nagios、zabbix、elasticsearch、grafana等组件。这些开源组件都有着深厚的发展背景及功能价值,但需要合理搭配选择,如何配比资源从而达到性能的最优,这里就体现了运维人的深厚功

通过提取namenode日志、hdfs审计日志,多维度分析,可通过hdfs目录和hdfs操作类型两个方面确认rpc操作过多的业务。并且根据具体是哪种类型的操作过多,来分析业务逻辑是否合理来进行业务优化。例如有某大数据业务的逻辑是每秒往hdfs目录写入上千个文件,并且每秒遍历下hdfs目录。但触发加工是十分钟触发一次,因此该业务产生了大量的rpc操作,严重影响到集群性能,后调优至5分钟遍历次hdfs目录,集群性能得到极大优化。

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

(3) 日常生产监控项

生产报表:由于联通大数据平台承载业务体量很大,通过后台查询繁琐,而通过可视化展示能方便生产运维人员快速了解日生产情况,定位生产延迟原因。

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解

结语:关于平台监控的内容在本文中就先介绍到这里,在下一篇中,笔者将针对平台告警做出经验分享,介绍如何建立统一采集模板、告警各集群的全量监控指标、进行分组告警并自动化恢复等内容。

【本文是51CTO专栏机构中国联通大数据的原创文章,微信公众号“中国联通大数据( id: unibigdata)”】

戳这里,看该作者更多好文

(编辑:南平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读