-
1
Hbase
日常运维
1.1
监控
Hbase
运行状况
1.1.1
操作系统
1.1.1.1
IO
a.
群集
网络
IO
,磁盘
IO
< br>,
HDFS IO
IO
越大说
明文件读写操作越多。当
IO
突然增加时,有可能:
t
队列较大,集群正在进行大量压缩操作。
p>
2.
正在执行
mapreduce
作业
可以通过
CDH
前台查看整个集群综合的数据或进入指定机
器的前台查看单台机
器的数据:
b.
Io wait
磁盘
IO
对集群的影响比较大,如果
io wait
时间过长需检查系
统或磁盘是否有异常
。
通常
IO
增加时
io wait
也会增加,
现在
F
MS
的机器正常情况
io wait
在
50ms
以下
跟主机相关的指标可以在
CDH
前台左上角先点“主机”选项
卡然后选要查看的主机:
1.1.1.2
CPU
如果
C
PU
占用过高有可能是异常情况引起集群资源消耗,可
以通过其
他指标和日志来查看集群正在做什么。
1.1.1.3
内存
1.1.2
GC
情况
regionserver
长时间
GC
会影响集群性能并且有可能会造成假死
JAVA
的情况
1.1.3
重要的
< br>hbase
指标
1.1.3.1
region
情况
需要检查
1.
region
< br>的数量(总数和每台
regionserver
上的
p>
region
数)
2.
region
的大小
如果发现异常可以通过手动
merge region
和手动分配
region
来
调整
从
CDH
< br>前台和
master
前台以及
r
egionServer
的前台都可以看到
region
数量,如
master
前台:
在
region ser
ver
前台可以看到
storeFile
大小:
1.1.3.2
缓存命中率
缓存命中率对
hbase
的读有很大的影响,可以观察这个指标来调
整
blockcache
的大小。
从
regionserver
web
页面可以看到
block
cache
的情况:
1.1.3.3
读写请求数
通过读写请求数可以大概
看出每台
regionServer
的压力,如
果压力分布不均匀,应该检查
regionServer
上的
region
以及其
它指标
p>
master web
上可以看到所以<
/p>
regionServer
的读写请求数
regionServer
上可以看
到每个
region
的读写请求数
1.1.3.4
压缩队列
压缩队列存放的是正在压缩
的
storefile
,
compac
t
操作对
hbase
的读写影响较大<
/p>
通过
cdh
的
hbase
图表库可以看到集群总的压缩队列大小:
可以通过
CDH
p>
的
hbase
主页查询
compact
日志:
点击“压缩”进入:
1.1.3.5
刷新队列
单个
region
的
memstore
写
满
(128M)
或
regionSer
ver
上所有
region
的
memstore
大小总合达到门限时会进行
f
lush
操作
,flush
操作会产生
新的
storeFile
同样可以通过
CDH
的
hbase
前台查看
flush
日志:
1.1.3.6
rpc
调用队列
没有及时处理的
rpc
操作会放入
rpc
操作队列,
从
rpc
队列可
以看出服务器处理请求的情况
1.1.3.7
文件块保存在本地的百分比
data
node
和
regionserver
一般都部署在同一台机器上,所以
region server
管理的
region
会优先存储在本地,以节省网络开
销。
如果
block
locality
较低有可能是刚做过
balance
或刚重启,
经过
compact
之后
region
的数据都会写到当前机器的
datanode
,
block locali
ty
也会慢慢达到接近
100
:
1.1.3.8
内存使用情况
内存使用情况
,
主要可以看
used
Heap
和
memstore
的大小
,如
果
usedHeadp
一直超过<
/p>
80-85%
以上是比较危险的
memstore
很小或很大也不正常
从
region
Server
的前台可以看到:
1.1.3.9
slowHLogAppendCount
写
HLog
过慢(
>1s
)的操
作次数,这个指标可以作为
HDFS
状
态好坏的判断
在
region
Server
前台查看:
1.1.4
CDH
检查日志
CDH
有强大的系统事件和日志搜索功能,每一个服务
(<
/p>
如:
hadoop,hbase)
的主页
都提供了事件和告警的查询,
日常运维除了
CDH
主页的告警外,需要查看这些事件以发现潜在的问题:
选择“事件搜索”中的标签(“警报”、“严重”)可以进入
相
关的事件日志,如“严重”:
-
-
-
-
-
-
-
-
-
上一篇:最新感动的英语口语怎么说
下一篇:比亚迪图册图解,发动机