网易视频云HBase RegionServer宕机案件侦查_高中生题库网|高考真题|高考试题-「密云二中」

网易视频云HBase RegionServer宕机案件侦查

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-17 11:23

tags:

-

2021年2月17日发(作者：推崇)

网易视频云

:HB aseRegionServer

宕机案件侦查

今天网易视频云技术专家给大家分享一下

HBase

–

RegionServer

宕机案件侦查，欢迎参与

讨论。

本来静谧的晚上，

吃着葡萄干看着球赛，

何等惬意。

可偏偏一条报警短信如闪电一般打

破了夜晚的宁静，线上集群一台

宕了！于是倏地从床上坐起来，看了看监控，瞬间惊呆

了：单台机器的读写吞吐量竟然达到了

5w ops/sec

！

宕机是因为这么大的写入量造成

的？如果真是这样，

它是怎么造成的？如果不是这样，

那又是什么原因？各种疑问瞬间从脑

子里一一闪过，甭管那么多，先把日志备份一份，再把

拉起来。接下来还是

Bug

排查

老套路：日志、监控和源码三管齐下，来看看到底发生了什么！

案件现场篇

下图是使用监控工具

Ganglia

对事发

RegionServer

当时读写吞吐量的监控曲线，

从图

中可以看出，大约在

点

~21

点半的时间段内，这台

的吞吐量都维持了

3w ops/sec

左右，峰值更是达到了

6w ops/sec< /p>

。之前我们就线上单台

能够承受的最大读写吞吐量

进行过测定，基本也就维持在

左右，主要是因为网络带宽瓶颈。而在宕机前这台

的

读写吞吐量超出这么多，直觉告诉我

宕机原因就是它！

接着就赶紧把日志拉出来看，满屏的

responseTooSlow

，如下图所示：

很显然，这种异常最大可能原因就是

Full GC

< p>
，果然，经过耐心地排查，可以看到很多

如下所示的

Full GC

日志片段：

2016-04-14 21:27:13,174 WARN [JvmPauseMonitor] seMonitor:

Detected pause in JVM or host machine (eg GC): pause of approximately 20542ms

GC pool 'ParNew' had collection(s): count=1 time=0ms

GC pool 'ConcurrentMarkSweep' had collection(s): count=2 time=20898ms

2016-04-14 21:27:13,174 WARN [icFlusher]

r: We slept 20936ms instead of 100ms, this is likely due to a long

garbage collecting pause and it's usually bad, see

/#red

可以看出，

HBase

执行了一次

CMS GC

，导致整个进程所有线程被挂起了

20s

。通过

对

MemStore

的监控也可以看出这段时间

GC

力度之大，如下图所示：

GC

时间长最明显的危害是会造成上层业务的阻塞，通过日志也可以看出些许端倪：

ption: Connection reset by peer

at 0(Native Method)

(:39)

toNativeBuffer(:223)

(:197)

(:384)

at lRead(:2246)

at

ver$$dProcess(

va:1496)

....

2016-04-14 21:32:40,173 WARN

[r=125,queue=5,port=60020] ver:

dercallId: 7540 service: ClientServicemethodName: Multi size:

100.2 K connection: 10.160.247.139:56031: output error

2016-04-14 21:32:40,173 WARN

[r=125,queue=5,port=60020] ver:

r=125,queue=5,port=60020: caught a

ClosedChannelException, this means that the server was processing a request but

the client went away. The error message was: null

上述日志表示

HBase

服务端因为

Full G C

导致一直无法响应用户请求，用户客户端程

序在一定时间过后就会

SocketTimeout

并断掉此
Connection

。连接断掉之后，服务器端

就会打印如上日志。

然而，

这些和我们的终极目标好像并没有太大关系，

别忘了我们的目标

是找到

RS

宕机的原因哦！

破案铺垫篇

经过对案件现场的排查，唯一有用的线索就是

HBase

在宕机前经历了很严重、很频繁

的

Full GC

，从下面日志可以进一步看出，这些

Full GC

都是在

concurrent mode failure

模式下发生的，也就是虚拟机还未执行完本次

GC

的情况下又来了大量数据导致

JVM

内存

不够，此时虚拟机会将所有用户线程挂起，执行长时间的

Full GC

！

(concurrent mode failure): 45876255K->21800674K(46137344K), 10.0625300

secs] 48792749K->21800674K(49283072K), [CMS Perm :

43274K->43274K(262144K)], 10.2083040 secs] [Times: user=12.02 sys=0.00,

real=10.20 secs]

2016-04-14 21:22:43,990 WARN [JvmPauseMonitor] seMonitor:

Detected pause in JVM or host machine (eg GC): pause of approximately 10055ms

GC pool 'ParNew' had collection(s): count=2 time=244ms

GC pool 'ConcurrentMarkSweep' had collection(s): count=1 time=10062ms

上文提到

Full GC

会对上层业务产生很严重的影响，

那有没有可能会对下层依赖方也产

生很大的影响呢？事实是

Yes

！而且，

RS< /p>

宕机的大部分原因也要归咎于此！

进一步查看日志，发现

HBase< /p>

日志中出现下述异常：

2016-04-14 21:22:44,006 WARN [ResponseProcessor for block

BP-63 2656502-10.160.173.93-42:blk_1073941840_201226]

ent: DFSOutputStreamResponseProcessor exception for block

BP-632656502-10.160 .173.93-42:blk_1073941840_

ception: Bad response ERROR for block

BP-632656502-1 0.160.173.93-42:blk_1073941840_201226 from

datanode 10.160.173.93:50010

-

-

-

-

-

-

-

-

本文更新与2021-02-17 11:23，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/661768.html

返回列表：英语

上一篇：叠字成语
下一篇：如何使用QT播放视频

当前您在：主页 > 英语 >

网易视频云HBase RegionServer宕机案件侦查

-

-

-

-

-

-

-

-

-

返回列表：英语

网易视频云HBase RegionServer宕机案件侦查的相关文章

余华爱情经典语录,余华爱情句子

心情低落的图片压抑,心情低落的图片发朋友圈

经典古训100句图片大全,古训名言警句

关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

三国群英单机版手游礼包码,三国群英手机单机版攻略

不收费的情感挽回专家电话,情感挽回免费咨询

新婚贺语怎么说祝福语,新

适合小学生包容的句子经

开启美好一天的句子,开启

林徽因传,林徽因传主要内

结婚祝福语句句暖心,结婚

正能量的句子经典简短1

沈从文语录经典语录关于

史铁生的简介和作品,史铁

打动人心的爱情句子:我的

平凡的生活.简单的幸福的

母爱的最经典金句,母亲的

相守一生不离不弃的句子

余华的作品值得初中生看

奇妙萌可珍珠公主变好,彩

喝酒后的心情经典句子,适

努力挣钱的霸气图片,努力

有深度有涵养的句子精选

高情商女人分手说的话,高

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

网易视频云HBase RegionServer宕机案件侦查的相关文章

当前您在：主页 > 英语 >