关键词不能为空

当前您在: 主页 > 英语 >

hadoop—集群维护手册

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-28 13:28
tags:

-

2021年2月28日发(作者:larger)



Had


oop


部分< /p>



启动命令:



停止命令:



Hadoop


运行


< br>增加集群的存储量


/


节点



如果只增加集群的存储量,建议增加


Hadoop datanode


节点。




步骤:



1


、 停掉集群包括


Hadoop



hbas e


,当然也可以不停掉,直接在


hadoop namenod e


的配置文件


Slave


里添加


新节点的


host


,别忘了在


host


文件里也要添加新添加的


host

< p>
名。




2


、执行


bin/


启动集群




3


、以下选择一种



1)



2)



如果不手动作平衡,插入的数据将会放在新添加的节点上。以趋于平衡。




如果手动平衡,则




和调用


bin/sHadoop


balancer


命令相似,也可加参数



-threshold


5



threshold

< p>
是平衡阈值,默认是


10%


,值越低各节点越平衡 ,但消耗时间也更长)。



在使用



时,如果在



里面没有配置

< br>dthPerSec


,那么集群


hdfs





使



1M/S


< br>速







(so


slowly...)















dthPerSec


来加快


balance


的速度。



最开始我们配置的是


20m/S


,然 后结果是导致


job


运行变得不稳定,


出现一些意外的长


map


单元,


某些< /p>


reduce


时间处理变长


(

< p>
整个集群负载满满的情


况下,


外加


20m/s



balance)



在前天的中国


hadoop


年会上 听淘宝调整的为


10m/s



需要调整 后实验,


看看情况如何。



另外再修改


dthPerSec


参数后,需要在


n amenode


上运行




重启


hdfs


生效。我们可以通过

< br>


停掉平衡任务。作完平衡后,启动


hbase

< p>


正常。



< p>
cluster


设置的副本数不为


3


(默认),需要先运行命令


hadoop fs



setrep [-R]




进行设置一个文件的副本系数。如 果默认为


3


则不必。如果执行完平衡以后才改变副本数,会将新 加


入到新节点上的所有数据删除。



a tion


设置的副本系数只在文件系统写入时有效,并不影响


在 新添加节点时,平衡时的副本数;



另外:

由于还有


hbase


数据库,


因此 ,


在运行完平衡以后,



hbase< /p>


下的


.META.


文件删除


(防止出错)



启动


hba se


,执行


hbase add_table /


表名



来进行


hbase


表恢复;



Hadoop1


升级



1.


运行


dfsadmin -upgradeProgress status


检查是否存在备份



如果是第一次升级



就不存

< p>
在备份


(


在升级


Hado op


前,如果已经存在备份,需要先结束



finalize


它。


)


2.


备份



下文件


,


同时要备份下


hdfs

的文件目录的元数据信息


:


bin/hadoop fsck / -files -blocks -locations >


bin/hadoop dfs -lsr / >


bin/hadoop dfsadmin -report >



3.


停止所有节点



bin/


4.


在所有节点上重新部署


hadoop


并替换


conf


文件夹下所有文件


(


就是将原有的

< p>
hadoop-0.19.1


更名为


hadoop -0.19.1-oldverstion,


然后解压




0.19.2


中的


conf


文件替换为


0.19.1


中的


conf


文件夹


)

< br>并且要对照修改



中的路径指定是否正确

< br>


5.


使用



bin/ -upgrade


进行升级


(DFS


从一个版本升级到另外一个版本的时候,


NameN ode



DataNode


使用的文件 格式有可能会改变。当你第一次使用新版本的时候,你


要告诉


H adoop


去改变


HDFS


版本


,


否则,新版本不会生效


)



6.


监控升级情况和升级问题处理



开始升级,你可以通过



bin/hadoop dfsadmin -upgradeProgress


命令来查看版本升级的情况。



当然你可以使用



bin/hadoop dfsadmin -upgradeProgress details


来查看更多的详细信息。



当升级过程被阻塞的时候,你可以使用



bin/hadoop dfsadmin -upgradeProgress force


来强制升级继续执行


(


当 你使用这个命令的时候,一定要慎重考虑


)


< br>




HDFS


升级完毕后,


Hadoop


依旧保留着旧版本的有关 信息,



以便你可以方便的对


HDFS


进行降级操作。



可以使用


bin/ -rollback


来执行降级操作。



7.


对比现有


hdfs


的文件目录的 元数据信息和升级的差异。



8.


升级 完成


,Hadoop


一次只保存一个版本的备份


,


当新版本运行几天以后还是没有出现什么问


题,你就 可以使用运行一段时间后



没有问题再执行升级终结操作



bin/hadoop dfsadmin -finalizeUpgrade


命令把旧版本的备份从系统中删掉了。删除以后


rollback


命令就失效了。




Hdfs


Mapreduce


Hbase


部分



启动命令:



如果一个


regionserver


死掉了,可以执行该命令启动,也可以启动整个


hbase




停止命令:



停止

hbase


运行的命令


.



日常维护



1.



基本命令







建表:


create 'testtable','coulmn1','coulmn2'







也可以建表时加


coulmn


的属性如:< /p>


create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE',


REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION => 'LZO', TTL => '30000', IN_MEMORY


=>


'false',


BLOCKCACHE


=>


'false'},


{NAME


=>


'coulmn',


BLOOMFILTER


=>


'NONE',


REPLICATION_SCOPE => '0', VERSIONS => '30', COMPRESSION => 'LZO', TTL => '30000', IN_MEMORY


=> 'true'}



(


其中的属性有

versions


:设置历史版本数,


TTL


:过期时间,


COMPRESSION


:压缩方式, 当配



lzo


的情况

< br>)






删除表:


drop 'testtable'




(删除表之前先要禁用表,命令


disable 'testtable'








启用和禁用表:



enable 'testtable'



disable 'testtable'






其它的基本命令:


describe 'testtable'


(查看表结构),


alert


修改表结构,


list


列出所有表。



2.



维护命令







1



major_compact < /p>


'testtable'



< p>










major_compact(







ompaction





0)


,选择一个晚上用户少的时间窗口手工


major_compact


,如果


hbas e


更新不是太频繁,可以一个星期对所有表做一次


< p>
major_compact


,这个可以在做完一次


major_compact


后,


观看所有的


storefile


数量,如果


storefile< /p>


数量增加到



major_compac t


后的


storefile


的近二倍时 ,可以对所有


表做一次


major_compact

< p>
,时间比较长,操作尽量避免高锋期。







2



flush 'testtabl e'


,将所有


memstore


刷新到


hdfs


,通常如果发现


region server


的内存使用过大,造成该


机的


regionserver


很多线程

block


,可以执行一下


flush

操作,这个操作会造成


hbase



storefile


数量剧增,


应尽量避免这个操

< p>


作,


还有一种情况,



hbase


进行迁移的时候,


如果选择 拷贝文件方式,


可以先停写入,


然后


f lush


所有表,拷贝文件。







3



balance_switch


true


或者


balance_swi tch


flase


,配置


maste r


是否执行平衡各个


regionserver



region


数量,当我们需要维护或者重启一个< /p>


regionserver


时,会



关闭


balancer


,这样就使得


region



regionserver< /p>

-


-


-


-


-


-


-


-



本文更新与2021-02-28 13:28,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/681442.html

hadoop—集群维护手册的相关文章