关键词不能为空

当前您在: 主页 > 英语 >

linux下的RAC故障处理

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-01-30 02:25
tags:

-

2021年1月30日发(作者:杂集)


oracle_Grid



Infrastructure



启动的五大问题




(2013-03-31 11:14:50)







标签:





rac





oracle





it



n this Document




Purpose




Scope




Details








问题



1


:< /p>


CRS-4639



无法连接

< p>


Oracle


高可用性服务,



未运行或




虽在运行但无





其他进程



问题



2


:< /p>


CRS-4530


:联系集群同步服务守护进程时出现通信故障,



未运行



问题



3


:< /p>


CRS-4535


:无法与集群就绪服务通信,

< br>


未运行



问题



4



Agent


或者



, ,


未运行



问题



5



ASM


实例未启动,



不在线




References




Applies to:


Oracle Database - Enterprise Edition - Version 11.2.0.1 and later


Information in this document applies to any platform.



Purpose


本文档的目的是总结可能阻止



Grid Infrastructure (GI)


成功启动的



5


大问题。



Scope


本文档仅适用于



11gR2 Grid Infrastructure





要确定



GI


的状态,请运行以下命令:



1. $$GRID_HOME/bin/crsctl check crs


2. $$GRID_HOME/bin/crsctl stat res -t -init


3. $$GRID_HOME/bin/crsctl stat res -t


4. ps -ef | egrep 'init|'


Details


问题



1



CRS-4639


:无 法连接



Oracle


高可用性服务,



未运行或




虽在运行但无




或其他进程



症状:



1.


命令


“$$GRID_HOME/bin/crsctl check crs”


返回错误:



CRS-4639: Could not contact Oracle High Availability Services


2.


命令


“ps


-


ef | grep init”


不显示类似于如下所示的行:



root 4878 1 0 Sep12 ? 00:00:02 /bin/sh /etc/init.d/ run


3.


命令


“ps


-


ef | grep ”


不显示类似于如下所示的行:



root 21350 1 6 22:24 ? 00:00:01 /u01/app/11.2.0/grid/bin/ reboot



或者它只显示




进程而没有其他进程




可能的原因:



1.


文件


“/etc/initta b”


并不包含行



h1:35:respawn:/etc/init.d/ run >/dev/null 2>&1 2.


未达到运行级别



3


,一些



rc3


脚本挂起



3. Init


进程



(pid 1)


并未衍生



/etc/inittab (h1)


中定义的进程,或




之前的不当输入,如



xx:wait:


阻碍了




的启动



4. CRS


自动启动已禁用



5. Oracle


本地注册表



($$GRID_HOME/cdata/.olr)


丢失或损坏




解决方案:



1.


将以下行添加至



/etc/inittab


h1:35:respawn:/etc/init.d/ run >/dev/null 2>&1



并以



root


用户身份运行


“init q”




2.


运行命令


“ps


-


ef | grep rc”


,并< /p>


kill


看起来受阻的所有



rc3


脚本。



3.


删除




前的不当输入。如果


“init q”


未衍生


“ run”


进程,请咨询



OS


供应商



4.


启用



CRS


自动启动:



# crsctl enable crs


# crsctl start crs


5.




root


用户身份从备份中恢复



OLR



Oracle


本地注册表):



# touch $$GRID_HOME/cdata/.olr


# chown root:oinstall $$GRID_HOME/cdata/.olr


# ocrconfig -local -restore$$GRID_HOME/cdata//backup__.olr


# crsctl start crs



如果出于某种原因,


OLR


备份不存在,要重建



OLR


就需要以



root


用户身份执行



deconfig


并重新运行






# $$GRID_HOME/crs/install/ -deconfig -force


# $$GRID_HOME/



问题



2


:< /p>


CRS-4530


:联系集群同步服务守护进程时出现通信故障,



未运行



症状:



1.


命令


“$$GRID_HOME/bin/crsctl check crs”


返回错误:



CRS-4638: Oracle High Availability Services is online


CRS-4535: Cannot communicate with Cluster Ready Services


CRS-4530: Communications failure contacting Cluster Synchronization Services daemon


CRS-4534: Cannot communicate with Event Manager


2.


命令


“ps


-


ef | grep ”


不显示类似于如下所示的行:



oragrid 21543 1 1 22:24 ? 00:00:01 /u01/app/11.2.0/grid/bin/


3.


正在运行,但在



< br>中显示消息


“CLSGPNP_CALL_AGAIN”


后又中止运行



4.


显示如下内容:



2012-01-27 13:42:58.796: [ CSSD][19]clssnmvDHBValidateNCopy: node 1, racnode1, has a disk HB, but no


network HB, DHB has rcfg 223132864, wrtcnt, 1112, LATS 783238209,


lastSeqNo 1111, uniqueness 1327692232, timestamp 1327693378/787089065


5.


对于



3


个或更多节点的情况,


2


个节点形成 的集群一切正常,


但是,


当第



3


个节点加入时就出现故障,




示如下内容:



2012-02-09 11:33:53.048: [ CSSD][1120926016](:CSSNM00008:)clssnmCheckDskInfo: Aborting local node to


avoid splitbrain. Cohort of 2 nodes with leader 2, racnode2, is smaller than


cohort of 2 nodes led by node 1, racnode1, based on map type 2


2012-02-09 11:33:53.048: [ CS SD][1120926016]###################################


2012-02-09 11:33:53.048: [ CSSD][1120926016]clssscExit: CSSD aborting from thread clssnmRcfgMgrThread


6. 10


分钟后




启动超时



2012-04-08 12:04:33.153: [


CSSD][1]clssscmain: Starting CSS daemon, version 11.2.0.3.0, in (clustered) mode


with uniqueness value 1333911873


......


2012-04-08 12:14:31.994: [


CSSD][5]clssgmShutDown: Received abortive shutdown request from client.


2012-04-08 12:14:31.994: [


CSSD][5]###################################


2012-04-08 12:14:31.994: [


CSSD][5]clssscExit: CSSD aborting from thread GMClientListener


2012-04-08 12:14:31.994: [


CSSD][5]###################################


2012-04-08 12:14:31.994: [


CSSD][5](:CSSSC00012:)clssscExit: A fatal error occurred and the CSS daemon is


terminating abnormally



可能的原因:



1.


表决磁盘丢失或无法访问



2.


多播未正常工作(对于



11.2.0.2


及以上版本)



3.


私网未工作,


ping




traceroute


显示无法访问目标。或虽然



ping/traceroute


正常工作,但是在私网中启用了防火




4.


使用正常



ping


命令可对私网进行



ping


操作,


但启用巨帧时



MTU



9000 +




不能使用巨帧尺寸


(如:


ping -s 8900



进行



ping


操作。或部分集群节点设置了巨帧(


MTU



9000


),但问题 节点未设置巨帧(


MTU



1500< /p>




5. gpnpd


未出现,卡在



dispatch


线程中,



Bug 10105195



6.


通过



asm_diskstring


发现的磁盘太多,或由于



Bug 13454354


导致扫描太慢(仅在



Solaris 11.2.0.3


上出现)




解决方案:



1.


通过检查存储存取性、磁盘权限等恢复表决磁盘存取。




如果



OCR ASM


磁盘组中的



voting disk


已经丢失,以独占模式启动



CRS


,并重建表决磁盘:



# crsctl start crs -excl


# crsctl replace votedisk <+OCRVOTE diskgroup>


2.


请参考



Document 1212703.1



,了解多播功能的测试及修正



3.


咨询网络管理员,恢复私网访问或禁用私网防火墙(对于



Linux


,请检查服务



iptables


状态和服务



ip6tables


状态)



4.


如果巨帧在网卡中启用,则联系网络管理员在交换机层也启用。



5.


终止正常运行节点上的




进程,请参考



Document 10105195.8




一旦以上问题得以解决,请重新启动



Grid Infrastructure





如果



ping/traceroute


对私网均可用,但是问题发生在从



11.2.0.1




11.2.0.2


升级过程中,请检查




Bug 13416559



获取解决方法。


-


-


-


-


-


-


-


-



本文更新与2021-01-30 02:25,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/588807.html

linux下的RAC故障处理的相关文章