-
oracle_Grid
Infrastructure
启动的五大问题
(2013-03-31 11:14:50)
转
载
▼
标签:
rac
oracle
it
n
this Document
Purpose
Scope
Details
问题
1
:<
/p>
CRS-4639
:
无法连接
Oracle
高可用性服务,
未运行或
虽在运行但无
或
其他进程
问题
2
:<
/p>
CRS-4530
:联系集群同步服务守护进程时出现通信故障,
未运行
问题
3
:<
/p>
CRS-4535
:无法与集群就绪服务通信,
< br>
未运行
问题
4
:
Agent
或者
, ,
未运行
问题
5
:
ASM
实例未启动,
不在线
References
Applies to:
Oracle Database
- Enterprise Edition - Version 11.2.0.1 and later
Information in this document applies to
any platform.
Purpose
本文档的目的是总结可能阻止
Grid Infrastructure (GI)
成功启动的
5
大问题。
Scope
本文档仅适用于
11gR2
Grid Infrastructure
。
要确定
GI
的状态,请运行以下命令:
1. $$GRID_HOME/bin/crsctl check crs
2. $$GRID_HOME/bin/crsctl stat res -t
-init
3. $$GRID_HOME/bin/crsctl stat res
-t
4. ps -ef | egrep 'init|'
Details
问题
1
:
CRS-4639
:无
法连接
Oracle
高可用性服务,
未运行或
虽在运行但无
或其他进程
症状:
1.
命令
“$$GRID_HOME/bin/crsctl
check crs”
返回错误:
CRS-4639: Could not contact Oracle High
Availability Services
2.
命令
“ps
-
ef | grep
init”
不显示类似于如下所示的行:
root 4878 1 0 Sep12 ? 00:00:02
/bin/sh /etc/init.d/ run
3.
命令
“ps
-
ef | grep
”
不显示类似于如下所示的行:
root 21350 1 6 22:24 ? 00:00:01
/u01/app/11.2.0/grid/bin/ reboot
或者它只显示
进程而没有其他进程
可能的原因:
1.
文件
“/etc/initta
b”
并不包含行
h1:35:respawn:/etc/init.d/ run >/dev/null 2>&1 2.
未达到运行级别
3
,一些
rc3
脚本挂起
3. Init
进程
(pid 1)
并未衍生
/etc/inittab (h1)
中定义的进程,或
之前的不当输入,如
xx:wait:
阻碍了
的启动
4. CRS
自动启动已禁用
5. Oracle
本地注册表
($$GRID_HOME/cdata/.olr)
丢失或损坏
解决方案:
1.
将以下行添加至
/etc/inittab
h1:35:respawn:/etc/init.d/ run >/dev/null 2>&1
并以
root
用户身份运行
“init
q”
。
2.
运行命令
“ps
-
ef | grep rc”
,并<
/p>
kill
看起来受阻的所有
rc3
脚本。
3.
删除
前的不当输入。如果
“init
q”
未衍生
“
run”
进程,请咨询
OS
供应商
4.
启用
CRS
自动启动:
# crsctl
enable crs
# crsctl start crs
5.
以
root
用户身份从备份中恢复
OLR
(
Oracle
本地注册表):
#
touch $$GRID_HOME/cdata/.olr
# chown
root:oinstall $$GRID_HOME/cdata/.olr
#
ocrconfig -local
-restore$$GRID_HOME/cdata//backup__.olr
# crsctl start crs
如果出于某种原因,
OLR
备份不存在,要重建
OLR
就需要以
root
用户身份执行
deconfig
并重新运行
:
#
$$GRID_HOME/crs/install/ -deconfig -force
# $$GRID_HOME/
问题
2
:<
/p>
CRS-4530
:联系集群同步服务守护进程时出现通信故障,
未运行
症状:
1.
命令
“$$GRID_HOME/bin/crsctl
check crs”
返回错误:
CRS-4638: Oracle High Availability Services is
online
CRS-4535: Cannot communicate
with Cluster Ready Services
CRS-4530: Communications failure contacting
Cluster Synchronization Services daemon
CRS-4534: Cannot communicate with
Event Manager
2.
命令
“ps
-
ef | grep
”
不显示类似于如下所示的行:
oragrid 21543 1 1 22:24 ? 00:00:01
/u01/app/11.2.0/grid/bin/
3.
正在运行,但在
< br>中显示消息
“CLSGPNP_CALL_AGAIN”
后又中止运行
4.
显示如下内容:
2012-01-27 13:42:58.796: [
CSSD][19]clssnmvDHBValidateNCopy: node 1,
racnode1, has a disk HB, but no
network
HB, DHB has rcfg 223132864, wrtcnt, 1112, LATS
783238209,
lastSeqNo 1111,
uniqueness 1327692232, timestamp
1327693378/787089065
5.
对于
3
个或更多节点的情况,
2
个节点形成
的集群一切正常,
但是,
当第
3
个节点加入时就出现故障,
显
示如下内容:
2012-02-09 11:33:53.048: [
CSSD][1120926016](:CSSNM00008:)clssnmCheckDskInfo:
Aborting local node to
avoid
splitbrain. Cohort of 2 nodes with leader 2,
racnode2, is smaller than
cohort
of 2 nodes led by node 1, racnode1, based on map
type 2
2012-02-09 11:33:53.048: [ CS
SD][1120926016]###################################
2012-02-09 11:33:53.048: [
CSSD][1120926016]clssscExit: CSSD aborting from
thread clssnmRcfgMgrThread
6. 10
分钟后
启动超时
2012-04-08 12:04:33.153: [
CSSD][1]clssscmain: Starting CSS daemon, version
11.2.0.3.0, in (clustered) mode
with
uniqueness value 1333911873
......
2012-04-08 12:14:31.994: [
CSSD][5]clssgmShutDown: Received
abortive shutdown request from client.
2012-04-08 12:14:31.994: [
CSSD][5]###################################
2012-04-08 12:14:31.994: [
CSSD][5]clssscExit: CSSD aborting
from thread GMClientListener
2012-04-08 12:14:31.994: [
CSSD][5]###################################
2012-04-08 12:14:31.994: [
CSSD][5](:CSSSC00012:)clssscExit: A
fatal error occurred and the CSS daemon is
terminating abnormally
可能的原因:
1.
表决磁盘丢失或无法访问
2.
多播未正常工作(对于
11.2.0.2
及以上版本)
3.
私网未工作,
ping
或
traceroute
显示无法访问目标。或虽然
ping/traceroute
正常工作,但是在私网中启用了防火
墙
4.
使用正常
ping
命令可对私网进行
ping
操作,
但启用巨帧时
(
MTU
:
9000
+
)
,
不能使用巨帧尺寸
(如:
ping -s 8900
)
进行
ping
操作。或部分集群节点设置了巨帧(
MTU
:
9000
),但问题
节点未设置巨帧(
MTU
:
1500<
/p>
)
5. gpnpd
未出现,卡在
dispatch
线程中,
Bug
10105195
6.
通过
asm_diskstring
发现的磁盘太多,或由于
Bug
13454354
导致扫描太慢(仅在
Solaris 11.2.0.3
上出现)
解决方案:
1.
通过检查存储存取性、磁盘权限等恢复表决磁盘存取。
如果
OCR ASM
磁盘组中的
voting
disk
已经丢失,以独占模式启动
CRS
,并重建表决磁盘:
# crsctl start crs -excl
# crsctl replace votedisk <+OCRVOTE diskgroup>
2.
请参考
Document 1212703.1
,了解多播功能的测试及修正
3.
咨询网络管理员,恢复私网访问或禁用私网防火墙(对于
Linux
,请检查服务
iptables
状态和服务
ip6tables
状态)
4.
如果巨帧在网卡中启用,则联系网络管理员在交换机层也启用。
5.
终止正常运行节点上的
进程,请参考
Document 10105195.8
一旦以上问题得以解决,请重新启动
Grid
Infrastructure
。
如果
ping/traceroute
对私网均可用,但是问题发生在从
11.2.0.1
至
11.2.0.2
升级过程中,请检查
Bug 13416559
获取解决方法。
-
-
-
-
-
-
-
-
-
上一篇:为什么称未知数为元
下一篇:十九世纪英国强制接种天花疫苗引发的争端