-
实用标准文档
PowerVM
环境下实施
PowerHA7.1
要点
本文主要介绍
PowerVM
环境下实施
PowerHA
的一些要点,包括
PowerHA
对虚
拟网络监控、
光纤心跳在虚拟化环境下的实施等。
需要注意的是,
本文测试所得
到的数据是试验中
的测试数据,非
IBM
公司官方数据。
0
评论:
魏
新宇
,
高级
IT
专家
, IBM China
2013
年
9
月
26
日
?
内容
前言
随着
PowerVM
使用的越来越多,
在虚拟化环境下实施
PowerHA
的案例会越来越
多。传统
PowerHA6.1
在物理分区下实施是比较经典的配置,
PowerHA7.1
为了
适应
PowerVM
,在开发的时候进行了相关考虑,主要包含三点:
PowerHA7.1
中
允许
1
个
HA
节点只有
1
个网卡、
1
个
BootIP
和一个
ServiceIP
,并且
ServieIP
可以和
BootIP
在相同网段;
的功能
在虚拟化环境中能够
成功实施,
解决了
PowerHA
监控虚拟网卡状态的问题;
FC
心跳在虚拟环境下能
够成功实施。本文讲主要介绍虚拟化环境下实施的相关
要点。
回页首
PowerHA7.1
对虚拟网络的监控
的配置
在
传统的
HA
环境下,
PowerHA
可以通过监
控物理网卡的状态来进行网络监控。
而虚拟化环境下,
VIOC
中虚拟网卡永远不会处于
down
或者
detach
的状态
(除
非人为操作)
,
带
来的结果是可能
VIOC
已经无法对外通信,
但是由于其虚拟网
卡状态仍然是
up
的状态,
HA
不会识别网络故障,资
源组也不会发生切换,结
果就是业务中断,也就是“该它干的活它没干”,
HA
失去了其本来的意义。
因此,在
PowerVM
环境下实施
PowerHA7.1
的时候,就必须要引入
的配置。
在
中,
我们通过设备
HA
本地网卡
ping
目标地址的方法
,
来判断虚拟网卡通讯是否正常。
文案大全
实用标准文档
针对
文件的配置。在
PowerHA7.1
中推荐的格式是:
# cat
/usr/es/sbin/cluster/
!REQD
172.16.25.175 172.16.24.82
其中:
172.16.25.175
是
HA
节点的
bootIP
,
172.16.24.82
是目标
IP
。在这
< br>个配置文件中,通常建议写入多个
IP
地址(这个文件最多写
32
行),这样增
加本机将会在
ping
不通第一个
IP
的时候,
尝试
ping
第二个,
直到配置文件
中的所有
< br> IP
地址都
ping
不
通。
这样做的好处是避免由于网络不稳定造成资源
组错误切换。
不同的
HA
节点的配置文件中,目标
IP
可以不同。
能够检测到虚拟网络问题并且触发资源组切换的条件是:
1.
配置
的分区的
IP
地址
ping
不通
中配置的目
标地址。
2.
HA
节点之间的网络多播心跳不通。
的功能验证
我们以一个双节点的
PowerHA7.1
作为实验环境。
实验环境中有两个物理服务器,
每个物
理服务器上有一个
VIOS
,一个
VIOC
,两个
VIOC
之间配置了
PowerHA
,
并且在两个
HA
节点上都配置了
。
查看配置文件内容:
# cat
/usr/es/sbin/cluster/
!REQD
172.16.25.175 172.16.24.82
查看资源组状态,
资源组
rg1
运行在
HA1
上,
浮动
IP
172.16.25.178
处于
up
状态。
# clRGinfo
p>
-----------------------------------------
----------------------------
--------
Group Name State
Node
-----------------------
----------------------------------------------
--------
rg1 ONLINE
node1
OFFLINE
node2
# netstat
-in
Name Mtu Network Address
Ipkts Ierrs Opkts Oerrs
Coll
文案大全
实用标准文档
en0 1500
link#2 .e.30.a 181132 0 14699
0 0
en0 1500
172.16.25
172.16.25.178
181132 0 14699
0
0
en0 1500 172.16.25
172.16.25.175 181132 0 14699
0 0
lo0 16896 link#1
16237 0 16237
0 0
lo0 16896 127 127.0.0.1
16237 0 16237
0 0
lo0 16896 ::1%1
16237 0 16237
0 0
初始情况下,
HA1
节点可以
ping
通
中的目标地址
< br>(
172.16.24.82
)
,
目标地址与源地址互发网络包正常。
# tcpdump host 172.16.24.82
tcpdump:
verbose
output
suppressed,
use
-v
or
-vv
for
full
protocol
decode
listening on en0, link-type 1, capture
size 96 bytes
21:33:18.669852 IP node1
> 172.16.24.82: ICMP echo request, id 488, seq
587, length 43
21:33:18.670058
IP
172.16.24.82
>
node1:
ICMP
echo
reply,
id
488,
seq
587,
length
43
接下来,让
HA1
节点与目
标地址无法通讯(可以通过删除路由、将目标地址网
卡
down
掉或者将目标分区
down
等方法),即
HA1
节点
ping
不通
172.16.24.82
地址时,
HA1
节点依然会正常工作,资源组不会发生切换。
从下面的输出信息中,可以看到
HA1
与目标地址交互不正常。
#tcpdump host 172.16.24.82
tcpdump:
verbose
output
suppressed,
use
-v
or
-vv
for
full
protocol
decode
listening on en0, link-type 1, capture
size 96 bytes
21:00:59.785591 ARP,
Request who-has 172.16.24.82 tell 172.16.24.1,
length 46
21:01:01.071314 IP
node1 > 172.16.24.82: ICMP echo request, id 488,
seq
184, length 43
21:01:01.426657 IP node1 >
172.16.24.82: ICMP echo request, id 488, seq
184, length 43
21:01:01.782209 IP node1 >
172.16.24.82: ICMP echo request, id 488, seq
184, length 43
在
这个时候,
可能我们会理所当然地认为本机网卡将会标示出故障
。
其实不然,
这个时候,在
PowerHA
的日志
和
PowerHA
命令
lscluster -m
的
文案大全
实用标准文档
输出信息中,
不会有任何报错
,
网络是正常的。
资源组也不会发生切换。
因为
HA1
节点
HA2
节点发送多播信息是可以成功的。
将为
HA1
节点提供网络服务的
VIOS
上的
SEA
删掉
(或者拔掉
VIOS
的网线)
。
通过
console
登陆
HA1
,发现
中会有网络报错:
Mar 13
21:19:34 EVENT COMPLETED: network_down_complete
node1
net_ether_01
0
需要注意的是,
HA
识别网络错误分为
0
和
-1
两种。
0
标示
local
网络故障,
会引起资源组切换。
-1
是全局网络故障,不会引发资源组切换
此时,通过
PowerHA
命令行查看网络状态:
lscluster -m
中网卡状态为
down:
#lscluster -m
Points of contact for node: 2
------------------------------------------
Interface State Protocol
Status
------------------------------------------
dpcom DOWN none
RESTRICTED
en0 DOWN
IPv4 none
此时,如果资源组中包含浮动
IP
资源资源,将会引发资源组切换。
HACMP Event Preamble
-------
--------------------------------------------------
------------
-------
Enqueued rg_move release event for
resource group rg1.
Reason
for recovery of Primary instance of Resource group
'rg1'
from TEMP_ERROR state on node
'node1' was 'Local network failure'.
查看
PowerHA
的日志
,
可以看到过了大约不到
30
秒,
资源组在
HA2
节点启动成功:
.....................
Mar
13
21:51:00
EVENT
COMPLETED:
resource_state_change_complete
node1
0
#
clRGinfo
------------------------------
---------------------------------------
--------
Group Name State
Node
-----------------------
----------------------------------------------
--------
文案大全
实用标准文档
rg1
OFFLINE node1
ONLINE
node2
检测
HA
节点间
Mutil-cast
通讯的方法
以双节点
HA
为例,
HA
的多播地址为
228.16.25.175
,
HA
两个节点的名字分别
为
:node1
和
node2.
HA
节点间多播协议通讯正常的表现如下:
On HA node1
:
从
node1
向多播
IP
发包:
在
node2
上,从多播地址获取包,显示可以获取到。
On HA node2:
如果
HA
节点
node2
上
mping
是没有输出,
则说明节点之间的多播通讯
mutil-cast
有问题。
需要在交换机上进行配置,打通
Mutil-Cast
协议。
回页首
文案大全
-
-
-
-
-
-
-
-
-
上一篇:编译原理题——简答题
下一篇:solaris添加新网卡