一、客户背景
前不久客户找到我跟我说他们新施行的两套oracle 12CRAC数据库补丁不能胜利打上让我帮忙解决一下返回客户现场,客户零碎为IBM AIX7.2,数据库为oracle12.2.0.1补丁是2021年4月份的补丁,采纳了双心跳,客户曾经将一节点GI补丁装置,二节点装不上,我尝试应用opatch auto二节点能够失常装置该补丁过后并没有留神集群的状态,第二天客户又找到我说集群状态不失常。
二、问题解决剖析过程
1、登录数据库服务器查看集群状态发现只有一个节点ASM磁盘是在线状态
2、通过屡次尝试敞开一边另一边ASM能够失常启动,只有一边能启动的状况两节点ASM实例无奈同时启动,排查ASM日志发现ASM最初报错为
No connectivity to other instances in the cluster during startup. Hence, LMON is terminating the instance. Please check the LMON trace file for details. Also, please check the network logs of this instance along with clusterwide network health for problems and then re-start this instance.
3、查看LMOIN日志发现网络超时景象和LMON过程终止了ASM实例
No reconfig messages from other instances in the cluster during startup. Hence, LMON is terminating the instance. Please check the network logs of this instance as well as the network health of the cluster for problems
4、通过对/etc/hosts/的排查和对网卡配置排查并未发现任何问题,所有IP均能失常通信
5、尝试GI回滚32540149补丁,发现回滚后两节点ASM实例恢复正常,再次安
装该补丁ASM实例就会报雷同谬误,狐疑是该补丁有问题,
6、更换装置30118419号补丁,该补丁装置结束后ASM实例仍旧单边启动另一边起不来报错仍旧雷同。
7、应用ifconfig -a 命令再次查看网卡信息发现私网网卡还有两个HAIP,尝试两节点相互ping发现不通,而没打补丁的集群HAIP是互通的,通过网络工程师对掩码的计算判定为打完补丁后集群两节点主动生成的HAIP为不同网段的IP所以不通造成了ASM实例异样。
三、解决办法
通过oifcfg 删除再增加网卡的形式解决
1、oifcfg getif 查看网卡信息后
2、oifcfg delif -global en12(第一块网卡名) 两节点同时卸载一个私网网卡
3、oifcfg setif -global en12/192.1.244.0:cluster_interconnect,asm 两节点再同时增加上该网卡
4、oifcfg delif -global en4 (第二块网卡名)两节点再卸载另一块私网网卡
5、重启集群
6、oifcfg setif -global en4/193.1.244.0:cluster_interconnect,asm 集群重启结束后再次增加该网卡
7、再次重启集群后恢复正常,此时重启服务器后也不会有任何问题。