关于oracle:记一次oracle-HAIP引发的数据库问题

43次阅读

共计 1383 个字符,预计需要花费 4 分钟才能阅读完成。

一、客户背景

前不久客户找到我跟我说他们新施行的两套 oracle 12CRAC 数据库补丁不能胜利打上让我帮忙解决一下返回客户现场,客户零碎为 IBM AIX7.2,数据库为 oracle12.2.0.1 补丁是 2021 年 4 月份的补丁,采纳了双心跳,客户曾经将一节点 GI 补丁装置,二节点装不上,我尝试应用 opatch auto 二节点能够失常装置该补丁过后并没有留神集群的状态,第二天客户又找到我说集群状态不失常。

二、问题解决剖析过程

1、登录数据库服务器查看集群状态发现只有一个节点 ASM 磁盘是在线状态

2、通过屡次尝试敞开一边另一边 ASM 能够失常启动,只有一边能启动的状况两节点 ASM 实例无奈同时启动,排查 ASM 日志发现 ASM 最初报错为


No connectivity to other instances in the cluster during startup. Hence, LMON is terminating the instance. Please check the LMON trace file for details. Also, please check the network logs of this instance along with clusterwide network health for problems and then re-start this instance.


3、查看 LMOIN 日志发现网络超时景象和 LMON 过程终止了 ASM 实例


No reconfig messages from other instances in the cluster during startup. Hence, LMON is terminating the instance. Please check the network logs of this instance as well as the network health of the cluster for problems


4、通过对 /etc/hosts/ 的排查和对网卡配置排查并未发现任何问题,所有 IP 均能失常通信

5、尝试 GI 回滚 32540149 补丁,发现回滚后两节点 ASM 实例恢复正常,再次安

装该补丁 ASM 实例就会报雷同谬误,狐疑是该补丁有问题,

6、更换装置 30118419 号补丁,该补丁装置结束后 ASM 实例仍旧单边启动另一边起不来报错仍旧雷同。

7、应用 ifconfig -a 命令再次查看网卡信息发现私网网卡还有两个 HAIP,尝试两节点相互 ping 发现不通,而没打补丁的集群 HAIP 是互通的,通过网络工程师对掩码的计算判定为打完补丁后集群两节点主动生成的 HAIP 为不同网段的 IP 所以不通造成了 ASM 实例异样。

三、解决办法

通过 oifcfg 删除再增加网卡的形式解决

1、oifcfg getif 查看网卡信息后

2、oifcfg delif -global en12(第一块网卡名)两节点同时卸载一个私网网卡

3、oifcfg setif -global en12/192.1.244.0:cluster_interconnect,asm 两节点再同时增加上该网卡

4、oifcfg delif -global en4(第二块网卡名)两节点再卸载另一块私网网卡

5、重启集群

6、oifcfg setif -global en4/193.1.244.0:cluster_interconnect,asm 集群重启结束后再次增加该网卡

7、再次重启集群后恢复正常,此时重启服务器后也不会有任何问题。

正文完
 0