环境:双节点RAC,甲骨文11.2.3
客户电话RAC实例2异常,现场查看日志:
实例2:
星期五2017年8月25日09:45:16
收到中止一个实例的信息从实例1收到中止一个实例的信息从实例1
请检查实例1警报和LMON跟踪文件细节。请检查实例1警报和LMON跟踪文件细节。
LMS0 (ospid: 24510820):终止实例由于错误481
星期五2017年8月25日09:45:16
系统状态转储要求(例如=2,osid=24510820 (LMS0)),总结=(实例异常终止)。
系统状态被跟踪文件/oracle/11.2.0/诊断接头/rdbms/ins/isn2/跟踪/ins2_diag_21561818。委员会
实例终止由LMS0 pid=24510820
实例1
星期五2017年8月25日09:44:25
IPC发送超时检测。发送者:ospid 35783054 [oracle@db1 (LMS1)]
接收机:本月2 binc 2073329022 ospid 24183072
IPC发送超时为味精2.2公司28 65518型从opid 14
星期五2017年8月25日09:44:27
通信重新配置:instance_number 2
星期五2017年8月25日09:45:16
发现不一致的实例成员通过实例1
驱逐从集群实例2
等待离开实例:2,
星期五2017年8月25日09:45:16
倾销诊断数据目录=[cdmp_20170825094516],要求(例如=2,osid=24510820 (LMS0)),总结=(实例异常终止)。
重新配置开始(旧公司28日,新公司32)
列表实例:
, 1 (myinst: 1),
查看/oracle/11.2.0/诊断接头/rdbms/gjj/isn2/跟踪/ins2_diag_21561818。委员会
* * * 2017-08-25 14:24:35.900
我投票节点
集团重组清理
确认→incar_num 22日rcfgctx→prop_incar 0
发送我的位图掌握0
kjzgmappropose: incar 0, newmap安康;
3000000000000000000000000000000000000000000000000000000000000000
kjzgmappropose:从psnd rc: 30
kjzdattdlm:不能附着在DLM (LMON=(真实),DB安装=(假))。
kjzdattdlm:不能附着在DLM (LMON=(真实),DB安装=(假))。
怀疑心跳网络存在问题(这套RAC之前就出现过几次实例被驱逐的问题,但实例自动都启动了,这次实例被驱逐后实例2不能启动,针对之前实例被驱逐的问题进行过参数修改,通过这次的情况来看,实该不是参数设置的问题)。
测试心跳网络,连通性和传输速率都没有问题,后续打算通过haip进一步提升心跳网络可用性,在添加haip过程中发现当服和服务器和交换机新添加网络后出来数据包丢失的情况,丢包率50%,判断心跳网络稳定性存在问题,基于此撤掉新添加的心跳线,更换原来的心跳线,重启被驱逐的实例2,实例正常。
最后判断是原心跳线RJ45头存在某两芯短路的问题造成此次故障。