问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

于gipc进程导致的节点无法启动

发布网友 发布时间:2023-05-28 03:15

我来回答

1个回答

热心网友 时间:2024-01-23 11:04

环境:RHEL5.5+11.2.0.3GI,双节点

问题描述:dba发现节点2被重新启动,之后无法加入到集群。

分析过程:

这实际上是两个问题,首先节点2被重新启动,之后节点2无法加入集群。这需要从集群的告警日志开始分析。

1. 节点1的集群alert.log

[grid@infirac1 infirac1]$ cd $ORACLE_HOME/log/infirac1

[grid@infirac1 infirac1]$ less alertinfirac1.log

alert日志报错信息如下:

network communication with node 2 missing for 50% of timeout interval. removal of this node from cluster in 14.190 seconds

2. 节点2的集群alert.log

[grid@infirac2 infirac2]$ cd $ORACLE_HOME/log/infirac2

[grid@infirac2 infirac2]$ less alertinfirac2.log

报错信息如下:

network communication with node 1 missing for 50% of timeout interval. removal of this node from cluster in 14.180 seconds

this node was evicted by node 1 details at in /u01/11.2.0/grid/log/infirac2/cssd/ocssd.log

the css daemon is terminating e to a fatal error;

starting clean up of CRSD resources

从上面的日志输出可以看出两个节点之间出现了私网通信问题,之后节点2被驱逐出了集群。

3. 两个节点的操作系统日志(/var/log/messages)

节点1的操作系统日志:

NIC link is down

link status definitely down for interface,disabling it

NIC link is up

bond0 link status definitely up for interface

节点1的操作系统日志显示节点1的网卡bond0出现过问题,但是随后又恢复正常了,这无法解释为什么节点2无法重新加入集群,因此还需要从节点2的ocssd.log来确定节点2无法加入集群的原因。

4. 节点2的ocssd.log

关键报错信息如下:

aborting ,evicted by node ****** number 1 sync 76357678 stamp 416434348

可以确定节点2是被节点1驱逐出了集群

starting CSS daemon version 11.2.0.3 in mode with uniqueness value 1342448763

ocssd被重新启动

return netdata 1 interfaces

create local bootstrap broadcast interface for node ****

节点2能够发现私网,并且通过gipc已经开始联系集群的远程节点

node 1 has d disk HB, but no network HB

私网和节点2的通信没有成功,因为节点2并没有通过网络心跳发现节点1,只在VF中找到了节点1的磁盘心跳信息。

takeover aborted e to cluster member node found on disk

cssd aborting from thread

a fatal error occurred and the css daemon is terminating abnormally

节点2无法连接到节点1,所以节点2会尝试接管集群,但是节点1仍然能够访问VF,所以节点2无法接管集群,只能再次abort掉。同样的过程会不断的重复出现。

根据上面的发现可以推断,问题可能还是出现在私网通信上,而11gR2版本的集群私网通信是首先需要通过gipc建立连接的,下面需要分析gipc.log日志来确定私网通信问题

5. 节点2的gipcd.log

[grid@infirac2 gipcd]$ cd $ORACLE_HOME/log/infirac2/gipcd

[grid@infirac2 gipcd]$ less gipcd.log

inf bond0 - rank 99

successfully connected to CSS

以上日志输出显示节点2的gipc没有问题,能够找到私网网卡,而且能够和ocssd进行通信

6. 节点1的gipcd.log

interface went down -[ip *.*.*.*,subnet *.*.*.*]

基于之前节点1的操作系统日志,看起来gipc也发现了私网存在问题,并将对应的网卡标记成了down的状态

不久之后网卡又恢复了正常

create remote bootstrap broadcast interface for node ****

gipc尝试向集群发布自己的信息

gipcMonitorSaveInfMetrics: inf bond0 - rank 0, avgms 30000.0000

gipcMonitorSaveInfMetrics: inf bond0 - rank -1, avgms 30000.0000

上面的信息说明gipc检查了私网的状态之后,认为私网存在问题,因为私网的rank值为0或者-1

根据上面的信息确定问题出现在节点1的gipc进程在私网网卡恢复正常后没有正确的检查私网的健康性,并将私网的rank值标记成了0或者-1。由于gipcd进程是由ohasd的代理进程管理的,即使这个进程被终止,代理进程会重新启动一个新的gipcd守护进程。

解决方法:

将节点1的gipcd进程使用操作系统命令kill掉之后,新的gipcd进程便产生。重新启动节点2,节点2可以加入集群了,问题解决。

[grid@infirac1 infirac1]$ ps -ef | grep gipcd

[grid@infirac1 infirac1]$ kill -9 2099

举报/反馈
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
为什么我在电脑上面下的电影在手机上面不显示? 为什么视频在手机里放不出来在电脑里放得出来? 求问bb霜什么牌‍子‍好 BB霜哪个牌子的比较好啊? 我用很多BB霜都过敏脱皮,该用哪个牌子的才能不过敏?拜托了各位 谢谢... 没有去继续教育会计证会不会被吊销? 会计证连续几年未继续教育会被吊销 我想请问,能不能从视频里抓出一段声音,然后保存,变成手机铃声的那种格式... 高中地理知识如何描述地貌特征 中国地理第一讲:自然地理之河流 徐福东渡以后去了哪里 徐福最后的去向是什么 徐福东渡是什么历史事件? 郫都区岷阳中学怎么样 希沃信鸽如何审核老师 四川专升本考试时间2023年 2023年四川省专升本考试时间 2021年吉林硕士研究生考试国家线【已公布】 按摩椅的优点有哪些 按摩椅的工作原理是什么按摩椅是怎么发明出来的 怎么才能看到自己手机的PUK码? 奇异果会员白金和星钻的区别有什么? smcm平滑肌细胞培养基的保质期多久 MCM论文中控制页是什么 mcmber英文什么意思 野百合花野百合花作者 广州邮政银行房贷利率是多少? 广州2013年房贷利率 紫泉宫殿锁烟霞,欲取冀城作帝家是那首诗 紫泉宫殿锁烟霞紫泉是哪里 床头床脚放朱砂有什么用途 ocssd.exe 无法启动怎么办 五德是指:五行,五德,五德? 闲鱼小铺开通条件有哪些? 梦见修路好不的预兆 举要删芜什么意思?近义词和反义词是什么? 高考刚考完就对答案,错了好多。 磁盘里的可用空间和总大小是什么? 天下人,你我敌对什么意思 与人为敌 试论述三线一单制度。 20斤180的大豆油算贵么 186元买20l大豆油亏吗? 梦见爱人秋裤裤裆开让我找人缝的预兆 19款大众速腾大灯高度如何调节 如何更改XP用户名 usb2.0 configuration mode 是什么意思 刹车热衰减是什么?刹车热衰减怎么办 西门子tp900ip地址设置 什么是象形文画?属于什么艺术类别?谢谢 形声字象形子会意字手抄报 手抄报简单又漂亮