storm停掉worker数据会不会丢失
发布网友
发布时间:2022-05-25 09:20
我来回答
共1个回答
热心网友
时间:2024-12-05 06:10
排错调优之Worker重启
在storm运行log中可以看到worker.log日志显示shutting down xxxworker。
在相同的时间点位于storm运行日志中的supervisor.log显示kill xxx ,xxx就是对应的workerid
从而可以断定是supervisor重启了worker。
然而supervisor为何重启worker,默认supervisor和worker之间的心跳时间是30000ms,
而运行过程中心跳远大于这一值。
所以导致重启。
但是为何supervisor和worker之间的心跳时间会如此之长,查看zookeeper的运行日志显示,
在同一时间点有几台zookeeper shutdown 和goodBye。
而且均显示Too Many Connections from xxx --max is 60。
Zk日志中均显示Unable to read additional data from client sessionid 0x664b3c031710068, likely client has closed socket
由此猜测是否是zookeeper最大客户端连接数为60,实际运行中和zk交互的远不止60个,导致部分connection等待,
也就是supervisor等待。等到时间超过supervisor和worker之间通信时间30000ms,最终导致HB心跳监测不到认为worker挂掉并重启worker。
解决:
将zk与supervisor分离,在supervisor机器上不安装zk.
将zk的最大连接数设置为0(不*最大连接数) ,而不是默认的60
在zoo.cgf中设置maxClientCnxns = 60
3.(重要)加大supervisor和worker之间HB心跳时间为60
在storm.yaml中设置supervisor.worker.timeout.secs
展