storm停掉worker数据会不会丢失

发布网友发布时间：2022-05-25 09:20

共1个回答

热心网友时间：2024-12-05 06:10

排错调优之Worker重启

在storm运行log中可以看到worker.log日志显示shutting down xxxworker。

在相同的时间点位于storm运行日志中的supervisor.log显示kill xxx ，xxx就是对应的workerid

从而可以断定是supervisor重启了worker。

然而supervisor为何重启worker，默认supervisor和worker之间的心跳时间是30000ms，

而运行过程中心跳远大于这一值。

所以导致重启。

但是为何supervisor和worker之间的心跳时间会如此之长，查看zookeeper的运行日志显示，

在同一时间点有几台zookeeper shutdown 和goodBye。

而且均显示Too Many Connections from xxx --max is 60。

Zk日志中均显示Unable to read additional data from client sessionid 0x664b3c031710068, likely client has closed socket

由此猜测是否是zookeeper最大客户端连接数为60，实际运行中和zk交互的远不止60个，导致部分connection等待，

也就是supervisor等待。等到时间超过supervisor和worker之间通信时间30000ms,最终导致HB心跳监测不到认为worker挂掉并重启worker。

解决：

将zk与supervisor分离，在supervisor机器上不安装zk.
将zk的最大连接数设置为0（不*最大连接数），而不是默认的60
在zoo.cgf中设置maxClientCnxns = 60

3.（重要）加大supervisor和worker之间HB心跳时间为60

在storm.yaml中设置supervisor.worker.timeout.secs

展