ceph写入时延高导致虚拟机hang死的故障处理

发布网友发布时间：2023-04-06 19:37

共1个回答

热心网友时间：2023-05-04 09:50

通过 ceph daemon osd.64 mp_historic_ops 查看这个osd上所有client的op的时延ration,确实存在处理时间较高的情况
通过 smartctl -a /dev/sdi 查看硬盘的寿命，确认ssd盘寿命已不足

执行 ceph osd pool set ssd min_size 1 调整为1
2.调整osd reweight，让pg不再分配读写到这个osd
ceph osd reweight 64 0
3.等待集群最终恢复 health: HEALTH_OK

[1].osd_pool_default_min_size配置( https://blog.csdn.net/a1454927420/article/details/98080139 )
[2].osd时延较高( http://www.strugglesquirrel.com/2020/10/30/ceph%E8%BF%90%E7%BB%B4%E5%A4%A7%E5%AE%9D%E5%89%91%E4%B9%8Bosd%E5%BB%B6%E6%97%B6%E8%B0%83%E6%9F%A5/ )
[3].ssd盘故障判断( https://blog.csdn.net/liudalab/article/details/79485646 )
[4].ceph的weight和reweight的理解( https://blog.csdn.net/qq_40017427/article/details/107401851 )