(6)ceph集群osd下来故障处理 - 行业资讯 - 肥雀云

(1)查看集群状态,发现2个osd状态下为

 <代码> root@node140/# ceph - s
　　集群:
　　id: 58 a12719-a5ed-4f95-b312-6efd6e34e558
　　健康:HEALTH_ERR
　　noout国旗(s)
　　2 osd下来
　　1擦洗错误
　　可能的数据损失:1 pg不一致
　　退化数据冗余:1633/10191物体退化(16.024%)、84后卫退化,122后卫矮小
　　
　　服务:
　　星期一:2守护进程、群体node140 node142(年龄3 d)
　　经理:管理(活跃,因为3 d),备用:node140
　　osd: 18 osd: 16 (3 d)以来,18(因为5 d)
　　旗帜noout
　　
　　数据:
　　池,池:384动力分配
　　对象:3.40 k对象,9.8直布罗陀海峡
　　用法:使用43镶条,8.7 TiB/8.7 TiB的效果
　　后卫:1633/10191对象退化(16.024%)
　　261活跃+清洁
　　84活跃+身高+退化
　　38活跃+尺寸过小
　　1积极+清洁+不一致

(2)查看osd状态

 <代码> [root@node140/] # ceph osd树
　　ID类重量类型名称状态调整PRI-AFF
　　1根9.80804默认
　　2 3.26935主机node140
　　0 osd 0.54489硬盘。0 1.00000 1.00000
　　1硬盘0.54489 osd。1 1.00000 1.00000
　　2硬盘0.54489 osd。2到1.00000 - 1.00000
　　3 osd 0.54489硬盘。3到1.00000 - 1.00000
　　4硬盘0.54489 osd。4到1.00000 - 1.00000
　　5个硬盘0.54489 osd。5到1.00000 - 1.00000
　　3 3.26935主机node141
　　12个0.54489 osd硬盘。12 1.00000 1.00000
　　13 osd 0.54489硬盘。13 1.00000 1.00000
　　14 osd 0.54489硬盘。14个1.00000 1.00000
　　15 osd 0.54489硬盘。15 1.00000 1.00000
　　16个0.54489 osd硬盘。16个1.00000 1.00000
　　17 osd 0.54489硬盘。17日上涨1.00000 1.00000
　　4 3.26935主机node142
　　6 osd 0.54489硬盘。6到1.00000 - 1.00000
　　7 osd 0.54489硬盘。7到1.00000 - 1.00000
　　8 osd 0.54489硬盘。8到1.00000 - 1.00000
　　9 osd 0.54489硬盘。9到1.00000 - 1.00000
　　10硬盘0.54489 osd。10到1.00000 - 1.00000
　　11 osd 0.54489硬盘。11 1.00000 1.00000

(3) osd 7 osd 8状态查看,已经失败了,重启也无法启动

 <代码> [root@node140/] # ceph-osd@8.service systemctl状态
　　●ceph-osd@8。服务——Ceph osd.8对象存储的守护进程
　　加载:加载(/usr/lib/systemd/系统/ceph-osd@.service;启用;厂商预设:禁用)
　　活动:失败(结果:start-limit)自星期五以来2019-08-30 17:36:50中科;1分钟20年代以前
　　过程:433642 ExecStartPre=/usr/lib/ceph/ceph-osd-prestart。sh——集群${集群}- id %我(状态退出代码=,=1/失败)
　　
　　8月30日17:36:50 node140 systemd[1]:未能Ceph对象存储守护进程osd.8开始。
　　8月30日17:36:50 node140 systemd [1]: ceph-osd@8单位。服务失败的国家。
　　8月30日17:36:50 node140 systemd [1]: ceph-osd@8。服务失败。
　　8月30日17:36:50 node140 systemd [1]: ceph-osd@8。服务拖延时间,安排重启。
　　8月30日17:36:50 node140 systemd[1]:停止Ceph osd.8对象存储的守护进程。
　　8月30日17:36:50 node140 systemd[1]:开始为ceph-osd@8.service过快请求重复
　　8月30日17:36:50 node140 systemd[1]:未能Ceph对象存储守护进程osd.8开始。
　　8月30日17:36:50 node140 systemd [1]: ceph-osd@8单位。服务失败的国家。
　　8月30日17:36:50 node140 systemd [1]: ceph-osd@8。服务失败了。

(4) osd硬盘故障,状态变化
osd硬盘故障,状态变为下来。在经过国防部osd降下来间隔设定的时间间隔后,ceph将其标记为,并开始进行数据迁移恢复。为了降低影响可以先关闭,待硬盘更换完成后再开启
[root@node140/] #猫/etc/ceph/ceph.参看
(全球)
我的osd降下来间隔=900

(5)停止数据均衡
[root@node140/] #我在noout nobackfill norecover noscrub nodeep-scrub; ceph osd设置$ i;做了

(6)定位我故障盘
[root@node140/] # ceph osd树| grep - i
7硬盘0.54489 osd。7 0 1.00000
8 osd 0.54489硬盘。8 0 1.00000

(7)卸载故障的节点
[root@node142 ~] # umount/var/lib/ceph/osd/ceph-7来
[root@node142 ~] # umount/var/lib/ceph/osd/ceph-8来

(8)从粉碎地图中移除osd
[root@node142 ~] # ceph osd粉碎删除osd。7
删除项id 7 osd的名字”。7从粉碎地图
[root@node142 ~] # ceph osd粉碎删除osd。8
删除项id 8 osd的名字”。8从粉碎地图

(9)删除故障osd的密钥
root@node142 ~ # ceph auth del osd。更新7

[root@node142 ~] # ceph auth del osd.8

更新　　

(10)删除故障osd

 <代码> [root@node142 ~] # ceph osd rm 7
　　删除osd.7
　　(root@node142 ~) # ceph osd rm 8
　　删除osd.8
　　(root@node142 ~) # ceph osd树
　　ID类重量类型名称状态调整PRI-AFF
　　1根8.71826默认
　　2 3.26935主机node140
　　0 osd 0.54489硬盘。0 1.00000 1.00000
　　1硬盘0.54489 osd。1 1.00000 1.00000
　　2硬盘0.54489 osd。2到1.00000 - 1.00000
　　3 osd 0.54489硬盘。3到1.00000 - 1.00000
　　4硬盘0.54489 osd。4到1.00000 - 1.00000
　　5个硬盘0.54489 osd。5到1.00000 - 1.00000
　　3 3.26935主机node141
　　12个0.54489 osd硬盘。12 1.00000 1.00000
　　13 osd 0.54489硬盘。13 1.00000 1.00000
　　null
　　null
　　null
　　null
　　null
　　null
　　null
　　null
　　null
　　null
　　null
　　null(6)ceph集群osd下来故障处理