1. 将故障盘标记为故障

在系统维护或数据恢复过程中，首要步骤是识别并隔离损坏的硬件组件，具体操作是将识别出的故障硬盘从系统中移除，并在管理软件或配置文件中将其状态明确标记为“故障”或“坏盘”，这一过程至关重要，旨在防止系统继续尝试从损坏的介质读取数据，从而避免写入错误导致数据进一步丢失，并为后续的替换硬盘和重建阵列做好准备。

实战指南：RHEL 7 软RAID单盘故障的应急处理与数据重建

在Linux服务器运维中,RAID（独立磁盘冗余阵列）是保障数据安全和高可用性的核心手段，虽然硬件RAID卡性能优异，但在RHEL 7等企业级系统中，使用软件RAID（通过mdadm工具管理）因其配置灵活、成本低廉且兼容性好，依然被广泛部署。

硬件故障是不可避免的,当RHEL 7环境下的软RAID阵列中坏了一块盘时，管理员必须迅速而准确地响应，以确保数据不丢失，并让服务尽快恢复，本文将详细讲解从故障检测到盘片更换、数据重建的全过程。

故障诊断：确认“谁”坏了

当服务器出现异常（如I/O错误、系统变慢）时，第一步是检查RAID状态，在RHEL 7中，最快捷的查看方式是查看内核状态文件。

1. 将故障盘标记为故障

打开终端,输入以下命令：

cat /proc/mdstat

预期输出示例：

Personalities : [raid6] [raid5] [raid4]
md0 : active raid6 sdb1[0] sdc1[1] sdd1[2] sde1[3] sdf1[4](F)
      10485760 blocks super 1.2 level 6, 512k chunk, algorithm 2 [6/5] [UUUU_]
      [>....................]  resync =  4.2% (614400/10485760) finish=0.5min speed=512K/sec

在这个例子中,你可以看到：

[6/5] [UUUU_]：表示总共6块盘，目前5块正常（UUUU），1块故障（_）。
(F)：通常出现在故障盘的设备名后，标识该盘已标记为故障。
resync：如果状态栏显示进度条，说明系统正在尝试重建数据。

为了更详细地确认具体是哪块物理盘挂了,可以使用 mdadm 工具：

sudo mdadm --detail /dev/md0

在输出中查找 "Number" 和 "Faulty" 字段，确认是 /dev/sdf1 出现了问题。

步骤一：移除故障盘

在物理更换硬盘之前,必须先将软件层面的故障盘从阵列中移除，这可以防止RAID管理器继续向这块坏盘写入数据，从而避免数据进一步损坏。

操作命令：

# 2. 将故障盘从阵列中移除
sudo mdadm --manage /dev/md0 --remove /dev/sdf1

此时再次运行 cat /proc/mdstat，你应该看到故障盘的状态从 [UUUU_] 变成了 [UUUU]，阵列状态变为降级模式，但依然可用。

步骤二：更换物理硬盘

硬件层面的操作：

关闭服务器或断开对应SAS/SATA硬盘的供电/数据线。
打开机箱,拔出物理损坏的硬盘。
插入一块容量相同或更大的新硬盘（建议容量相同，若更大需注意RAID扩容限制）。
连接电源和数据线,开机。

步骤三：将新盘加入阵列

系统识别到新硬盘后（例如识别为 /dev/sdf1），将其加入RAID

xmsdn

1. 将故障盘标记为故障

实战指南：RHEL 7 软RAID单盘故障的应急处理与数据重建

故障诊断：确认“谁”坏了

步骤一：移除故障盘

步骤二：更换物理硬盘

步骤三：将新盘加入阵列

相关阅读