Users Guide
避免问题发生以及在发生划伤后予以解决
Dell RAID 控制器包含多种功能,可防止许多类型的问题并处理多种错误。RAID 控制器的主要作业是保持阵列上所包含的数据的完整
性。即使在更极端的损坏情况下(例如划伤),阵列的数据通常可用并且服务器可以保留在生产中。任何维护计划的一部分都应为
RAID 阵列的主动式维护。Dell RAID 控制器高度可靠且无需用户干预即可管理其阵列。忽略此正常的维护,即使最精密的技术也会在
一段时间后遇到问题。需要执行一系列工作来帮助保护阵列正常运行,并避免大多数数据错误、双故障和划伤。
我们强烈建议执行例行程序和定期维护。主动式维护可纠正现有错误,并防止某些错误。它无法防止所有错误发生,但通过主动式
维护可降低显著最严重的错误。对于存储和 RAID 子系统,步骤如下:
● 更新控制器、硬盘驱动器、底板和其他设备上的驱动程序和固件。
● 执行例行程序一致性检查操作(戴尔建议每 30 天)。
● 检查电缆的磨损和损坏并确保连接良好。
● 查看日志以了解问题的说明。
这不是高级技术审查,只是粗略查看日志,以了解潜在问题的明显说明。如有任何问题或顾虑,请联系戴尔技术支持。
故障排除散热问题
由于环境温度传感器和风扇出现故障、散热器未清理以及散热传感器出现故障等,可能会发生散热问题。
要解决散热问题:
1. 检查 LCD 和嵌入式系统管理 (ESM) 日志中是否有任何附加错误消息,以识别出现故障的组件。
2. 请确保机器的空气流通不被阻止。将其置于密闭区域或阻塞通风孔,将导致其过热。如果安装在机架中,确保机架冷却系统工作
正常。
3. 检查环境温度是否在可接受的级别。
4. 检查内部系统风扇未受阻并确保所有风扇都正确旋转。使用已知正常的风扇更换任何发生故障的风扇以测试。
5. 确保已安装所需的所有通风罩和挡片。
6. 检查所有风扇是否工作正常、散热器安装正确并且已涂抹导热油脂。
在硬件配置上重新放置 SAS IOM 存储底座时发生输入/输
出错误
在以下硬件配置中重新放置 SAS IOM/存储底座,设置为故障切换群集和共享存储并且已启用多路径,会导致 IO 错误。MX7000 机
箱,将计算节点作为群集节点,将 MX5016s 底座用于共享存储 14G 服务器作为群集节点,并且连接外部存储机柜以用于共享存
储
前提条件
小心:
1. 对现有注册表进行备份,请参阅 Https://support.microsoft.com/en-in/help/322756/how-to-back-up-and-restore-
the-registry-in-windows MS 链接,了解如何进行注册表备份。
2. 无法在为针对故障切换群集和共享存储配置的戴尔服务器上启用这些设置可能会导致群集共享卷进入故障状态。
关于此任务
Windows Server 2016 的建议操作
步骤
1. 在属于群集的所有节点上,安装 Windows Update 和 KB4457127 或最新的更新包。重新启动它们以在系统上启用更新。
2. 在所有群集节点上,使用注册表路径“HKEY_LOCAL_MACHINE\SYSTEM\ CurrentControlSet\Control\StorPort\QoSFlags”中的
值“0x1”创建注册表项 (Reg_DWORD)。重新启动群集节点以启用注册表项。
硬件问题故障排除
81