Dell EMC 存储系统 Metro Node 设备管理员指南 7.
注意、小心和警告 注: “注意”表示帮助您更好地使用该产品的重要信息。 小心: “小心”表示可能会损坏硬件或导致数据丢失,并告诉您如何避免此类问题。 警告: “警告”表示可能会导致财产损失、人身伤害甚至死亡。 版权所有 © 2021 Dell Inc. 或其子公司。保留所有权利。Dell、EMC、Dell EMC 和其他商标为 Dell Inc.
目录 章 1: 前言........................................................................................................................................ 7 章 2: CLI 工作区和用户帐户............................................................................................................... 9 配置 CLI 工作区.................................................................................................................................................................... 9 设置控制台日志记录的阈值...........................................
章 6: 调配存储资源......................................................................................................................... 32 资源调配概述...................................................................................................................................................................... 32 使用 EZ 资源调配来调配存储资源.................................................................................................................................. 32 更改虚拟卷的精简特性.......................................
Metro Node 硬件和 WAN 端口........................................................................................................................................ 54 基于 IP WAN 的 Metro 端口配置规则.............................................................................................................................54 端口组.............................................................................................................................................................................54 CLI 上下文.............
创建监控器.....................................................................................................................................................................83 添加/删除监视接收器..................................................................................................................................................84 删除监控器....................................................................................................................................................................
1 前言 作为改进其产品线的一项措施,Dell EMC 会定期发布其软件和硬件产品的修订版。因此,本文档中介绍的一些功能可能不被当前使 用的软件或硬件的所有版本支持。产品发行说明提供了有关产品功能的最新信息。 如果某产品不能正常运行或其功能与本文档的描述不符,请与您的 Dell EMC 技术支持专业人员联系。 注: 本文档在发布时准确。请转至 Dell EMC 在线支持网站 (https://www.dell.
表. 1: 印刷约定 (续) 等宽黑体 用于用户输入。 [] 方括号内是可选值。 | 竖线表示备用选项,即竖线表示“或”。 {} 大括号中包含用户必须指定的内容,如 x 或 y 或 z ... 省略号表示示例中省略的不重要的信息。 从何处获得帮助 可以按如下方式获取 Dell EMC 支持、产品和许可信息: 产品信息 有关文档、发行说明、软件更新或关于 Dell EMC 产品的信息,请访问 Dell EMC 在线支持网站,网址为 https://www.dell.com/ support。 技术支持 转至 Dell EMC 在线支持网站并单击“支持”。您将看到多个与 Dell EMC 技术支持联系的选项。请注意,要打开服务请求,您必须具 有有效的支持协议。有关如何获取有效支持协议或如何解决您的帐户问题的详细信息,请与 Dell EMC 销售代表联系。 在线社区 如需咨询同行联系人、进行对话或者查看有关产品支持和解决方案的内容,请访问 Dell EMC 社区网络 (DECN),网址为 https:// www.dell.
2 CLI 工作区和用户帐户 本章介绍如何使用命令行界面 (CLI) 配置 CLI 工作区和管理用户帐户。 主题: • 配置 CLI 工作区 配置 CLI 工作区 工作区是 CLI 会话的外观和行为。使用本部分中所述的过程可以控制命令输出、发送至控制台的日志记录消息的级别,以及搜索当前 CLI 会话的命令历史记录。 注: 启动 Vplexcli 不再需要用户名和密码。请确认没有自动化脚本提供用户名或密码。 设置控制台日志记录的阈值 控制台记录器显示从控制台上的控制器收到的消息。 默认情况下,控制台仅显示紧急(0 级)消息。 消息分为 8 个严重级别 (0-7),其中 0 表示最严重: 7 — 调试(调试级消息) 6 — 信息(信息性消息) 5 — 注意(正常,不过是重要消息) 4 — 警告(警告消息) 3 — 错误(错误消息) 2 — 严重(严重消息) 1 — 警报(必须立即处理的消息) 0 — 紧急(当不可用时通知系统的消息) 要在控制台上显示具有较低严重级别的消息,请更改控制台的日志记录过滤器的阈值。 1.
注: 阈值会过滤具有更高或相等严重性级别的所有消息。 要查看严重 (2) 及更高级别(0 和 1)的消息,请将阈值设置为 3。 要查看错误 (3) 及更高级别(0、1 和 2)的消息,请将阈值设置为 4。 将窗口宽度设置为 100 许多命令的输出超过 80 列。因此,需要将 Vplexcli 运行时所在的命令窗口宽度扩展到至少 100 列。 上下文树搜索 在上下文树中搜索上下文名称以及与特定模式匹配的数据。 使用“Find”命令搜索上下文树 使用此命令可以查找与模式匹配的所有上下文。以交互方式调用此命令时,该命令会将上下文打印到屏幕。 模式可以是文本字符串或包含通配符字符的字符串。有关受支持的 CLI 通配符字符的完整列表,请参见 CLI 参考指南中的“通配符” 主题。 10 CLI 工作区和用户帐户
3 元数据卷 本章介绍使用 VPlexcli 管理元数据和元数据卷的过程。 主题: • • • • • • 关于元数据卷 移动元数据卷 重命名元数据卷 删除元数据卷 显示元数据卷 验证元数据卷的一致性 关于元数据卷 Metro Node 元数据包括虚拟到物理的映射、设备相关数据、虚拟卷和系统配置设置。 元数据存储在高速缓存中,并在专门指定的外部卷上备份,该外部卷称为元数据卷。 元数据卷是在系统设置期间创建的。 最初配置群集时,元数据卷必须是呈现给 Metro Node 的第一个存储。这可防止意外覆盖元数据卷。 元数据卷经过配置后,如果修改 Metro Node 配置,元数据更新会同时写入高速缓存和元数据卷。 备份元数据卷是当前元数据的时间点快照,并在进行重大配置更改、刷新或迁移之前提供额外保护。 仅在每个控制器启动期间从元数据卷读取元数据。 将创建元数据卷备份: ● 迁移到新阵列之前 ● 进行主要更新之前 元数据卷与下面提到的标准存储卷不同: ● 在未事先申请的情况下即会创建元数据卷 ● 元数据卷直接在存储卷上创建。 有关在选择用于元数据卷的存储时所遵循的标准的更多详细信息,请参见 Metro Node
如果 Metro Node 永久失去对两个元数据卷的访问权限,它将基于内存中的元数据继续运行。配置更改将暂停,直到创建了新的元数 据卷。 注: 如果 Metro Node 失去对所有元数据卷的访问权限,并且所有控制器要么发生故障要么重新启动,则失去访问权限之后对元 数据(Metro Node 配置)所做的更改将无法恢复。经过精简资源调配的 LUN 上支持系统卷,但这些卷必须具有可用的精简存储 池资源且达到最大容量。系统卷不得与同一池中的用户数据卷争用此空间。 移动元数据卷 步骤 1. 使用 ll 命令显示群集上的存储卷列表: VPlexcli:/> ll /clusters/cluster-1/storage-elements/storage-volumes 2. 确定具有以下特征的两个存储卷: ● 取消申请 ● 容量大于等于 78 GB ● 在不同阵列上 3.
例如: VPlexcli:/clusters/cluster-2/system-volumes/new_meta1_backup_2010May24_163810> set name backup_May24_pre_refresh 删除元数据卷 关于此任务 注: 元数据卷必须处于非活动状态才能删除。尝试删除活动元数据卷会失败,并显示错误消息。 步骤 1. 导航至目标卷的上下文。 例如: VPlexcli:> cd clusters/cluster-1/system-volumes/metadata_1/ 2. 使用 ll 命令验证卷是否处于活动状态。 例如: VPlexcli:/clusters/cluster-1/system-volumes/metadata_1> ll Attributes: Name Value ---------------------- ----------active false application-consistent false block-count 23592704 block-size 4K . . . 3.
block-size capacity component-count free-slots geometry health-indications health-state locality operational-status ready rebuild-allowed rebuild-eta rebuild-progress rebuild-status rebuild-type slots stripe-depth system-id thin-capable transfer-size volume-type Contexts: Name ---------components 4K 80G 2 63997 raid-1 [] ok local ok true true done full 64000 svtmeta 128K meta-volume Description ------------------------------------------------------------------The list of components that support this devic
表.
4 系统管理 本章介绍如何使用 Call Home 通知、事件日志位置以及通过 VAAI 实现的硬件加速。 主题: Call Home 通知 事件日志位置 系统配置日志位置 通过 VAAI 进行硬件加速 使用 XCOPY 减少拷贝开销 重命名 Metro Node 群集 LCD 前面板设置 • • • • • • • Call Home 通知 关于 Call Home 通知 Call Home 通知是在发生严重问题时自动发送给 Dell EMC 客户服务和/或客户支持代表的消息。Call Home 通知使 Dell EMC 能够主动 接洽相关人员,或者使用配置的 SRS 网关来解决问题。 有四个级别的系统事件。仅针对三个级别发送 Call Home 通知: 表.
开始前须知 要完成 Call Home 通知的配置,您需要以下信息: ● 用于将 Call Home 通知转发到 Dell EMC 的 SRS 或 SCG 网关的 IP 地址。使用 SRS 或 SCG 网关作为主要连接地址。 ● (可选)如果主服务器发生故障,则需要用于将 Call Home 通知转发到 Dell EMC 的辅助 SRS 或 SCG 网关服务器的一个或多个 IP 地址。这些地址必须与主 SRS 或 SCG 网关服务器的地址不同。 ● (可选)在发生 Call Home 通知时应接收电子邮件的人员的一个或多个电子邮件地址。 其他文档 有关 SupportAssist 配置命令的信息,请参见 Metro Node 设备配置和安装指南。下表显示了每个命令的角色。 命令 角色 vplex_system_config --support-enable 用于启用 SupportAssist。 vplex_system_config --support-disable 用于禁用 SupportAssist。 vplex_system_config -interview --update-sup
Invoking ansible command to perform sync operation to all other nodes ['10.226.81.190'] Download operation completed successfully on node 10.226.81.189 2. 运行以下命令以使用 --source 选项从系统中的其他节点拷贝所有文件。 service@director-1-1-b:~> /opt/dell/vplex/bin/supportassist_mft --source 10.226.81.189 Process to copy MFT file(s) from node [10.226.81.189] to node [10.226.81.190] initiated... File softwareWeekly.tar.gz copied to /home/service/mft/ directory File log.
事件日志位置 Metro Node 包含将条目写入各种日志的服务、进程、组件和操作系统。 系统会收集以下事件的日志: ● Call Home 事件 下表中列出了 Metro Node 管理服务器上各种日志的位置: 表. 4: Metro Node 日志文件位置 日志名称 描述及位置 Call Home 日志 在运行的管理服务器上: ● /opt/dell/vplex/ese/var/log/ESE.log ● /var/log/vplex/SupportAssist/SupportAssist.log NSFW 日志 GeoSynchrony 日志。NSFW 将事件发送至控制器上的日志服务。日志服务将 NSFW 条目写入 /var/log/ journal/ 中的日志。要查看和执行 NSFW 日志分析,可以执行以下步骤: ● 在 collect-diagnostics 输出中:找到日志 voyager-diagnostics/journal/diagnosticcollection_journal.export。它需要 systemd-journal-remote 转换为日志。 1.
Compare and Write CompareAndWrite (CAW) SCSI 命令用于协调 VMware 操作,例如打开/关闭 VM、在不停止应用程序的情况下将 VM 从一个 ESX 移 到另一个 ESX (VMotion) 以及分布式资源计划程序 (DRS) 操作。 VMware ESX 服务器使用 CAW 来缓解存储争用,存储争用可能是由分布式虚拟机环境中的 SCSI RESERVATION 导致的。CAW 允许 ESX 服务器锁定磁盘区域而不是整个磁盘,从而帮助存储硬件加速。 现代 ESX 服务器使用此策略增加 ESX 服务器可以托管的虚拟机的数量,并提高这些虚拟机的性能。 默认情况下,CAW 支持处于启用状态。 启用/禁用 CAW 小心: CAW 只能由 Dell EMC 客户支持代表在 Metro Node 上启用/禁用。 在以下情况下,VMware 服务器会发现是否支持 CAW SCSI 命令: ● 初始存储扫描期间 ● ESX 主机上的 VMFS3.
在 /clusters/cluster 上下文中使用 ls 命令显示 CAW 系统默认设置: VPlexcli:/> ls /clusters/cluster-1 /clusters/cluster-1: Attributes: Name Value ---------------------- -------------------------------------------allow-auto-join true auto-expel-count 0 auto-expel-period 0 auto-join-delay 0 cluster-id 1 connected true default-cache-mode synchronous default-caw-template true . . .
启用/禁用 WriteSame (16) 小心: WriteSame (16) 只能由 Dell EMC 技术支持人员在 Metro Node 上启用/禁用。 VMware 服务器会在以下情况下发现 WriteSame (16) SCSI 命令是否受支持: ● 初始存储扫描期间 ● 当 ESX 主机上的 DataMover.
. .
小心: 更改 XCOPY 属性的默认模板值将更改所有新创建的存储视图中的 XCOPY 属性的值。只有在极少数情况下才应执行此操 作,通常应在咨询 Dell EMC 支持人员之后再做。更改默认模板值可能会对 VMWare 主机 I/O 性能产生不利影响。 1. 默认情况下,要启用 XCOPY,请将 default-xcopy-template 属性设置为 true,如下所示: VPlexcli:/> set /clusters/*::default-xcopy-template true 2.
LCD 前面板设置 小心: 请勿使用面板来修改 iDRAC 或 R640 的任何设置。修改设置可能会影响 Metro Node 设置并导致功能故障。 系统管理 25
5 Metro Node 中的精简支持 本章介绍 Metro Node 如何支持精简感知功能。 主题: Metro Node 中的精简支持 精简资源调配 精简存储管理 精简镜像和迁移 • • • • Metro Node 中的精简支持 精简感知是将 Metro Node 虚拟卷作为精简卷报告给主机的功能。精简卷可提供更高的效率,因为所使用的资源量比分配的要少。仅 提供所需资源的这一优势超出了所使用的虚拟化技术的成本。它可以在支持精简的存储卷上动态释放存储数据块。精简支持可以在 需要时将一个或多个逻辑数据块映射到物理数据块。逻辑数据块为主机提供存储地址空间(逻辑单元容量)。仅在使用逻辑单元时 才会为其分配物理存储。这样可确保为逻辑单元分配比报告的容量少的物理存储。在需要时(写入时),物理数据块可以映射到逻 辑数据块。Metro Node 扩展了连接到后端的阵列提供的多个精简功能。 精简存储管理 Metro Node 在其后端使用支持精简功能的阵列的某些管理功能来检测和解决存储耗尽问题。当主机停止使用阵列中分配的精简存储 数据块时,未使用的数据块将不会被释放,并且不会被退回到阵列。例如,在一个虚拟环境中,
表.
以下示例显示了如何在支持精简功能的存储卷上创建两个扩展区(具有创建密集扩展区的限制): VPlexcli:/clusters/cluster-1/storage-elements/storage-volumes> extent create myVolume --numextents 2 You are creating 2 extents on top of 1 thin-capable storage-volume 'myVolume'. The resulting extents will not be thin-capable. 以下示例显示了如何创建比支持存储卷小的扩展区(具有创建密集扩展区的限制): VPlexcli:/clusters/cluster-1/storage-elements/storage-volumes> extent create myVolume --size 1MB The new extent will not completely encompass the following thin-capable storage-volume: myVolume.
注: 在 Metro Node 软件升级后,您可以使用通配符将多个 Metro Node 虚拟卷设置为启用精简资源调配。 /clusters/cluster-1/virtual-volumes/thick_1: Name Value -------------------------- ---------------------------------------block-count block-size 4K cache-mode synchronous capacity 200G consistency-group expandable true expandable-capacity 0B expansion-method storage-volume expansion-status health-indications [] health-state ok locality local operational-status ok scsi-release-delay 0 service-status unexported storage-tier supporting-device device_
将阈值设置为精简存储使用量 管理员可以对某些经过精简资源调配的存储设置软限制或阈值,说明经过精简资源调配的设备的存储空间正在减少。此阈值在主机 或阵列上配置,而不是在 Metro Node 上配置。消息会指示设备达到设定的阈值。目前,在从存储设备收到此类通知时,Metro Node 会在发送 Call Home 后重试 I/O。此类通知可以在处理 I/O 时接收一次,并且 I/O 必须最终成功,除非精简设备空间不足。在收到此 Call Home 通知时,Metro Node 管理员可以通知主机管理员释放空间或请求存储管理员添加更多容量。 精简镜像和迁移 Metro Node 支持将精简卷镜像和迁移到不同的阵列。 在重建精简分支的过程中,Metro Node 保留了分支的精简特性。为此,Metro Node 会向支持这些命令的阵列发出 SCSI UNMAP 命 令,并向不支持 UNMAP 功能的阵列上的数据块写入零。为经过精简资源调配的存储重建可为您提供有关精简重建的更多信息。 执行精简镜像 如果您将镜像连接到支持精简功能的设备,而该镜像不是精简镜像,则得到的 RAID 1 设备将失去其精简功能。 当您运行
VPlexcli:/> 关于精简迁移 Metro Node 支持将精简卷迁移到另一个存储阵列。 要使精简卷在迁移后支持精简存储管理功能,必须从同一个存储阵列系列创建源和目标卷。如果它们是从属于不同存储阵列系列的 阵列创建的,则 thin-enabled 属性将保留为 true,而 thin-capable 属性将设置为 false 并且 UNMAP 命令会被拒绝。 迁移支持精简功能的存储为您提供了有关精简存储迁移的更多信息。 Metro Node 中的精简支持 31
6 调配存储资源 本章介绍如何使用 Metro Node 集成式存储资源调配来调配存储资源。 主题: 资源调配概述 使用 EZ 资源调配来调配存储资源 更改虚拟卷的精简特性 • • • 资源调配概述 要开始使用 Metro Node,您必须调配存储资源,以使主机可以访问该存储。可以通过以下三种方式调配 Metro Node 中的存储资 源: ● EZ 资源调配 ● 高级资源调配 注: Dell EMC 建议使用 Metro Node Unisphere GUI 来调配存储资源。 使用 EZ 资源调配来调配存储资源 EZ 资源调配是一种简单的资源调配方法,仅在适用于 Metro Node 的 Unisphere 中可用。EZ 资源调配可创建具有到选定存储卷的一 对一映射的虚拟卷。使用 EZ 资源调配可创建一个使用存储卷的全部容量的虚拟卷。 在 EZ 资源调配中,您可以选择存储阵列并定义您希望通过何种方式使用、保护这些存储阵列并将其呈现给主机。要使用 EZ 资源调 配来调配存储资源,请执行以下操作: 1. 注册访问 Metro Node 存储的启动器。 2.
expansion-method expansion-status health-indications health-state locality operational-status scsi-release-delay service-status storage-tier supporting-device system-id thin-capable thin-enabled volume-type vpd-id storage-volume [] ok local ok 0 running XtremIO_LUN_1 XtremIO_LUN_1_vol true enabled virtual-volume VPD83T3:6000144000000010e03e55ee4c98c41f 注: 在 Metro Node 软件升级后,您可以使用通配符将多个 Metro Node 虚拟卷设置为启用精简资源调配。 /clusters/cluster-1/virtual-volumes/thick_1: Name Value -------------------------- -----------
7 卷扩展 本章介绍如何扩展虚拟卷。 主题: 概述 卷扩展方法 扩展虚拟卷 • • • 概述 Metro Node 虚拟卷是在设备或分布式设备上创建的,并通过存储视图呈现给主机。您可能由于许多原因需要扩展虚拟卷的容量。 如果卷支持扩展,Metro Node 会检测扩展获得的容量。然后,您可以确定可用的扩展方法:storage-volume。Metro Node 还可 以检测可用的扩展方法。 并非所有虚拟卷都可以扩展。有关更多详细信息,请参见确定卷扩展方法。 使用简单的无中断过程执行卷扩展: 1. 扩展与底层存储阵列上的虚拟卷关联的存储卷。 2. 允许 Metro Node 重新发现底层存储阵列。 3.
expansion-method expansion-status storage-volume - 请注意,expansion-method 属性值 storage-volume 指示 Metro Node 在默认情况下使用存储卷方法扩展此虚拟卷。 使用 Unisphere 列出 expansion-method 属性 使用 Unisphere 时,单击虚拟卷名称可显示要扩展的虚拟卷的属性。 在下面的示例中,device_BASIC_vnx-1912_LUN146_1_vol 的属性指示建议的扩展方法是 storage-volume。默认情况下,Metro Node 使用存储卷方法来扩展此虚拟卷。 有关使用 Unisphere 扩展卷的详细信息,请参见 Metro Node 管理服务器上提供的帮助。 图 1: 虚拟卷扩展属性(适用于 HTML5) 卷扩展 35
扩展虚拟卷 存储卷扩展方法 请遵循以下指导准则来使用存储卷方法扩展虚拟卷。 概述 扩展存储卷方法支持在各种设备几何结构上进行简单快速的扩展。下面介绍了三种最常用的设备几何结构。 1:1 虚拟卷到存储卷 图 2: 常见几何结构:1:1 虚拟卷到存储卷 36 卷扩展
双分支 RAID 1 图 3: 常见几何结构:双分支 RAID 1 存储卷扩展方法前提条件 要使用存储卷扩展方法扩展设备或添加用于扩展的目标,Metro Node 虚拟卷的几何结构必须符合以下条件之一: ● 虚拟卷按 1:1 映射到底层存储卷。 ● 虚拟卷是多分支 RAID 1 卷,并且其每个最小扩展区按 1:1 映射到后端存储卷。 ● 卷的几何结构是先前列出的任何几何结构的组合。 卷扩展计划 列出 expandable-capacity 属性(在 CLI 中)或 Expandable By 字段(在 Unisphere 中)计划后端存储设备的容量。 ● expandable-capacity/Expandable By — 对于可使用存储卷扩展方法扩展的虚拟卷,该值是添加到后端存储卷但尚未被 虚拟卷呈现给主机的容量。 此容量可用于使用存储卷扩展方法来扩展 Metro Node 虚拟卷。 ○ 0(零)— 值为零表示卷没有可扩展容量。请参阅 expansion-method 属性以确定是否支持基于存储卷的扩展。 ○ 非零值 — 非零值表示用于扩展 Metro Node 虚拟卷的可用容量。检查 expans
● 初始化进程完成后,新扩展的虚拟卷容量将可供主机使用。 ● 如果 Metro Node 将存储卷声明为经过精简资源调配,则初始化进程不会影响报告给 Metro Node 的额外容量的底层资源调 配。 检查卷扩展的状态 通过在 virtual-volumes 上下文中列出以下属性的值,查询卷扩展的状态。 ● expansion-status — 虚拟卷扩展的状态。指示虚拟卷扩展是正在进行还是已失败。 该属性将具有下列值之一: ○ in-progress — 扩展正在进行中。 ○ failed — 最近进行的扩展已失败,需要重试扩展。如果不重试扩展,则此状态会持续两天时间。如果未进行修复,则两天 过后,失败状态将会清除,并假定卷已修复。 ○ unknown — 无法确定状态。这可能是因为通信错误,也可能是因为内部编程错误。 ○ - (短横线字符)— 以上状态均不适用。 ● expansion-summary — 如果不存在正在进行的扩展或失败的扩展,并且没有可扩展容量为非零的虚拟卷,则虚拟卷摘要命令 可在 expansion-summary 中显示 No expansion activity。 限制 以下是
有关为 Metro Node 配置存储阵列的过程,请参阅 SolVe Desktop。 注: 请在 SolVe Desktop 中查看适用于主机和阵列连接与配置的最佳实践。某些阵列需要特定的自动检测设置。 小心: 阵列重新发现可能会占用大量资源,可能会对 I/O 造成中断。仅在必要时重新发现阵列。 卷扩展 39
8 数据迁移 本章介绍数据迁移和重建。 主题: • • • • • 关于数据迁移 迁移支持精简功能的存储 关于重建 一次性数据迁移 批量迁移 关于数据迁移 数据迁移有两种类型: ● 一次性迁移 — 在使用 dm migration start 命令时立即开始执行设备迁移。 ● 批量迁移 — 使用可重复使用的迁移计划文件作为批处理作业运行。您可以使用单个命令执行多个设备或扩展区迁移。 一次性迁移 一次性迁移包括: ● 设备迁移 — 设备是指在扩展区或其他设备上构建的按 1:1 映射的设备或 RAID 1 设备。 设备迁移可在同一群集上的设备之间或不同群集上的设备之间移动数据。设备迁移可用于: ○ 在不相似的阵列之间迁移数据。 ○ 将热门卷重新定位到较快的阵列。 ○ 将设备重新定位到另一群集内的新阵列。 限制 ● 不支持分布式设备之间的设备迁移。 ● 必须从一致性组中删除设备,然后才能在群集之间迁移这些设备。 批量迁移 批量迁移可迁移多个设备。创建批量迁移,以自动执行日常任务: ● 使用批量设备迁移可以迁移到不同的阵列(必须配置目标容量以匹配源阵列的容量和层),以及在 Metro Node Metro
4. 暂停、恢复或取消迁移(可选)。 5. 提交迁移。提交操作可将源虚拟卷、设备传输到目标。 如果设备上面的虚拟卷具有系统分配的默认名称,则提交设备迁移将以目标设备的名称来重命名虚拟卷。 6. 删除迁移记录。 目标设备的前提条件 目标设备必须: ● 大小等于或大于源设备。 如果目标的大小大于源,在存储卷扩展的所有前提条件均满足的情况下,可以通过使用存储卷扩展来利用额外空间。 例如,如果源为 200 GB,而目标为 500 GB,则在迁移后仅可使用目标的 200 GB 。如果虚拟卷支持,则可以通过执行存储卷扩 展来申请剩余的 300 GB。 ● 其上没有任何现有的卷。 警告: 建议不要在群集之间迁移设备。所有设备迁移均为同步。如果要迁移的设备存在 I/O 操作,并且目标群集的延迟等于 或长于 5 毫秒,则可能会发生严重的性能降级。 迁移支持精简功能的存储 下表介绍了受支持的迁移方案,以及迁移之前、迁移期间和迁移之后的虚拟卷状态。 表.
注: ● 在迁移期间,会创建一个临时镜像,用于将数据从迁移源移到目标。只有在虚拟卷上将 thin-capable 和 thin-enabled 属性都设置为 true 时,Metro Node 才会处理 UNMAP 命令。 ● 如果迁移的目标是容量比源设备大且支持精简功能的设备,则在迁移完成后,Metro Node 虚拟卷会继续支持精简功能,并会 保留之前经过资源调配的 thin-enabled 属性。要利用未使用的容量,请使用 virtual-volume expand 命令。 当从启用精简功能的设备迁移到非精简设备(如密集设备)时,卷的 thin-enabled 属性将保持 enabled 状态,但在迁移期间将 拒绝 UNMAP。迁移成功完成后,thin-enabled 属性将变为 unavailable,因为目标设备是密集设备。此行为是有意设计的, 因为迁移中止或失败时卷将恢复为精简卷。 在运行一次性迁移时,请考虑以下事项: ● 在精简到密集扩展区迁移或设备迁移中(具有受支持的虚拟卷),如果源支持精简功能,而目标不支持精简功能,则在迁移后, 受支持的虚拟卷不会启用精简功能或不支持精简功能。 VPlexc
migration 'my_migration' is committed. Committed 1 data migration(s) out of 1 requested migration(s). VPlexcli:/data-migrations/extent-migrations> ● 在精简到精简扩展区或设备迁移中(具有受支持的虚拟卷),如果 thin-enabled 值设置为 false,则提交迁移后将不会发生更改。 VPlexcli:/data-migrations/extent-migrations> dm migration commit my_migration2 --force Committed 1 data migration(s) out of 1 requested migration(s).
● 对于多个精简到密集迁移,VPlexcli 会通过多条警告报告迁移问题。以下示例显示了两个精简到密集迁移,其中一个迁移没有虚 拟卷。 VPlexcli:/> batch-migrate check-plan --file /var/log/VPlex/cli/migration.txt Checking migration plan file /var/log/VPlex/cli/migration.txt. WARNING: The source 'device_thin_1' is thin-capable but the target 'device_thick_1' is not thin-capable. The virtual-volume 'thin_1' will not be thin-enabled or thin-capable after migration. PROBLEM: Source device '/clusters/cluster-1/devices/device_thin_2' does not have a volume.
会在写入之前检查清零数据的内容,并在会导致不必要分配的位置抑制写入。为使此精简重建算法被选择,Metro Node 会在申请过 程中,在支持精简功能的卷上设置 thin-rebuild 标记。对于不支持精简功能的存储卷,Metro Node 管理员会在申请存储期间或 之后将第三个属性 thin-rebuild 设置为 true。 注: 在执行存储卷申请操作期间,Metro Node 会在支持精简功能的阵列上自动将精简重建标记设置为 true。Metro Node 不会在 已被申请且该标记设置为 false 的精简存储卷上执行此活动。 无论存储卷是否支持精简功能,Metro Node 都允许您更改存储卷的 thin-rebuild 值。对于支持精简功能的存储卷,如果您尝试将 thinrebuild 属性设置为 false,则 VPlexcli 将显示一条警告。在将源的所有内容都写入目标的情况下,如果符合以下条件,则性能可能高 于正常重建: ● 存储卷不支持精简功能 ● 重建的源和目标的内容几乎相同 ● 在精简重建过程中仅写入不同的数据 通过发现的存储卷精简资源调配属性,可以创建支持精简资源调配的 Metro N
例如: VPlexcli:/data-migrations/device-migrations> dm migration start --name migrate_012 --from device_012 --to device_012a --transfer-size 12M 小心: 设置较大的传输大小可能导致数据不可用。只有完全了解性能影响时,才能更改默认值。 如果主机 I/O 活动较频繁,则设置较大的传输大小可能影响主机 I/O。 请参见关于传输大小。 监视迁移的进度 使用 ls 命令显示迁移的状态。 关于此任务 VPlexcli:/> ls data-migrations/device-migrations/ migrate_012 Name Value --------------- ---------------------------from-cluster cluster-1 percentage-done 10 source device_012 source-exported false start-time Fri May 28 13:32:23 MDT 2010 status i
表.
提交已完成的迁移 迁移进程会在源设备上方插入一个临时 RAID 1 结构,并将目标作为 RAID 1 的过时分支。可以将迁移理解为过时分支(目标)的同 步。 关于此任务 迁移完成后,提交步骤会分离 RAID 1 的源分支,并删除 RAID 1。 除源设备被替换为目标设备外,虚拟卷或设备与迁移之前完全相同。 必须提交迁移才能进行清理。 小心: 请验证迁移已成功完成,然后再提交迁移。 使用 dm migrations commit --force --migrations migration-name 命令提交迁移。 注: 您必须使用 --force 选项提交迁移。 例如: ● 提交设备迁移: VPlexcli:/data-migrations/device-migrations> dm migration commit --force --migrations migrate_012 Committed 1 data migration(s) out of 1 requested migration(s).
批量迁移 批量迁移从可重复使用的批量迁移计划文件作为批处理作业运行。使用 create-plan 命令创建迁移计划文件。 可对设备执行单一批量迁移计划。 注: 迁移会占用高速缓存资源。同时运行多个迁移可能影响主机 I/O。 批量迁移可用于: ● 停用存储阵列(租约到期)并使新阵列联机。 ● 将设备迁移到其他存储阵列类别。 执行批量迁移的步骤通常与执行数据迁移的常规步骤中所述的步骤相同。 准备批量迁移需要执行两个额外的步骤: 1. 创建批量迁移计划文件(使用 batch-migrate create-plan 命令) 2. 测试批量迁移计划文件(使用 batch-migrate check-plan 命令) 前提条件 批量迁移需要以下前提条件: ● 源和目标是两个设备。 ● 必须在目标阵列上配置本地设备(设备迁移)。 ● 目标的结构与源的结构相同。 创建批量迁移计划 batch-migrate create-plan 命令使用指定的源和目标创建迁移计划。 关于此任务 在下面的示例中,batch-migrate create-plan 命令可创建一个名为“MigDev-test.
如果迁移计划中包含错误,将显示错误说明,并且计划检查将失败。例如: VPlexcli:/> batch-migrate check-plan --file MigDev-test.txt Checking migration plan file /var/log/VPlex/cli/MigDev-test.txt. Target device '/clusters/cluster-2/devices/dev1723_61C' has a volume. Target device '/clusters/cluster-2/devices/dev1723_618' has a volume. Plan-check failed, 2 problems. 使用修改批量迁移文件 中所述的步骤以更正该计划。 重复执行检查和修改过程,直至批量迁移计划通过计划检查。例如: VPlexcli:/> batch-migrate check-plan --file migrate.txt Checking migration plan file /temp/migration_plans/migrate.txt.
暂停/恢复批量迁移(可选) 可以暂停和恢复活动的批量迁移(已启动的迁移)。 关于此任务 暂停活动的批量迁移,以便在流量高峰期间释放带宽,供主机 I/O 使用。 在低 I/O 期间恢复批量迁移。 使用 batch-migrate pause 命令暂停指定的活动迁移。例如: VPlexcli:/data-migrations/device-migrations> batch-migrate pause --file migrate.txt 使用 batch-migrate resume 命令恢复指定的暂停迁移。例如: VPlexcli:/data-migrations/device-migrations> batch-migrate resume --file migrate.txt 取消批量迁移(可选) 取消活动的批量迁移,以将源卷恢复到迁移开始之前的状态。 关于此任务 使用 batch-migrate cancel 命令取消指定的迁移。例如: VPlexcli:/data-migrations/device-migrations> batch-migrate cancel --file migrate.
查看批量迁移的状态 使用 batch-migrate summary 命令显示指定的批量迁移的状态。 关于此任务 例如: VPlexcli:/> batch-migrate summary migrate.txt Processed 10 migrations from batch migration BR0: committed: 0 complete: 10 in-progress: 0 paused: 0 error: 0 cancelled: 0 no-record: 0 表. 9: 批量迁移摘要 字段 描述 Processed....
例如: VPlexcli:/> batch-migrate commit --file migrate.txt 清理批量迁移 对于设备迁移,清理操作可将源设备拆解到其存储卷。不再使用的存储卷将处于取消申请状态。 关于此任务 仅对于设备迁移而言,使用可选的 --rename-target 参数以源设备的名称重命名目标设备。重命名目标设备后,如果该设备上面 的虚拟卷具有系统分配的默认名称,则该虚拟卷也将重命名。 如果不进行重命名,目标设备将保留其目标名称,这可以使卷和设备之间的关系不太明显。 使用 batch-migrate clean --file 命令清理指定的批量迁移。 小心: 在删除批量迁移之前,必须先运行此命令。此命令不会清理 VPlexcli 上下文树中没有记录的迁移。 在下面的示例中,源设备被拆解到其存储卷,而目标设备和卷以源设备的名称进行重命名 VPlexcli:/> batch-migrate clean --rename-targets --file migrate.txt Using migration plan file /temp/migration_plans/migrate.
9 配置 WAN 网络 每个 Metro Node 控制器上的两个 WAN 端口均支持双 10 千兆以太网群集间链路。在安装第二个群集的过程中配置 WAN 端口。本章 介绍用于更改在安装过程中创建的配置的 CLI 上下文和过程。 主题: • • • • • Metro Node 硬件和 WAN 端口 基于 IP WAN 的 Metro 端口配置规则 CLI 上下文 管理和监视后端网络 LDAP Metro Node 硬件和 WAN 端口 在基于 IP 的 Metro Node Metro 群集中,控制器有两个 10 千兆以太网 (10 GbE) 端口,分别命名为 WC-00 和 WC-01。 警告: 在 Metro Node Metro 配置中,控制器上以及群集之间通过 WAN 端口传输的数据不被加密。为防止 DNS 攻击,WAN 端 口应仅在安全和受信任的网络上进行路由。有关 Metro Node 配置中支持的加密设备的信息,请参见 Metro Node 的简单支持 矩阵。 基于 IP WAN 的 Metro 端口配置规则 基于 IP WAN 的 Metro 端口必须符合以下规则: ● 控制器上的两
端口组上下文 分配给每个连接角色(back-end、front-end、local-com 或 wan-com)的端口组(或通信路径)包含在每个角色的 port-groups 子 上下文中。 每个群集上名为 WC-00 的端口统称为 ip-port-group-0。有两个 ip-port-group-0,每个群集各有一个。每个群集上的 ip-port-group-0 构成群集之间的一个通信通道。 每个群集上名为 WC-01 的端口统称为 ip-port-group-1。有两个 port-group-1,每个群集中各有一个。每个群集上的 ip-port-group-1 构 成群集之间的另一个通信通道。 在下面的示例中,Metro Node Metro 配置在每个群集中有两个后端 fc-port-group: VPlexcli:/clusters/cluster-1/connectivity/back-end> cd port-groups/ VPlexcli:/clusters/cluster-1/connectivity/back-end/port-groups> ll Name Enabled Member
成员端口 member-ports 上下文下的所有属性均为只读。 所有端口组都包含 member-ports 上下文,其中列出端口组中的每个控制器中的端口。端口组会记住变为不可访问的控制器中的成员 端口。如果控制器变为不可访问,则端口组将显示不可访问的端口,而且会指示它们不可访问。仅当 CLI 的当前实例在控制器变为不 可访问之前知晓端口时,才可能记住不可访问的端口。如果在启动 CLI 时控制器不可访问,则其端口将不会显示在任何端口组中。 member-ports 上下文的长列表提供了端口组的成员端口的摘要: VPlexcli:/clusters/cluster-1/connectivity/wan-com/port-groups/ip-port-group-0/member-ports> ll Director Port Enabled Address -------------- ----- ------- -------------director-1-1-A WC-00 enabled 192.168.10.35| director-1-1-B WC-00 enabled 192.168.10.
-------------cluster-1-SN00 cluster-1-SN01 default-subnet 要清除子网,请使用 configuration subnet clear 命令。 /connectivity/back-end/ back-end 角色上下文包含连接到后端存储阵列所需的配置信息。 back-end 角色不具有任何关联的属性。请注意,只有 IP port-groups 具有子网上下文。 port-groups/ip-port-group-*/subnet/ back-end 角色上下文具有允许您配置路由以访问地址不被 prefix 包含的目标的子网。 以下是子网属性的说明: ● ● ● ● gateway — 与该子网关联的网关的地址。 mtu — 该子网的最大传输单位。 prefix — 该子网的前缀和掩码。 remote-subnets — 可从该子网访问的远程网络的前缀。 有关修改或清除这些属性的信息,请参阅 subnets context。 /connectivity/front-end/ front-end role 上下文包含连接到前端主机所需的配置信息。
当 IT Nexus 上有超过 20 个 ITL 被处罚时,IT Nexus 会被标记为降级,而且 Metro Node 会自动停止使用 IT Nexus 处理基于主机的 I/O,直到性能提高为止。 注: 如果逻辑单元的最后一个可用路径被标记为降级,则不能将其从服务中排除,并将应用处罚,以便一次仅允许对 LU 执行单 次 I/O。每个控制器的每个逻辑单元的一个 ITL 继续接收命令。一旦性能提高,Metro Node 会自动恢复对逻辑单元的默认未完成 I/O 次数。 可以使用 VPlexcli 命令 back-end degraded list 监视降级的后端 IT Nexus。有关更多详细信息,请参见 Metro Node CLI 参考指 南。由于持续的高延迟而使 IT Nexus 被标记为降级时,该命令会列出降级原因:Degraded performance。 如果用户发现某个降级的 IT Nexus 已恢复到正常运行状态,还可以通过 VPlexcli 命令 back-end degraded recover 手动恢复其 使用。 由于性能不稳定,将后端 IT Nexus 标记为隔离 如果发现后端 IT
示例(ldapsearch 命令) 使用 ldapsearch 命令验证目录服务器的属性映射值。 ● 要确定位于给定组织单元下的用户,请执行以下操作: service@ManagementServer:~> /usr/bin/ldapsearch -x -LLL -l 30 -H ldap://10.31.50.
10 Cluster Witness 通过支持 Cluster Witness (CW),Metro Node 解决方案可以通过仲裁两个主站点之间的纯通信故障和多站点体系结构中的实际站点故 障来提高总体环境可用性。对于 7.0.1 及更高版本,系统现在可以依靠称为 Metro Node Witness 的组件。Witness 是一个可选组件, 专用于部署在以下客户环境中:当出现站点灾难、Metro Node 群集和群集间故障时,常规首选规则集不足以提供无缝的零 RTO 或近 零 RTO 存储可用性。有关与配置 Cluster Witness (CW) 相关的详细信息,请参见 SolVe (https://solveonline.emc.
11 一致性组 本章介绍如何管理和操作 Metro Node 一致性组。 主题: • • • • 关于 Metro Node 一致性组 一致性组的属性 管理一致性组 操作一致性组 关于 Metro Node 一致性组 Metro Node 一致性组将卷聚合在一起,以便使一组常见属性一致地应用于整个组。 图 5: Metro Node 一致性组 同步一致性组 同步一致性组提供一种简便方法,可将规则集和其他属性应用于 Metro Node Local 或 Metro Node Metro 中的卷组。 Metro Node 支持最多 1024 个同步一致性组。 同步一致性组: ● ● ● ● 包含最多 1000 个虚拟卷。 包含本地或分布式卷(不可同时包含两者)。 包含具有全局或本地可见性的卷。 使用直写缓存(在 Metro Node 用户界面中称为同步高速缓存模式)。 通过完成到磁盘的所有写入,然后再确认到主机的写入,保持写入顺序保真度。 下图显示了跨 Metro Node Metro 配置中的两个群集的同步一致性组。 一致性组 61
图 6: 同步一致性组 ● 两个群集上的主机都会写入一致性组中的 Metro Node 分布式卷。 ● Metro Node 将数据写入两个群集上的后端存储中 ● 向发出写入的主机返回确认。 这可确保后端存储上的映像在两端都是精确的拷贝。 同步一致性组:可见性 同步一致性组支持分布式卷或本地卷(但这两种卷不能位于同一个一致性组中)。 本地同步一致性组只有本地卷作为成员。本地同步一致性组可以将 Visibility 属性设置为: ● 本地可见性 — 一致性组中的本地卷仅对本地群集可见 ● 全局可见性 — 一致性组中的本地卷的存储在一个群集上,但对两个群集均可见。 本地可见性 将 Visibility 属性设置为仅本地群集的一致性组仅可读取和写入其本地群集。 下图显示了具有本地可见性的本地一致性组。 62 一致性组
图 7: 具有本地可见性的本地一致性组 全局可见性 如果本地一致性组的 Visibility 属性设置为两个群集(全局可见性),则两个群集均可以从没有本地拷贝的群集接收 I/O。 在来自该远程群集的所有写入在得到确认之前都要经过群集间 WAN 链路。 任何不能在本地处理的读取也会通过链路传输。这样,远程群集可以对一致性组进行即时按需访问,但也为远程群集增加了额外延 迟。 Metro Node Metro 环境中支持具有全局可见性的本地一致性组。只能将本地卷放置在具有全局可见性的本地一致性组中。具有全局 可见性的本地一致性组始终使用直写缓存模式(同步高速缓存模式)。传输到具有全局可见性的本地一致性组的 I/O 将始终保持同 步。 下图显示了具有全局可见性的本地一致性组。 一致性组 63
图 8: 具有全局可见性的本地一致性组 一致性组的属性 一致性组的属性将应用于一致性组中的所有虚拟卷。 所有一致性组都具有可配置的属性,这些属性用于确定 I/O 行为,其中包括: ● ● ● ● ● Visibility Storage-at-clusters Detach-rule Auto-resume-at-loser Virtual-volumes 可见性 可见性控制哪些群集知道一致性组。 注: 一致性组的可见性与设备的可见性属性不同。设备的可见性可以设置为 local(仅对本地群集可见),也可以设置为 global(对两个群集均可见)。所有分布式设备均具有全局可见性。 默认情况下,一致性组的 visibility 属性设置为仅在其中创建一致性组的群集。如果在 cluster-2 上创建了一致性组,则最初仅在 cluster-2 上可见。 一致性组中卷的可见性必须与该一致性组的可见性匹配。 如果一致性组中卷的可见性设置为“local”,则不能将一致性组的可见性设置为包含其他群集。例如,如果将 visibility 属性设置为 local 的卷 LocalVolume 添加到一致性组 TestCG
注: 只有一致性组的 visibility 属性包含该群集时,指定的一致性组的上下文才会显示在群集的一致性组 CLI 上下文中。 在正常操作下,可以修改 visibility 属性以从一个群集扩展到两个群集。 在 /clusters/cluster/consistency-groups/consistency-group 上下文中使用 set 命令修改 visibility 属性。如果一致 性组 TestCG 仅在 cluster-1 上可见,请使用 set 命令使其对 cluster-1 和 cluster-2 可见: VPlexcli:/clusters/cluster-1/consistency-groups/TestCG> set visibility cluster-1,cluster-2 如果一致性组包含具有给定可见性的虚拟卷(例如,成员卷的可见性设置为 local),则不能更改该一致性组的 visibility 属性,以 防与成员虚拟卷的 visibility 属性相冲突。 例如,一致性组 TestCG 仅在 cluster-1 上可见,并且包含一个卷 V,其设备位于 cluster-1 上且具
使用 consistency-group set-detach-rule 命令为一致性组配置分离规则: ● 使用 consistency-group set-detach-rule no-automatic-winner 命令将分离规则设置为 no-automaticwinner: VPlexcli:/clusters/cluster-1/consistency-groups/TestCG> set-detach-rule no-automatic-winner ● 使用 consistency-group set-detach-rule winner 命令指定哪个是优胜群集,以及在链路中断之后,Metro Node 在分 离优胜群集之前等待的秒数: VPlexcli:/clusters/cluster-1/consistency-groups/TestCG> set-detach-rule winner --cluster cluster-1 --delay 5s 下表介绍了同步一致性组的分离规则行为。 表.
在高级上下文中使用 set 命令为一致性组配置 auto-resume 属性: VPlexcli:/clusters/cluster-1/consistency-groups/TestCG/advanced> set auto-resume-at-loser true Virtual-volumes 管理员可以在一致性组中添加和删除虚拟卷。要将虚拟卷添加到一致性组,该虚拟卷需要具备以下条件: ● 不得为日志记录卷 ● 每个群集在目标一致性组的 storage-at-clusters 属性中必须具有存储 ● 不能是任何其他一致性组的成员 ● 任何与一致性组的属性相冲突的属性(例如 detach rules 或 auto-resume)将自动更改为与一致性组的属性相匹配 注: 允许具有不同属性的虚拟卷加入一致性组,但会继承该一致性组的属性。 使用 consistency-group list-eligible-virtual-volumes 命令显示有资格添加到一致性组的虚拟卷。 使用 consistency-group add-virtual-volumes 命令将一个或多个虚拟卷添加到一致性组。 使用 ll
设置 visibility 属性 默认情况下,一致性组的 visibility 属性设置为在其中创建一致性组的群集。如果在 cluster-2 上创建了一致性组,则最初仅 在 cluster-2 上可见。 可以按如下方式配置可见性: ● cluster-1 — 卷是 cluster-1 的本地卷。 ● cluster-2 — 卷是 cluster-2 的本地卷。 ● cluster-1,cluster-2 — 具有分支的分布式卷在两个群集上。 4.
可以将分布式卷添加到将 visibility 设置为两个群集并将 storage-at-cluster 设置为两个群集的同步一致性组。 要将虚拟卷添加到现有的一致性组,请执行以下操作: 步骤 1. 导航至目标一致性组的上下文: VPlexcli:/> cd clusters/cluster-1/consistency-groups/TestCG 2. 使用 consistency-group list-eligible-virtual-volumes 命令显示有资格添加到一致性组的虚拟卷: VPlexcli:/clusters/cluster-1/consistency-groups/TestCG> consistency-group list-eligiblevirtual-volumes [TestDDevice-1_vol, TestDDevice-2_vol, TestDDevice-3_vol, TestDDevice-4_vol, TestDDevice-5_vol] 3.
修改一致性组属性 关于此任务 使用一致性组设置分离规则修改应用于一致性组的分离规则: ● consistency-group set-detach-rule no-automatic-winner ● consistency-group set-detach-rule winner 使用 set 命令修改一致性组的以下属性: ● Visibility ● Storage-at-clusters ● Local-read-override 要使用 set 命令及其有效输入显示可修改(可写入)的属性,请执行以下操作: VPlexcli:/clusters/cluster-1/consistency-groups/TestCG> set attribute input-description -----------------------------------------------------------------------------------------------------------------active-clusters Read-only. cache-mode Read-only.
要更改一致性组上下文中的 visibility 属性,请执行以下操作: VPlexcli:/clusters/cluster-1/consistency-groups> set TestCG::visibility cluster-1,cluster-2 要更改根上下文中的 visibility 属性,请执行以下操作: VPlexcli:/> set /clusters/cluster-1/consistency-groups/TestCG::visibility cluster-1,cluster-2 修改示例:应用分离规则 下表列出了具有不同的 visibility 和 storage-at-clusters 设置的一致性组的适用分离规则。 关于此任务 表.
删除一致性组 关于此任务 要销毁空的一致性组,请执行以下操作: 步骤 1. 使用 ls -f 命令验证一致性组中没有虚拟卷 (virtual volumes = [ ])。 VPlexcli:/> ls clusters/cluster-1/consistency-groups/TestCG Attributes: Name Value -------------------- ---------------------active-clusters [] cache-mode synchronous detach-rule operational-status [ok] passive-clusters [] recoverpoint-enabled false storage-at-clusters [cluster-1, cluster-2] virtual-volumes [] visibility [cluster-1, cluster-2] . . . 2.
使用 /clusters/cluster-name/consistency-groups 上下文中的 ls 命令可以仅显示指定群集上的一致性组的名称。 VPlexcli:/> ls /clusters/cluster-1/consistency-groups/ /clusters/cluster-1/consistency-groups: TestCG test10 test11 test12 test13 test14 test15 test8 test9 vs_RAM_c1wins vs_RAM_c2wins vs_oban005 vs_sun190 test16 test5 test6 test7 使用 /clusters/cluster-name/consistency-groups 上下文中的 ll 命令可以显示一致性组的概览。 使用此命令可以监视一致性组的整体运行状况,并确定配置不良的规则: VPlexcli:/clusters/cluster-1/consistency-groups> ll Name Operational Status Active Rule Cache Mode
-------------------------auto-resume-at-loser current-queue-depth current-rollback-data default-closeout-time delta-size local-read-override max-possible-rollback-data maximum-queue-depth potential-winner write-pacing -------true true disabled 以下示例显示发生群集间链路中断时使用 /clusters/cluster-name/ consistency-groups/consistency-group 上下文 中的 ls 命令时的输出。 ● detach-rule 是 no-automatic-winner,因此 I/O 会在两个群集中停止。在群集间链路重新启动,或者您使用 consistency-group choose-winner 命令进行干预之前,Metro Node 会一直保持该状态。 ● 状态 summary 为 suspended,表明 I/O 已停止。
passive-clusters [] recoverpoint-enabled false storage-at-clusters [cluster-1, cluster-2] virtual-volumes [dd1_vol, dd2_vol] visibility [cluster-1, cluster-2] Contexts: advanced recoverpoint 表.
表.
-------------------active-clusters cache-mode detach-rule operational-status detach] }), ----------------------------------------[cluster-1, cluster-2] synchronous no-automatic-winner [(cluster-1,{ summary:: ok, details:: [requires-resolve-conflicting- (cluster-2,{ summary:: ok, details:: [requires-resolve-conflictingdetach] })] passive-clusters [] recoverpoint-enabled false storage-at-clusters [cluster-1, cluster-2] virtual-volumes [dd1_vol, dd2_vol] visibility [cluster-1, cluster-2] Contexts: advanced r
● 将失败群集上的数据映像与优胜群集上的数据映像重新同步。 ● 恢复处理 I/O 操作。 然后,您可以在失败群集上安全地重新启动应用程序。 要在失败群集上重新启动 I/O,请执行以下操作: 步骤 1.
您不能将具有无效拓扑的虚拟卷添加到只读一致性组。consistency-group add-virtual-volumes 命令失败。如果将一致性 组设置为只读,并且该一致性组已包含具有无效拓扑的虚拟卷,则 set read-only true 命令将失败。 由于 read-only 和 recoverpoint-enabled 属性不兼容,因此一个一致性组不能同时为这两个属性。 步骤 使用 set 命令将该一致性组设置为只读。 VPlexcli:/> cd/clusters/cluster-1/consistency-groups/test VPlexcli:/clusters/cluster-1/consistency-groups/test>set read-only true VPlexcli:/clusters/cluster-1/consistency-groups>ll Name Operational Active Passive Detach Rule Cache Mode Read ------ Status Clusters Clusters ---------- --------Onl
12 性能和监控 本章介绍 RPO/RTO 以及创建和操作性能监控器的步骤。 主题: • • • • • • • 关于性能 关于性能监控 使用 CLI 监视性能 启用和禁用端口 端口监视 统计信息 统计信息表 关于性能 本章介绍与 Metro Node 系统性能相关的以下主题: ● 配置 — 可修改的参数,能够用于充分提高性能并管理恢复点目标 (RPO) 和恢复时间目标 (RTO)。 ● 监视 — 用于监视 Metro Node 的性能以及发现和诊断问题的工具和技术。 RPO 和 RTO 恢复点目标 (RPO):RPO 是存储系统故障点和存储系统能够恢复客户数据的过往预期点之间的时间间隔。 RPO 是出现故障后应用程序可以容忍的最大数据丢失量。RPO 值很大程度上取决于所使用的恢复技术。例如,对于备份,RPO 通常 是数天;对于异步复制,一般是几分钟;对于镜像或同步复制,则是几秒或瞬时。 恢复时间目标 (RTO):RTO 是存储解决方案预计从故障中恢复并开始处理应用程序请求的持续时间。 RTO 是由存储系统故障所导致的可容忍的最长应用程序宕机时间。RTO 是存储技术的一个功能。对于备份系统,RTO 可
自定义监控器 您可以使用 CLI 创建自定义监控器,以收集和显示选定目标的统计信息。 请参见使用 CLI 监视性能。 永久监控器 GeoSynchrony 包括用于每隔 30 秒收集一组标准性能统计信息的永久监控器。永久监控器可收集与 Metro Node 控制器和虚拟卷的性 能相关的统计信息。 永久监控器文件作为 collect-diagnostics 的一部分进行收集。针对每个群集运行 collect-diagnostics,因此在 Metro 配置中, 从每个 Metro Node 群集上的一个节点运行该命令。 永久监控器的输出捕获在基本 collect-diagnostics zip 文件中的文件 smsDump_date.zip 中。 在 smsDump_date.
当前 5 分钟窗口的性能信息显示为一组图表,其中包括: ● WAN 链路性能图表 — 显示您连接到的群集的 WAN 链路性能。使用此图表可以监视链路性能,从而帮助确定您的特定环境的带 宽要求、收集随时间推移的统计数据、监视高峰期的网络流量或规划数据移动作业以避开高峰使用时间。 ● WAN 延迟图表 — 提供 WAN 延迟的基于时间的视图。类别 avg-lat/min-lat/max-lat 分别报告过去 5 秒或更短时间内观察到的 值。 ● 写入延迟增量图表 — 提供每个控制器的前端延迟与后端延迟之间的增量。这是 Local/Metro 的关键指标 — Metro Node 处理写 入所花费的开销时间量。 ● 后端错误图表 — 显示存储阵列的后端 I/O 错误。后端错误有三种类别:中止、超时和重置。 ● 后端吞吐量图表 — 显示控制器后端在一段时间内的每秒 I/O 次数。通常,吞吐量(更常称为 IOPS)与小数据块 I/O(4 KB 或 16 KB I/O 请求)相关联。 ● 后端带宽图表 — 显示控制器后端在一段时间内的每秒读取和写入次数。通常,带宽(以 Kb/秒或 MB/秒测量)与大数据块 I/O (64
在下面的示例中,监视器的输出已超过 10 MB。初始 10 MB 存储在 filename.csv.1 中。随后的输出存储在 filename.csv 中。 service@sms-cluster-1:/var/log/VPlex/cli> ll my-data.csv* -rw-r--r-- 1 service users 2910722 2012-03-06 21:23 my-data.csv -rw-r--r-- 1 service users 10566670 2012-03-06 21:10 my-data.csv.1 如果第二个文件超出 10 MB: ● 前一个 filename.csv.1 更改为 filename.csv.2 ● filename.csv 更改为 filename.csv.1 ● 随后的输出存储在 filename.csv 最多 10 次此类轮换,支持编号的 csv 文件。 当删除文件接收器或销毁监视器时,输出到 .csv 文件将停止,并且当前 .
创建具有默认期间和无目标的简单监控器: VPlexcli:/monitoring> monitor create --name TestMonitor --director director-2-1-B --stats director.fe-read,director.fe-write Successfully created 1 monitor(s) out of 1. 创建一个监控器,以便每隔 10 秒从 /clusters/cluster-1/directors/director-1-1-A 上的控制器类别中收集统计信息: VPlexcli:/monitoring> monitor create --name DirStats --period 10s --director /clusters/ cluster-1/directors/director-1-1-A --stats director.
/monitoring/directors/Director-2-1-B/monitors/Director-2-1-B_TestMonitor/sinks/console: Name Value ------- ------enabled true format table sink-to console type console 添加文件接收器 使用 monitor add-file-sink 命令将文件接收器添加到现有监视器。 关于此任务 文件接收器的默认格式为 csv(逗号分隔的值)。 新接收器的默认名称为 file。 接收器输出的默认位置为 /var/log/VPlex/cli。 要添加文件接收器以将输出发送到指定的 csv 文件,请执行以下操作: VPlexcli:/monitoring/directors/director-1-1-A/monitors> monitor add-file-sink director-1-1-A_stats --file /var/log/VPlex/cli/director_1_1_A.
SNMP 接收器只能添加到配置用于收集 fe-lu 或磁盘统计信息的监控器。 Fe-lu 统计信息类别中的所有统计信息都必须包含在监控器中。 在下面的示例中: monitor stat-list fe-lu 命令可显示 fe-lu 类别中的所有统计信息 monitor create 命令可创建用于收集所有 fe-lu 统计信息的监控器 cd 命令可将上下文更改为新监控器 add-snmp-sink 命令可将 SNMP 接收器添加到监控器 ● ● ● ● VPlexcli:/monitoring/directors/director-1-1-B/monitors> monitor stat-list fe-lu Name Target Type Units --------------- -------------- ------- -------fe-lu.ops virtual-volume counter counts/s fe-lu.read virtual-volume counter KB/s fe-lu.read-lat virtual-volume bucket us fe-lu.
使用 ll /monitoring/directors/*/monitors/monitor name 命令可显示有关所有指定监控器的详细信息: VPlexcli: ll /monitoring/directors/director-2-1-B/monitors/director-2-1-B_volumeReportMonitor Attributes: Name Value --------------- -------------------------------------------------------------average-period bucket-count 64 bucket-max bucket-min bucket-width collecting-data true firmware-id 9 idle-for 5.44days ownership true period 0s statistics [virtual-volume.ops, virtual-volume.read, virtual-volume.
启用/禁用/更改轮询 将第一个接收器添加到监视器时,将开始轮询(收集指定的统计信息)。轮询会按照监视器的 period 属性指定的时间间隔自动进 行。 关于此任务 使用 set 命令更改轮询周期。 使用 monitor collect 命令在定义的轮询时间间隔之前立即运行收集。 使用 set 命令禁用或修改监视器的自动轮询。 在下面的示例中: ● set 命令可将 period 属性更改为 0,从而禁用自动轮询 ● ll 命令可显示更改: VPlexcli:/monitoring/directors/director-2-1-B/monitors/director-2-1-B_TestMonitor> set period 0 VPlexcli:/monitoring/directors/director-2-1-B/monitors/director-2-1-B_TestMonitor> ll Attributes: Name Value --------------- -------------------------------------------------------------average-
强制执行立即轮询 使用 monitor collect 命令可强制执行立即轮询和收集性能数据,而无需等待自动轮询间隔。 例如: VPlexcli:/> monitor collect /monitoring/directors/director-2-1-B/monitors/director-2-1B_TestMonitor Source: Time: director.be-ops (counts/s): . . . director-2-1-B_TestMonitor 2010-07-01 10:05:55 启用和禁用端口 在启用和禁用端口之前,您必须完成系统配置。有关通过启用和禁用端口来更改特定配置参数的详细信息,请参见 SolVe (https:// solveonline.emc.
检查脚本状态 步骤 1. 检查脚本的状态,查看其是否正在运行。 VPlexcli:/> port-monitor status Status: running with the following parameters: Emails: joe@dell.com SMTP: x.x.x.x Local-only: False 2.
c. 更改 config.json 文件中的默认阈值(可选)。如果您发现可以增加默认值或其中一个值以获得更好的结果,可以修改 config.json 文件以获得新阈值(使用 VI 编辑器)。示例:vim /var/log/VPlex/cli/port-stats-monitor/ config.json。 Sample Output: { "bad_CRC": 5, "Disc_frame": 40, "link_fail": 15, "Loss_of_sync": 45, "loss_of_sig": 45, "reset": 5 } d. 对 config.json 文件执行修改后,您必须重新启动 port-monitor 脚本。 VPlexcli:/> port-monitor restart VPlexcli:/> port-monitor status Status: running with the following parameters: Emails: joe@dell.
### Stopping the monitor To stop the monitor, run `port-monitor stop`. ### Checking status To see whether or not the monitor is running, or to see if any unexpected errors were encountered, run the `port-monitor status` command: VPlexcli:/> port-monitor status Status: running with the following parameters: Emails: None SMTP: x.x.x.x Local-only: False Threshold config: None ### Restarting the monitor If you wish to restart a stopped monitor with the same parameters as before, run `portmonitor restart`.
需要注意的内容 注意报告问题的端口和控制器的数量。例如,如果有一半端口报告问题,则可能表示存在结构范围内的事件。但是,如果只有一个 端口报告错误,则该问题的范围将缩小到特定的 I-T Nexus。 脚本的作用是 5 分钟后抑制电子邮件(为了不淹没电子邮件服务器)。此时,它将仅一小时报告一次。连接到管理服务器的固件将 包含所有报告,其中包括任何被抑制通过电子邮件发送的任何报告。 日志记录:可以在管理服务器上的 /var/log/VPlex/cli/ directory 中找到日志记录文件 port-stats-monitor.log。此 日志文件将收集原始数据。grep 命令 [grep "back-end\|front-end\|wan-com" /var/log/VPlex/cli/port-statsmonitor.log] 可以生成与 port-stats-monitor.log 文件中报告的错误相关的摘要。 Example: grep "back-end\|front-end\|wan-com" /var/log/VPlex/cli/port-stats-monitor.
显示可用统计信息 统计信息分为若干子类别。 使用 monitor stat-list 命令,然后按 键,可显示统计信息子类别。例如: VPlexcli:/> monitor stat-list cache, cg, ip-congestion-control, director, wrt-pacing, io-sequencer,,com-path,,com-io-group, be-prt virtual-volume, rp-spl-vol, host-init, directory, fe-director, com-endpoint, rp-splnode, fe-prt, com-cluster-o, io-sequencer-vol, storage-volume, fe-lu ramf, ip-com-port 使用 --categories categories 选项显示指定类别中的可用统计信息。例如: VPlexcli:/monitoring> monitor stat-list --categories director Name Target Type Units -----
注: 有关命令的更多信息,请参见 Metro Node CLI 参考指南。 统计信息表 下表列出了每个类别中的统计信息: ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 后端光纤通道端口 (be-prt) 统计信息 高速缓存统计信息 控制器统计信息 前端控制器 (fe-director) 统计信息 前端卷 (fe-lu) 统计信息 前端端口 (fe-prt) 统计信息 远程 RAID (ramf) 统计信息 存储卷统计信息 虚拟卷统计信息 IP WAN COM (ip-com-port) 统计信息 — 监视 IP 端口(端口名称中包含 GE 或 XG 的任何端口)。 IP 拥塞控制统计信息 COM 群集 I/O 统计信息 COM 路径统计信息 COM 端点统计信息 XCOPY 统计信息 主机启动器统计信息 表. 15: 后端光纤通道端口 (be-prt) 统计信息 统计信息 类型 描述 be-prt.
表. 16: 控制器统计信息 (续) 统计信息 类型 描述 director.be-qfulls 后端写入次数 此后端端口的队列完整通知数。 director.be-read 后端读取次数 控制器后端端口读取的字节数 director.be-resets 计数器 后端每秒重置的次数 director.be-timeouts 计数器 后端每秒超时的次数 director.be-unitattns 计数器 后端每秒单元关注的次数 director.
表. 16: 控制器统计信息 (续) 统计信息 类型 描述 前端读取次数 控制器前端端口上的读取次数。 前端写入次数 控制器前端端口上的写入次数。 前端读取次数 从控制器前端端口读取的字节数。 前端写入次数 向控制器前端端口写入的字节数。 内存 控制器上的内存使用百分比。 CPU 繁忙 控制器中每个 CPU 的总利用率(用户和系统)。 director.msg-send-ops 操作数 从此控制器发送的消息总数。 director.msg-max-lat 最大延迟 从此控制器发送的消息的最大延迟。 director.msg-min-lat 最小延迟 从此控制器发送的消息的最小延迟。 director.msg-avg-lat 平均延迟 从此控制器发送的消息的平均延迟。 “类型:读数,单位:计数,参数: 无” director.fe-ops-read “类型:计数器,单位:次数/秒,参 数:无” director.fe-ops-write “类型:计数器,单位:次数/秒,参 数:无” director.
表. 17: 前端控制器 (fe-director) 统计信息 (续) 统计信息 类型 描述 fe-director.unmap-ops 前端控制器取消映射操 作数 指定前端控制器每秒执行的取消映射操作数。 前端控制器平均取消映 射延迟 指定前端控制器上的取消映射操作的平均延迟(以微秒 计)。 统计信息 类型 描述 fe-lu.
表. 18: 前端卷 (fe-lu) 统计信息 (续) 统计信息 类型 描述 fe-lu.unmap-avg-lat 前端卷平均取消映射延 迟 指定前端卷上的取消映射操作的平均延迟(以微秒计)。 “类型:period-average,单位:微 秒,参数:virtual-volume” 表. 19: 前端端口 (fe-prt) 统计信息 统计信息 类型 描述 fe-prt.
表. 20: 远程 RAID (ramf) 统计信息 统计信息 类型 描述 ramf.cur-op 当前操作数 远程 RAID 的即时操作数。 远程操作数 远程 IOPS 总数。 远程读取次数 从另一个群集到本地群集上的磁盘或 LUN 的远程读取次 数。 远程写入次数 从另一个群集到本地群集上的磁盘或 LUN 的远程写入次 数。 导入的操作数 指定控制器请求的操作数,与远程目标无关。 导入的读取次数 从本地群集到远程群集中的磁盘或 LUN 的读取次数。 导入的写入次数 从本地群集到远程群集中的磁盘或 LUN 的写入次数。 导入的读取次数 从本地群集到远程群集中的磁盘或 LUN 的远程读取平均延 迟。 导入的写入次数 从本地群集到远程群集中的磁盘或 LUN 的远程写入平均延 迟。 统计信息 类型 描述 storage-volume.
表. 21: 存储卷统计信息 (续) 统计信息 类型 描述 平均卷 WriteSame 延迟 所有存储卷上的平均 WriteSame 延迟分布。 统计信息 类型 描述 virtual-volume.dirty 卷脏 指定虚拟卷的高速缓存中已修改的页数。 卷操作数 指定虚拟卷的 I/O 操作总数。 卷读取次数 指定虚拟卷的读取次数(以字节计)。 卷写入次数 指定虚拟卷的写入次数(以字节计)。 “类型:存储桶,单位:微秒,参数: 无” storage-volume.write-same-avg-lat “类型:period-average,单位:微 秒,参数:无” 表. 22: 虚拟卷统计信息 “类型:读数,单位:次数,参数: volume-id” virtual-volume.ops “类型:计数器,单位:次数/秒,参 数:volume-id” virtual-volume.read “类型:计数器,单位:字节/秒,参 数:volume-id” virtual-volume.write “类型:计数器,单位:字节/秒,参 数:volume-id” 表.
表. 23: IP WAN COM (ip-com-port) 统计信息 (续) 统计信息 类型 描述 ip-com-port.send-carrier-errors IP WAN COM 端口发送的 此 IP WAN COM 端口上发送的载波数。 载波数 ip-com-port.collisions IP WAN COM 端口冲突 此 IP WAN COM 端口上的冲突数。 表. 24: IP 拥塞控制统计信息 统计信息 描述 ip-congestion-control.ip-wan-cc-rtt TCP 维护的往返时间(以微秒计)。 ip-congestion-control.ip-wan-cc-rttvar 测量的 RTT 平滑平均偏差最大值(以微秒计)。 ip-congestion-control.ip-wan-recv-bytes TCPCOM 路径上接收的总字节数。 ip-congestion-control.ip-wan-recv-cnt TCPCOM 路径上接收的总数据包数。 ip-congestion-control.
表. 27: COM 路径统计信息 统计信息 描述 com-path.ping-count 发送的 ping 数据包数。这些数据包用于帮助计算延迟。 com-path.ping-late 耗时过长的 ping 数据包数。 com-path.ping-lost 丢失的 ping 数据包数。 com-path.posted-bytes 已发布的传输字节数。(排队等待传输的字节数。) com-path.posted-send-ack 已发布的确认缓冲区数。(排队等待传输的 ACK 缓冲区数。) com-path.posted-send-ctl 已发布的控制缓冲区数。(排队等待传输的控制缓冲区数。) com-path.rtt-avg 数据沿路径行进的平均往返时间。 com-path.rtt-max 数据沿路径行进的最大往返时间。 com-path.rtt-min 数据沿路径行进的最小往返时间。 com-path.send-bytes 沿此路径发送的数据字节数。其中包含数据以及 UDCOM 标头。 com-path.
表. 29: XCOPY 统计信息 统计信息 描述 fe-director.xcopy-avg-lat 为给定控制器处理所有前端接收的 XCOPY 的平均延迟(以微秒计)。在 永久监视的过程中自动收集。通过位于 Metro Node 管理服务器 的 /var/log/VPlex/cli/director-[1|2]-[1|2]-[A| B]_PERPETUAL_vplex_sys_perf_mon.log 的永久监视文件提供收集的值 fe-director.xcopy-ops 给定控制器每秒完成的 XCOPY 操作数。 fe-lu.xcopy-avg-lat 为特定处理器的给定 Metro Node 虚拟卷处理接收的前端 XCOPY 的平均延 迟(以微秒计) fe-lu.xcopy-ops 特定控制器的给定 Metro Node 虚拟卷处理的 XCOPY 操作次数 fe-prt.xcopy-avg-lat 处理在端口级别的特定控制器的给定前端端口上接收的前端 XCOPY 的平 均延迟(以微秒计) fe-prt.
A 具有主动-被动存储阵列的 Metro Node 主题: • • • • 主动-被动阵列 已启用 ALUA 模式的阵列 逻辑单元故障切换执行 逻辑单元故障恢复 主动-被动阵列 主动-被动阵列通常具有两个控制器,并通过一组目标端口提供对逻辑单元 (LU) 的主动-被动访问。这些端口的访问类型为主动 (ACT) 或被动 (PAS)。主动用于 I/O,不能将被动用于 I/O。当逻辑单元的主动路径丢失时,启动器 (Metro Node) 可以决定通过将供 应商特定的 SCSI 命令发送到阵列来激活被动路径以执行 I/O。 用于特定逻辑单元的具有主动目标端口的控制器称为该逻辑单元的主动 (ACT) 控制器。用于特定逻辑单元的具有被动目标端口的控 制器称为该逻辑单元的被动 (PAS) 控制器。某一逻辑单元的主动控制器可以是某些其他逻辑单元的被动控制器,反之亦然。 已启用 ALUA 模式的阵列 启用了非对称逻辑单元访问 (ALUA) 模式的存储阵列通过所有目标端口提供对逻辑单元的主动/主动访问。这些端口根据其带宽分为 两组:首选和非首选目标端口组 (TPG)。较高带宽的首选目标端口具有主动/主动优化 (AAO) 访
apf/4 Failover failed for logical unit VPD83T3:600601606bb72200f01fb4fa1e22e311 on array EMC~CLARiiON~FCNCH072602809 to target controller FCNCH072602809.SPA as active. reason: Scsi mode select command failed 在正在运行的管理服务器上的 Metro Node 固件事件日志 /var/log/VPlex/cli/firmware.