Best Practices - Physical Networking | Nutanix



前言

最近閱讀 Best Practices - Physical Networking | Nutanix 文件,整理出個人想要的重點,詳細資訊請參考該文件內容。



Maximum of Three Switch Hops

在同一個 Nutanix Cluster 環境中,Nutanix Node 之間,最好不要超過「3 個Switch Hops,通常採用 Leaf-Spine 架構便能滿足此需求。
  • 另一個規劃重點是「Same Switch Fabric」,簡單來說,Nutanix Node 之間最好處於「Layer 2」網路環境,並且在同一個網段
  • 倘若有跨 WAN 需求時,應該建多個 Nutanix Cluster,然後用 DR Replication 來處理。

圖、Leaf-Spine 示意圖

圖、Scaling the Leaf-Spine 示意圖

另一種是經典的三層式架構「Core-Aggregation-Access」,也很常見。

圖、Core-Aggregation-Access 示意圖

圖、Scaling the Core-Aggregation-Access 示意圖

如果有跨 Site 的需求時,不要只建一個 Nutanix Cluster 然後跨越二個 Site,而是應該建立多個 Nutanix Cluster,然後搭配 Asynchronous Disaster Recovery / NearSync / Metro Availability 機制去處理才對。

圖、Multisite Network Design Using Replication




VLANs 規劃

  • CVM 和 AHV Hypervisor 的 VLAN,應該和 VMs 虛擬主機的 VLAN 分開。
  • Nutanix Node 之間,使用 IPv6 Neighbor Discovery Protocol IPv6 UDP Broadcast 溝通。
  • 建議停用 MulticastBroadcast Flood Optimizations
  • 建議停用 Proxy Address Resolution Protocol (ARP)



Remote Direct Memory Access (RDMA)

預設情況下,Nutanix Node 之間的 Storage Replication 網路流量是走標準的 TCP/IP。倘若,需要 High-Performance 和 Low-Latency 時,Nutanix 支援採用 RDMA 技術繞過 TCP/IP Stack,採用的是 RDMA over Converged Ethernet (RoCE) 技術。當然,如果 RDMA 失敗時,會退回採用 TCP/IP。
  • 目前的 RDMA 不支援 NIC High Availability 機制。
  • 不支援使用「第二個」RDMA Port。
  • 採用 NVIDIA Mellanox ConnectX-4 Ethernet Adapter (CX-4) 時,記得 Physical Switch 要開啟 Data Center Bridging (DCB)Priority-based Flow Control (PFC),而 PFC 數值通常是「3」。
  • 在 AOS 6.6 版本之前,只能在 Foundation VM 部署期間,使用 RDMA Port Passthrough 去設定。在 AOS 6.6 之後的版本,可以部署叢集後再組態設定 RDMA
  • AOS 6.7 之後的版本,支援 Zero-Touch RDMA over Converged Ethernet (ZTR) 就不需要 Physical Switch 設定 DCB/PFC 了,但記得必須是 NVIDIA Mellanox ConnectX-5 Ethernet Adapter (CX-5) 或 NVIDIA Mellanox ConnectX-6 Ethernet Adapter (CX-6) 才支援 ZTR。
  • 不支援混用,例如,CX-4/CX-5,或 CX-5 搭 25Gb 網卡,混用的話 Nutanix Cluster 就不允許啟動 RDMA。