vSAN 8 U1新功能升級,體驗解構式 ESA 超融合叢集 | 網管人第 212 期

 



網管人雜誌

本文刊載於 網管人雜誌第 212 期 - 2023 年 9 月 1 日出刊,NetAdmin 網管人雜誌 為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology Learning 技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份 1 日出刊您可於各大書店中看到它,或透過城邦出版人讀者服務網進行訂閱。





本文目錄






前言

在本文中,將深入剖析 VMware 於 2023 年 4 月,所推出最新 vSAN 8.0 Update 1 超融合版本中,有哪些亮眼特色功能,能夠幫助企業和組織更容易進行維護管理,或是幫助管理人員縮短問題分析和故障排除時間。





vSAN 8 U1 亮眼特色功能

Skyline 健康指數儀表板

隨著企業和組織,接受 vSAN 超融合解決方案帶來的管理和效益後,對於僅熟悉傳統 vSphere 架構的管理人員來說,在問題分析和故障排除時,勢必產生一定程度的影響。

因此,在最新的 vSAN 8 U1 版本中,除了加強原有 Skyline Health for vSAN 之外,更推出全新的 Skyline 叢集健康儀表板,在全新儀表板當中共有三大區塊(如圖 1 所示),分別是 vSAN 叢集的健康評分、運作狀態趨勢和結果的健康指數、健康狀態和需要修復的項目。

圖 1、全新推出的 Skyline 叢集健康儀表板

首先,管理人員應該也會好奇,vSAN 叢集健康評分結果是如何產生的 ?事實上,這是系統根據兩種方式,分別是「類別影響」(Category Impact)「優先權影響」(Priority Impact),再依照不同事件產生的權重,最後所產生的評分結果,舉例來說,類別影響包含可用性、運作效能、儲存空間使用率、合規性……等,而優先影響則是類別中觸發的事件,對於 vSAN 叢集健康影響的程度所給予的權重。

簡單來說,當 vSAN 叢集健康評分結果落在 81-100 分時健康狀態,表示管理人員無須擔心 vSAN 叢集的健康情況,當評分結果落在 61-80 分時健康狀態惡化,此時管理人員應檢查系統建議的項目並進行排除或修復,以便將 vSAN 叢集恢復為健康狀態,當評分落在 0-60 分時為不健康狀態,管理人員應立即進行故障排除作業。

另一個儀表板為運作狀態趨勢和結果健康指數,透過這個運作趨勢歷史資料,管理人員可以輕鬆得知,vSAN 超融合叢集的健康評分,點選不同的時間點和評分時,下方的健康檢查項目和需要修復項目也會變化,讓管理人員一目了然健康情況不佳時,是因為哪個項目必須進行修復,以及修復後能夠獲得的健康權重(如圖 2 所示)。

圖 2、vSAN 叢集健康儀表板中,運作狀態趨勢和結果健康指數

最後,透過健康狀態和需要修復項目,可以清楚看到每個事件的類別,以及帶來的健康權重影響為何(如圖 3 所示)。因此,即便是資歷較淺的管理人員,透過說明和提供的資訊,也能輕鬆了解事件發生的根本原因以及如何進行故障排除,進而提升 vSAN 叢集的整體健康情況。

圖 3、透過健康狀態和需要修復項目機制,輕鬆幫助管理人員進行故障排除



不斷增強的效能檢測工具

在最新 vSAN 8 U1 版本中,針對 vSAN 超融合叢集效能檢測的部份,也在三個部份進行加強。首先,透過「效能支援」(Performance for Support)檢測機制,可以針對 vSAN 超融合叢集的效能和穩定性進行故障排除。

事實上,過去管理人員只能透過 vSAN Observer,也就是 RVC(Ruby vSphere Console) 工具,才能針對 vSAN 超融合叢集進行效能資料收集和分析作業,直到舊版 vSAN 6.6.1 版本中,才推出效能支援內建工具,以便取代 vSAN Observer 工具,讓 vSAN 管理人員能夠輕鬆查看,vSAN 超融合叢集和節點主機之間,整體運作效能的統計資訊以利判斷。

現在,最新的 vSAN 8 U1 版本中,管理人員可以直接看到 vSAN ESA 叢集中,針對 IOPS 儲存效能、Latency 延遲時間、Throughput 傳輸量等統計資訊(如圖 4 所示),有效幫助管理人員進行判斷,縮短對於 vSAN 超融合叢集的故障排除時間。

圖 4、透過效能支援儀表板有效縮短故障排除時間

此外,vSAN 8 U1 版本中,針對 vSAN 物件提供「物件追蹤」(Trace Objects)功能,系統每隔 1 分鐘將會自動複製或備份,vSAN 相關物件到 vSAN Datastore 儲存資源中,用於存放專用物件的路徑,而這些特殊物件僅保存 6 天後,系統便會自動執行清除作業,在 32 台節點主機的 vSAN 叢集規模中,儲存 6 天的 vSAN 物件和物件追蹤日誌,大約會佔用 512GB 的儲存空間。

一旦企業或組織碰上無法解決的問題,而尋求 VMware 技術支援時,技術支援團隊便能透過取得物件追蹤日誌內容,以便在最短時間能夠為幫助企業或組織,識別和解決問題。

在 vSAN 超融合叢集環境中,節點主機之間的網路環境至關重要,無論是傳輸穩定性或傳輸效率,輕者影響 vSAN 叢集運作效能,重者節點主機之間造成網路隔離的情況。因此,在 vSAN8U1 版本中,針對網路測試和健康檢測機制進行改進,舉例來說,在 vSAN 網路主機測試作業中,由於新式 vSAN ESA 和傳統 vSAN OSA,在網路傳輸方便的基本要求並不相同,所以當 vSAN ESA 環境執行網路測試時,將會自動忽略目標網路卡的傳輸速度,而嘗試採用並呈現最大網路吞吐量(如圖 5 所示),以避免管理人員產生混淆的情況。

圖 5、改良的網路傳輸速率測試避免管理人員產生混淆

此外,在網路延遲檢查作業中,也簡化 vSAN 叢集節點主機之間的測試結果,在過去的版本中,將會針對每台節點主機之間,呈現 ping 測試的結果,然後在大規模的 vSAN 叢集環境中,由於節點主機數量較多,導致管理人員不易從測試結果中,快速的得知是否有節點主機發生網路異常的情況。現在,除非有個別的節點主機網路發生異常,否則將會直接呈現 vSAN 叢集整體測試結果(如圖 6 所示)。

圖 6、增強後的網路測試結果,協助管理人員快速判斷網路環境健康情況



VM 效能問題分析利器 I/O Trip Analyzer

過去,在 vSAN 叢集中的 VM 虛擬主機,倘若發生儲存效能問題時,主要依靠管理人員的經驗進行問題分析和故障排除。現在,透過最新 vSAN 8 U1 版本中,VM I/O Trip Analyzer 機制,管理人員只要針對發生問題的 VM 虛擬主機,執行一段時間的效能診斷資料收集作業,後續 VM I/O Trip Analyzer 便能進行效能問題分析。

從 VM I/O Trip Analyzer 分析結果可以看到,管理人員可以透過簡單的視覺化圖形(如圖 7 所示),了解發生效能問題的 VM 虛擬主機,從 vDisk 虛擬硬碟的 vSAN Policy,到與其它 VM 虛擬主機進行通訊的路徑,系統也會在每個傳輸路徑中,指示可能發生效能問題的原因。

圖 7、透過 VM I/O Trip Analyzer 機制,有效分析 VM 虛擬主機效能問題





實戰演練 – vSAN ESA HCI Mesh

在實戰小節中,將實作演練新版 vSAN 8 Update 1 版本中,ESA 超融合儲存架構最新支援的「解構式儲存」(Disaggregated Storage)運作架構(如圖 8 所示)。值得注意的是,在 vSAN 8 U1 版本中,雖然 ESA 超融合叢集已經正式支援解構式儲存運作架構,然而與傳統的 OSA 超融合儲存架構相較之下,仍有下列功能項目尚未支援
  • 跨 vCenter Server 管理平台時,不支援運作解構式儲存架構。
  • 在 vSAN 延伸叢集運作架構中,不支援運作解構式儲存架構。
  • 在 vSAN ESA 解構式儲存架構中,不支援重複資料刪除。因為,vSAN ESA 超融合叢集本身尚未支援重複資料刪除功能。
  • 在 vSAN ESA 解構式儲存架構中,不支援加密金鑰更新功能。因為,vSAN ESA 超融合叢集本身尚未支援加密金鑰更新功能。
圖 8、vSAN ESA 超融合叢集支援解構式儲存架構運作示意圖

在實作環境方面,採用最新 vCenter Server 8 U1 版本之外,共有三個 vSphere 叢集,分別是擔任管理用途的 Management 叢集,和 vSAN8-ESA 超融合叢集,以及僅用於運算的 Compute 叢集(如圖 9 所示)。在 vSAN 8 ESA 的部份共三台 vSAN 叢集節點主機,每台 vSAN 叢集節點主機,除了安裝 vSphere 虛擬化平台系統硬碟之外,還額外配置四顆 600 GB NVMe 儲存裝置。此外,另有一台 vSphere 8 U1 虛擬化平台,屆時將遠端掛載使用由 vSAN 8 ESA 超融合叢集的儲存資源。

圖 9、實作環境中共有三個不同用途和功能的 vSphere 及 vSAN 叢集



部署 vSAN ESA 超融合叢集

在部署 vSAN ESA 超融合叢集的部份,有關建立 DataCenter 和 Cluster,以及組態設定 vDS 分佈式虛擬交換器和 vSAN VMkernel Port……等詳細資訊,請參考本刊「第 208 期 - vSAN 8 新儲存架構開工,實戰 ESA 超融合叢集」內容,因此不再贅述。

順利部署 vSAN ESA 超融合叢集後,在實作解構式儲存功能之前,先確認 vSAN ESA 超融合叢集一切運作正常,相關服務順利啟用,並採用正確的 Storage types(如圖 10 所示)。

圖 10、確認 vSAN ESA 超融合叢集採用正確的 Storage types



暫時關閉 vSphere HA 服務

在本文實作環境中,將組態設定傳統的 vSphere 叢集,專責擔任 Compute 運算叢集的用途,讓其中運作的工作負載,例如,VM 虛擬主機或容器,能夠充分使用 Compute 運算叢集的運算資源,至於儲存資源的部份,則使用高可用性高效能的 vSAN ESA 超融合叢集。

因此,在組態設定 vSAN ESA 超融合叢集解構式運作架構之前,先將 vSphere HA 高可用性機制暫時關閉(如圖 11 所示),以避免在組態設定過程中,除了可能不小心觸發 vSphere HA 高可用性機制,產生非預期的高負載工作量,進而導致對 VM 虛擬主機中,持續運作的服務或應用程式產生中斷或影響。

圖 11、暫時關閉 vSphere HA 高可用性服務,避免組態設定解構式儲存架構時產生非預期的影響



規劃專屬 vSAN VMkernel Port

在 vSAN 解構式儲存運作架構中,無論擔任 Server Cluster、Client Cluster、Compute Cluster 角色,一律建議管理人員必須為這些 vSAN 叢集節點主機或 ESXi 主機,組態設定專用於連接和掛載,遠端 vSAN Datastore 儲存資源的 vSAN VMkernel Port。

在 vSAN 解構式儲存架構時,跨叢集的傳輸流量採用「RDT over TCP/IP」,和原有傳統 vSAN 超融合叢集的網路流量,採用幾乎完全相同的 TCP/IP 網路協定堆疊架構。此外,建議配置 NIC Teaming 容錯機制,並採用專屬的 vDS 分佈式虛擬交換器,且搭配 NIOC 網路流量管理機制之外,為了避免因為跨叢集之間的網路延遲,導致影響 VM 虛擬主機運作效能,建議至少應採用 25 Gbps 網路卡。

根據 VMware 官方最佳建議作法,採用傳統 vSAN OSA 超融合叢集,運作解構式儲存架構時,一旦網路延遲時間超過 5 ms 時,將會觸發系統的告警機制。而採用新式 vSAN ESA 超融合叢集運作解構式儲存架構時,當網路延遲時間超過 1 ms 時,將會觸發系統告警機制。

事實上,從 vSAN 7 Update 1 版本開始,便支援整合 Layer 3 路由機制的網路層。因此,當企業或組織因為某些原因,不採用原有建議的 Layer 2 資料連結層時,可以採用具備路由機制的 Layer 3 網路層。只要管理人員在新增專屬的 vSAN VMkernel Port 時,勾選「override default gateway for this adapter」項目,並指定採用的預設閘道 IP 位址,即可立即支援具備路由機制的 Layer 3 網路層。

在本文實作環境中,已經為 Compute 叢集中的 ESXi 主機,配置另一個專屬實體網路卡,用於連接和掛載 vSAN ESA 超融合儲存資源。請在 vCenter 管理介面中,依序點選「vCenter Server > Datacenter > Compute Cluster > ESXi > Configure > Networking > VMkernel adapters > Add Networking」項目,準備為 Compute 叢集中的 ESXi 主機,配置專屬的 vSAN VMkernel Port。

在彈出的 Add Networking 視窗中,在 1. Select connection type 頁面中,請選擇 VMkernel Network Adapter 項目,在 2. Select target device 頁面中,選擇 Select an existing standard switch 及 vSwitch0,先使用系統預設的 vSS 標準虛擬網路交換器,稍後將會遷移至 vDS 分佈式虛擬網路交換器。

在 3. Port properties 頁面中,於 Network label 欄位鍵入 vSAN-VMkernel,並在下方 Enabled services 區塊中勾選 vSAN 項目,表示這個新增的 VMkernel Port 將會啟用 vSAN 類型網路流量,在 4. IPv4 settings 頁面中,鍵入 vSAN VMkernel Port 的 IPv4 位址和網路遮罩,在 5. Ready to complete 頁面中,確認組態設定正確無誤後,按下 Finish 鈕即可套用生效。

接著,將剛才 Compute 叢集中,ESXi 主機中的 vSAN VMkernel Port,由原本的 vSS 標準虛擬網路交換器遷移至 vDS 分佈式虛擬網路交換器,請依序點選「Inventories > Networking > Datacenter > vSAN-DSwitch > Actions > Add and Manage Hosts」項目,在 1. Select task 頁面中,選擇 Add hosts 項目,在 2. Select hosts 頁面中,請勾選 Compute 叢集中的 ESXi 主機,在 3. Manage physical adapters 頁面中,可以看到 ESXi 主機規劃專屬用於解構式儲存的 vmnic1,請在 Assign uplink 下拉式選單中,選擇 Uplink1 項目,此時 In use by switch 將會顯示為 This switch。

在 4. Manage VMkernel adapters 頁面中,由於剛才 ESXi 主機新增的 vSAN VMkernel Port 名稱為 vmk1,所以請在 vmk1 項目中點選 Assign Port Group 連結,在 Assign port group 頁面中,可以看到採用 vSAN-DPortGroup 和 vSAN-DSwitch,請按下 Actions 中的 Assign 連結,確認使用這個 vDS 分佈式虛擬網路交換器和 Port Group。

在 5. Migrate VM networking 頁面中,由於不需要將 VM 虛擬主機,連接至 vSAN 網路環境中,因此採用系統預設值即可,在 6. Ready to complete 頁面中,確認組態設定正確無誤後,按下 Finish 鈕即可套用生效。

現在,可以在 vDS 分佈式虛擬網路交換器中看到,除了 vSAN ESA 超融合叢集節點主機之外,還有剛才加入 Compute 叢集中的 ESXi 主機(如圖 12 所示)。

圖 12、為 Compute 叢集 ESXi 主機規劃專屬的 vSAN VMkernel Port 和網路環境



啟用 HCI Mesh Computer Cluster

前置作業完畢後,請點選 Compute 叢集後,依序點選「Configure > vSAN > Serivces > I don’t need a local vSAN datastore > Configure cluster without vSAN datastore > Configure」,在彈出的視窗中,系統說明雖然會為 vSphere Cluster 啟用 vSAN 功能,但是並沒有使用本機儲存資源,確認無誤後按下 Apply 鈕以便套用生效(如圖 13 所示)。

圖 13、啟用 vSAN HCI Mesh Computer Cluster 功能

此時,管理人員可能會有疑問,這個 Compute 叢集啟用 vSAN 進階功能,並且稍後會掛載 vSAN Datastore 儲存資源使用,那麼企業和組織是否需要為 Compute 叢集購買 vSAN 軟體授權 ?簡單回答是不需要購買 vSAN 軟體授權。



掛載 vSAN ESA Datastore 儲存資源

系統經過一連串的組態設定作業後,順利為傳統的 vSphere 叢集,啟用 vSAN HCI Mesh Computer Cluster 進階功能,在掛載 vSAN ESA Datastore 儲存資源之前,請先確保 vSphere 叢集的 vSAN Service 狀態和 Storage Types 運作模式,確保稍後能夠掛載 vSAN ESA Datastore 儲存資源(如圖 14 所示)。

圖 14、為傳統 vSphere 叢集,啟用 vSAN HCI Mesh Computer Cluster 進階功能

確認無誤後,在 Compute 叢集中,依序點選「Configure > vSAN > Remote Datastores > Mount Remote Datastore」項目,在 1. Select datastore 頁面中,選擇先前建立的 vSAN ESA Datastore 儲存資源,在 2. Check compatibility 頁面中,系統將會針對剛才選擇的 vSAN ESA Datastore 儲存資源,進行多種項目的相容性檢查(如圖 15 所示),例如,遠端 vSAN Datastore 儲存資源是否為支援格式的版本、vSAN 叢集是否已經達到 Client Cluster 的掛載上限、網路延遲時間是否符合最佳建議的 5ms……等,確保稍後能順利掛載和使用 vSAN ESA Datastore 儲存資源。

圖 15、系統進行掛載遠端 vSAN Datastore 儲存資源的相容性檢查作業

值得注意的是,倘若 vSAN 叢集節點主機「停用 IPv6」網路堆疊功能,那麼系統將無法進行相容性檢查作業,並且顯示「Failed to run the remote datastore mount pre-checks」錯誤訊息,又或者 Compute 叢集的 ESXi 主機,雖然建立 vSAN VMkernel Port,並且加入同一個 vDS 分佈式虛擬網路交換器,但是在 vSAN VMkernel Port 組態設定內容中,卻忘了勾選 Enabled servies 中的 vSAN 項目時,也會導致相容性檢查作業,在「Server and client clusters have no connectivity issues」出現紅色錯誤,並提醒問題原因為「Cannot connect to any server host」,並且無法繼續掛載作業(如圖 16 所示)。

圖 16、遺漏的組態設定,導致無法通過相容性檢查作業程序

現在,管理人員可以在 Remote Datastore 視窗中,看到多出 vSAN ESA Datastore 儲存資源(如圖 17 所示),並且後續在 Compute 叢集新增 VM 虛擬主機時,在選擇 Datastore 儲存資源頁面中,也會看到 vSAN ESA Datastore 儲存資源項目可供選擇。

圖 17、Compute 叢集順利掛載 vSAN ESA Datastore 儲存資源

順利啟用並完成 vSAN HCI Mesh Computer Cluster 組態設定作業後,管理人員即可將剛才暫時關閉的 vSphere HA 高可用性機制進行啟用。值得注意的是,在為 Compute 叢集啟用 vSphere HA 高可用性機制時,因為 vSAN HCI Mesh Computer Cluster 並非一般普通 vSphere 叢集,假設 vSAN ESA 超融合叢集發生災難事件時,將會導致 Compute 叢集中的 VM 虛擬主機受到影響,並觸發「設備永久遺失」(Permanent Device Loss,PDL)或「所有路徑關閉」(All Paths Down,APD)機制。

因此,建議管理人員在重新啟用 vSphere HA 高可用性機制時,應確認 Datastore with APD 和 Datastore with PDL 組態設定值,分別建議採用「Power off and restart VMs」,和「Power off and restart VMs – Conservative restart policy」選項(如圖 18 所示)。有關 APD 和 PDL 組態設定內容的詳細資訊,請參考 VMware KB2004684KB2032934KB2032940KB2004605KB2059622 知識庫文章內容。

圖 18、Compute 叢集啟用 vSphere HA 時建議採用的 PDL 和 APD 組態設定



遷移 VM 虛擬主機儲存資源並套用 vSAN 原則

現在,Compute 運算叢集無論是部署新的 VM 虛擬主機,或是現有 VM 虛擬主機需要執行 Storage vMotion 遷移儲存資源時,都能選擇已經連接和掛載完成的,遠端 vSAN ESA Datastore 儲存資源,並且套用具備高效能和高彈性的 vSAN 儲存原則。

在本文實作環境中,於 Compute 運算叢集中,共有五台運作中的 VM 虛擬主機,這是在建立 vSAN HCI Mesh Computer Cluster 之前,便已經部署運作的 VM 虛擬主機。因此,這五台 VM 虛擬主機的儲存資源,仍然使用 Compute 運算叢集中,ESXi 主機的本機系統硬碟(如圖 19 所示)。

圖 19、現有運作的 VM 虛擬主機儲存資源位於 ESXi 主機本機硬碟內

將以其中名稱為 DB01 的 VM 虛擬主機為例,透過 Storage vMotion 線上儲存遷移機制,將 VM 虛擬主機的儲存資源,由原本的 ESXi 主機本機硬碟,遷移至高可用性的 vSAN ESA Datastore 儲存資源。

請點選 DB01 虛擬主機後,在右鍵選單中選擇 Migrate 項目,在 1. Select a migration type 頁面中,選擇 Change storage only 選項,在 2. Select storage 頁面中,即可看到透過 vSAN HCI Mesh Computer Cluster 機制,掛載完成的 vSAN ESA Datastore 儲存資源,在 3. Ready to complete 頁面中,確認無誤後按下 Finish 鈕,系統便立即執行 Storage vMotion 線上遷移儲存資源的動作。

當 Storage vMotion 工作任務執行完畢後,管理人員查看 DB01 虛擬主機的儲存資源時,可以發現轉為使用 vsanDatastore 儲存資源,並且查看 DB01 虛擬主機的 vSAN 儲存物件分佈情況時,可以看到套用高可用性的 vSAN RAID-1 儲存原則,並且將 vSAN 儲存物件分佈在不同的 vSAN 叢集節點主機中(如圖 20 所示),達成 DB01 虛擬主機使用 Compute 叢集的運算資源,而儲存資源則是使用遠端的 vSAN ESA Datastore 儲存資源。

圖 20、遷移 VM 虛擬主機儲存資源至 vSAN ESA Datastore





結語

透過本文的深入剖析和實作演練後,相信管理人員除了理解最新 vSAN 8 U1 版本中,有哪些亮眼特色功能之外,透過實際操作並驗證 vSAN HCI Mesh Computer Cluster 機制,能夠為企業和組織所帶來的效益,將 VM 虛擬主機的工作負載中,運算資源和儲存資源分別運作在不同的 vSphere/vSAN 叢集中。