網管人 184 期 - 輕量級 vROps 儀表板監控 vSAN 效能



網管人雜誌

本文刊載於 網管人雜誌第 184 期 - 2021 年 5 月 1 日出刊,NetAdmin 網管人雜誌 為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology Learning 技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份 1 日出刊您可於各大書店中看到它,或透過城邦出版人讀者服務網進行訂閱。





本文目錄






前言

當企業和組織建構完 vSphere 虛擬化基礎架構後,隨著內部專案數量和人員不斷成長之外,企業對外營運服務的類型也不斷改變,舉例來說,從過去僅提供網站服務,轉變為目前還必須提供智慧型手機 App 應用……等。

對於內部 vSphere 虛擬化基礎架構來說,各種工作負載和類型也不斷增加,從過去單純的 VM 虛擬主機運作無高可用性的應用程式,到多台 VM 虛擬主機協同建構高可用性應用程式,轉變成目前新興流行的容器和微服務……等。

因此,負責資料中心維運管理的 IT 人員,倘若沒有一套功能完整且具備高彈性和支援度高的系統協助時,那麼當企業和組織的營運服務發生問題時,只能透過各種系統內建陽春的監控服務,搭配管理人員的經驗判斷來進行故障排除作業,倘若管理人員經驗不足或問題牽涉範圍太廣泛時,都會無謂增加故障排除時間,不僅影響使用者操作體驗,更可能擴大影響企業和組織的公共形象及營運收入。

舉例來說,企業營運服務建構在 vSphere 虛擬化基礎架構之上,搭配上層運作的 VM 虛擬主機或容器內的各種應用程式而成,那麼當營運服務發生問題時,到底是 vSphere 虛擬化基礎架構發生問題所導致,例如,CPU、Memory 運算資源不足、Storage 儲存資源不足、Network 網路資源不足……等,還是上層 VM 虛擬主機或容器內的作業系統故障,又或者是最上層的應用程式崩潰所導致?

此時,倘若有一套監控工具,能夠將企業營運服務的各項節點,透過視覺化的方式展示出來(如圖 1 所示),那麼當企業營運服務發生各種狀況時,管理人員便能透過視覺化儀表板的輔助,快速找出問題並進行故障排除作業,讓營運服務能夠在最短時間內恢復正常。

圖 1、VMware vRealize Operations Cloud 應用程式監控架構示意圖

然而,有些管理人員或許覺得 VMware vRealize Operations 監控工具,功能性太過複雜架構太過龐大,中小型企業和組織可能無須這些繁雜的功能和監控項目。此時,管理人員可以考慮採用本文的解決方案,在本文中將深入剖析和實作演練,輕量級的 vRealize Operations 監控工具,並且它能夠直接整合至 vCenter Server 管理介面中,無須離開 vCenter Server 管理平台便能查看分析和統計數據,協助管理人員快速判斷問題並進行故障排除作業。





實戰 vRealize Operations within vCenter

過去,當管理人員建構 vSAN 超融合叢集環境後,在沒有導入其它分析和監控方案時,通常僅能採用 vCenter Server 管理平台中,內建的效能監控工具察看 vSAN 超融合叢集的健康情況和工作負載(如圖 2 所示)。接下來,將實際部署和組態設定 vRealize Operations within vCenter 監控機制,讓 vRealize Operations 的分析和統計結果,直接整合在 vCenter Server 管理介面中,透過簡化後的 vRealize Operations 效能和工作負載儀表板,幫助管理人員察看 vSAN 超融合叢集的各種效能資訊和運作情況。
後續我們將 vRealize Operations 簡稱為「vROps」。
圖 2、透過 vCenter Server 內建工具,察看 vSAN 超融合叢集環境健康情況



部署 vROps 環境需求

事實上,與部署 vCenter Server 管理平台類似的概念,管理人員可以部署不同規模大小的 vROps 執行個體,以便因應不同規模大小的 vSphere 叢集和 vSAN 超融合叢集。下列為部署不同規模大小 vROps 執行個體的硬體資源需求:
  • 超小型(Extra Small): 需要 2 vCPU 和 8 GB vRAM 硬體資源,最多支援 350 個物件和 100 個客戶端代理程式。
  • 小型(Small): 需要 4 vCPU 和 16 GB vRAM 硬體資源,最多支援 6,000 個物件和 300 個客戶端代理程式。
  • 中型(Medium): 需要 8 vCPU 和 32 GB vRAM 硬體資源,最多支援 68,000 個物件和 1,200 個客戶端代理程式。
  • 大型(Large): 需要 16 vCPU 和 48 GB vRAM 硬體資源,最多支援 200,000 個物件和 2,500 個客戶端代理程式。
  • 超大型(Extra Large): 需要 24 vCPU 和 128 GB vRAM 硬體資源,最多支援 320,000 個物件和 2,500 個客戶端代理程式。
有關不同規模大小 vROps 硬體資源需求,以及各項支援數據的詳細資訊,請參考 VMware KB 2093783KB 82344 知識庫文章內容。

同時,在部署 vROps 之前建議先了解整體的基本運作架構,以及各項運作元件之間所使用的通訊協定,和使用的連線通訊埠(如圖 3 所示),避免屆時部署完成後因為防火牆未允許相關協定和連線通訊埠,造成相關運作元件之間無法通訊導致錯誤,或發生未預期的錯誤情況而無法順利運作。

圖 3、vROps 各項運作元件通訊協定和連線通訊埠示意圖



vCenter Server 中的 vROps 儀表板

事實上,在過去 vROps 版本中,管理人員必須離開 vCenter Server 管理平台,額外登入 vROps 專屬的管理介面,並且順利通過使用者身份驗證機制之後,才能夠登入 vROps 查看各項效能監控數據和工作負載情況。

現在,由於新版 vCenter Server 管理介面,已經全面支援採用 Clarity Framework 打造的 HTML 5 管理介面,所以 VMware 官方也針對管理人員經常需要監控的 vSphere 和 vSAN 叢集,將 vROps 輕量級儀表板功能,直接下放至 vCenter Server 管理介面中(如圖 4 所示),幫助管理人員輕鬆查看效能數據和工作負載等健康情況。

圖 4、vRealize Operations within vCenter 運作架構示意圖

此時,管理人員應該會有疑問,倘若在 vCenter Server 管理介面中,能夠透過 vROps 輕量級儀表板,直接看到 vSphere 和 vSAN 叢集的工作負載和健康情況。那麼,還需要購買完整功能的 vROps 軟體授權嗎? 這兩者之間有何不同?

簡單來說,vROps 輕量級儀表板和完整功能的 vROps,這兩者之間最大的差別在於,vRealize Operations within vCenter 只提供「六個」輕量級儀表板,並且這些儀表板僅提供「深入解析」(Insights),而不會提供任何「執行」(Actions)的操作,例如,故障排除和修復……等(如圖 5 所示)。
企業和組織必須採用完整版本的 vRealize Operations,例如,vRealize Operations Advanced 或 Enterprise 版本,才能支援「執行」(Actions)的操作。
圖 5、簡介 vRealize Operations within vCenter

現在,管理人員應該對於如何購買適當的 vROps 軟體授權感到好奇。那麼,針對下列常見的應用情境進行說明以便讀者理解:
  • 購買 vRealize Operations 軟體授權: 無論購買哪種版本的 vROps(Standard,Advanced,Enterprise 或 vCloud Suite)軟體授權,都可以直接使用 vRealize Operations within vCenter 輕量級儀表板。值得注意的是,在六個輕量級儀表板中有三個是針對 vSAN 叢集所設計,所以環境中倘若沒有 vSAN 超融合叢集環境時,相關儀表板將不會顯示任何數據資訊。
  • 購買 vSAN 軟體授權: 僅購買 vSAN Advanced 和 Enterprise 軟體授權,在初期 vROps 部署作業完成後,享有「60 天」使用 vROps 完整功能的權限,經過 60 天試用期後可選擇額外購買 vROps 軟體授權,或僅使用 vRealize Operations within vCenter 輕量級儀表板(如圖 6 所示),但僅支援深入解析而不支援任何執行操作。
  • 同時購買 vROps + vSAN 軟體授權: 購買 vROps Standard + vSAN 軟體授權時,僅額外支援「1 個」針對 vSAN 叢集的進階儀表板。購買 vROps Advanced/Enterprise + vSAN 軟體授權時,則額外支援「4 個」針對 vSAN 叢集的進階儀表板。
圖 6、vRealize Operations within vCenter 與完整 vROps 軟體授權功能示意圖



部署 vROps 執行個體

登入 vCenter Server 管理介面中,依序點選「Home > vRealize Operations > Install」項目,系統便會自動彈出部署 vROps 執行個體的互動精靈視窗。在 Installation Mode 頁面中,可以選擇兩種不同部署 vROps 的方式,選擇「Online Install」項目時(如圖 7 所示),稍後 vCenter Server 將會透過 Internet 網際網路,連線至 VMware 官方自動下載 vROps 安裝印象檔。倘若,vCenter Server 無法連線至 Internet 網際網路時,管理人員必須預先至 VMware 官網下載 vROps 安裝印象檔後,選擇「Offline Install」項目,並點選剛才預先下載的 vROps 安裝印象檔即可進行部署作業。

圖 7、採用線上安裝或離線安裝方式部署 vROps 執行個體

在 vCenter Details 頁面時,請依序鍵入 vCenter Server 管理平台的 IP 位址,以及 vCenter Server 的管理帳號和密碼,當連線和使用者驗證資訊鍵入完畢後,請按下 TEST CONNECTION 鈕,系統將依據鍵入的 vCenter Server 資訊,進行連線通訊和使用者身份驗證的動作,連線成功後系統將會回傳「Connection to vCenter Server is validated successfully.」的資訊(如圖 8 所示)。
未成功通過 vCenter Server 使用者身份驗證機制,將無法繼續至下一個 vROps 部署流程。

圖 8、成功通過連線通訊和使用者身份驗證至 vCenter Server 管理平台

在 Environment Details 頁面中,請鍵入稍後即將部署 vROps 的 VM 虛擬主機名稱、選擇使用的資料中心、vSphere 叢集或 vSAN 超融合叢集、屆時運作的 ESXi 虛擬化平台、部署規模大小、Datastore 儲存區資源、vSwitch 虛擬交換器和連接的 Port Group……等(如圖 9 所示)。
在選擇 Datastore 儲存區資源時,倘若目標 Datastore 儲存區可用空間小於「200 GB」時,系統將會出現 Datastore 儲存區資源不足的警告訊息。

圖 9、鍵入部署 vROps 的 VM 虛擬主機名稱,並選擇採用哪些相關硬體資源

在 Network Details 頁面中,鍵入部署 vROps 的 VM 虛擬主機網路組態設定,本文實作環境中,採用的靜態 IP 位址為「10.10.75.30」(如圖 10 所示),並且已經在運作環境中的 DNS 名稱解析伺服器內,建立「vrops.lab.weithenn.org」的 A Record 名稱解析記錄。

圖 10、鍵入部署 vROps 的 VM 虛擬主機網路組態設定

在 Adapter Instance Details 頁面中,倘若屆時 vROps 執行個體要取得監控數據的 vCenter Server 管理平台,和剛才步驟二中鍵入負責部署 vROps 作業的 vCenter Server 不同台時,那麼可以在此階段中,額外鍵入其它台 vCenter Server 使用者身份驗證資訊。否則,只要勾選「Monitor the same vCenter Server in Step 2」選項(如圖 11 所示),即可直接採用剛才已經成功通過的 vCenter Server 使用者身份驗證資訊,並繼續下一個 vROps 部署流程。

圖 11、指定 vROps 執行個體要取得監控數據的 vCenter Server 管理平台

在 Summary 頁面中,再次檢視組態設定內容,確認無誤後按下 INSTALL 鈕便立即執行部署作業,並且在 vCenter Server 管理頁面中,系統將顯示「Installation of vRealize Operations in progress !」資訊。經過一段時間下載 vROps 安裝印象檔並部署完成後,重新整理 vCenter Server 管理頁面,便能順利在 vCenter Server 管理頁面中,直接看到 vROps 輕量級儀表板(如圖 12 所示)。

圖 12、直接在 vCenter Server 管理頁面中,看到 vROps 輕量級儀表板



vCenter 中六個 vROps 輕量級儀表板

現在,管理人員在 vCenter Server 管理介面中,已經可以直接看到 vROps 輕量級儀表板。預設情況下,切換至 vRealize Operations 頁面時,將會顯示六個 vROps 輕量級儀表板中的「vCenter Overview」項目。

管理人員,可以點選右方「Quick Links」下拉式選單,便會發現六個 vROps 輕量級儀表板項目可供切換。簡單來說,儀表板有兩個大項目,分別是著重於「vCenter」和「vSAN」超融合環境,每個大項目內共有三個 vROps 輕量級儀表板,分別是「Overview、Cluster View、Alerts」(如圖 13 所示)。

圖 13、切換不同的 vROps 輕量級儀表板項目

那麼,我們來看看這六個 vROps 輕量級儀表板項目,如何幫助管理人員快速得知 vCenter Server 管理平台,以及 vSAN 超融合環境整體的工作負載和健康狀態。


vCenter – Overview 儀表板

在 vCenter Server Overview 儀表板中,管理人員可以快速且一目瞭然了解整體健康情況。首先,在 Are there any Issues 區塊中,倘若系統有任何錯誤或告警資訊都會在此呈現,並且管理人員可以點選後,了解這個錯誤或告警資訊的詳細內容以及嚴重程度。在「Are Clusters configured for HA」和「Are Clusters Workload Balanced」區塊中,可以快速看到 vSphere 叢集,是否已經啟用 HA 高可用性機制和 DRS 負載平衡特色功能。

上述這幾個項目,雖然管理人員可以在傳統 vCenter Server 管理介面中查詢得知,但是必須個別項目逐一查看和確認才行,長期累積下來無形間也浪費不少時間。此外,在這個儀表板中有二個項目,是傳統 vCenter Server 管理介面無法得知的,一個是「What is Operating System distribution ?」,直接將 vCenter Server 管理平台中,所有 VM 虛擬主機中作業系統的類型進行統計和分類。另一個是「What can be Reclaimed ?」,提醒管理人員在 vSphere 叢集中,有多少的硬體資源其實是閒置且無謂浪費的,管理人員應該想辦法回收這些閒置的寶貴資源,達到節省費用的目的(如圖 14 所示)。
管理人員可以快速回覆主管,通過回收這些閒置的寶貴硬體資源,可為公司節省多少有形的 IT 預算開支。

圖 14、vCenter Server Overview 儀表板


vCenter – Cluster View 儀表板

在 vCenter Cluster View 儀表板中,與剛才 vCenter Server Overview 儀表板類似,但是整體資訊會著重在「vSphere 叢集」的部份。倘若,vCenter Server 管理多個 vSphere 叢集時,可以點選「CHANGE CLUSTER」切換至不同的 vSphere 叢集。

同樣的,系統在儀表板中提醒管理人員在 vSphere 叢集中,有多少硬體資源是被閒置可進行回收的部份,特別的是在「Time remaining before Capacity runs out」項目中,將依據目前 vSphere 叢集總體硬體資源,以及各項工作負載的成長趨勢進行分析和判斷後,提醒管理人員各項硬體資源仍可以支應多久的時間,有效幫助管理人員在來年 IT 預算的評估判斷和採購計畫(如圖 15 所示)。
請注意,管理人員應該隨時查看評估結果,因為 vROps 每隔一段時間,便會將工作負載的成長趨勢和總體硬體資源進行開銷估算,所以評估結果將會隨時變動。
圖 15、vCenter Cluster View 儀表板


vCenter – Alerts 儀表板

在 vCenter Server Alerts 儀表板中,直接條列所有的告警資訊,並且依照嚴重程度和顏色進行排序,例如,最嚴重的 Critical 層級便採用最顯眼的紅色。當管理人員要查看和條列不同嚴重程度的告警資訊時,只要點選該層級項目即可。同時,預設情況下,將會直接顯示「Warning」層級的告警資訊。

因此,當管理人員在時間有限的情況下,可以優先挑選需要被立即解決的問題,例如,點選 Critical 或 Immediate 層級,然後閱讀系統提供的告警資訊後進行故障排除作業,在告警資訊欄位中「Triggered On」項目(如圖 16 所示),便是在 vSphere 叢集中發生問題的 VM 虛擬主機名稱,至於每項告警資訊欄位最後的「Open in vRealize Operations」連結圖示,則會另開新視窗至 vRealize Operations Manager 登入頁面,提供更進一步的問題分析和故障排除建議及補救措施。

圖 16、vCenter Server Alerts 儀表板


vSAN – Overview 儀表板

在 vSAN Overview 儀表板中,與 vCenter Server Overview 儀表板非常類似,但著重在 vSAN 超融合環境的相關資訊中,包括,Disk IOPs 和 Disk Throughput 儲存效能表現,以及是否啟用進階特色功能,例如,Compression 壓縮技術。
倘若,vCenter Server 所管理的環境中,並沒有 vSAN 超融合叢集時,那麼 vSAN 項目的三個儀表板便不會顯示相關分析和統計數據。

過去,在傳統的 vCenter Server 管理介面中,管理人員很難查詢到「vSAN 元件」(vSAN Component)數量的總體使用情況,舉例來說,新版的 vSAN 環境可以透過 Skyline Health 機制逐一查看,舊版的 vSAN 環境則無法在 vCenter Server 管理介面中查看到,必須 SSH 連線至每一台 vSAN 叢集節點主機中,透過指令「esxcli vsan debug limit get」才能查詢 vSAN 元件的使用數量。

現在,在 vSAN Overview 儀表板中,直接在「What is the Component Limit ?」區塊中,顯示 vSAN 元件數量的使用情況。在本文實作環境中,可以看到在 vSAN 超融合叢集中,共有六台 vSAN 叢集節點主機,每台主機最多支援「9,000」個 vSAN 元件,所以此 vSAN 超融合叢集最多支援「54,000」個 vSAN 元件,目前已經使用「9,512」個 vSAN 元件,剩餘「44,488」個 vSAN 元件(如圖 17 所示)。
有關 vSAN 元件的相關詳細資訊,請參考 VMware KB 2146130KB 2108912KB 67712 知識庫文章內容。

圖 17、vSAN Overview 儀表板


vSAN – Cluster View 儀表板

在 vSAN Cluster View 儀表板中,提供與 vSAN Overview 儀表板類似的資訊,但是整體更著重在 vSAN 超融合叢集的層面,舉例來說,在「What is remaining Capacity ?」區塊中,提供 vSAN 超融合叢集儲存資源空間的使用情況。同樣的,當 vCenter Server 管理多個 vSAN 超融合叢集時,可以點選「CHANGE CLUSTER」切換至不同的 vSAN 超融合叢集。

在 vSAN 超融合叢集儲存效能的部份,除了原有的 Disk IOPs 和 Disk Throughput 之外,更增加「磁碟延遲時間」(Disk Latency),和「讀取寫入延遲時間」(Read Latency / Write Latency)圖表(如圖 18 所示),除了方便管理人員了解工作負載情況之外,更可以判斷企業和組織內營運服務的資料讀寫趨勢,方便日後選擇相關解決方案時進行最佳化,舉例來說,倘若發現讀取延遲時間增加造成營運服務回應變慢時,便可以考慮導入資料「讀取快取」(Read Cache)機制,讓資料讀取延遲時間降低提升營運服務回應速度。

圖 18、vSAN Cluste View 儀表板


vSAN – Alerts 儀表板

在 vSAN Alerts 儀表板中,與 vCenter Server Alerts 儀表板相同功能,直接條列所有的告警資訊並依照嚴重程度和顏色排序(如圖 19 所示)。同時,點選「Open in vRealize Operations」連結圖示,另開新視窗至 vRealize Operations Manager 登入頁面,提供更進一步的問題分析和故障排除建議及補救措施。
vRealize Operations Manager 登入頁面,在預設情況下,管理帳號為「admin」管理密碼為「Vmware@123」。

圖 19、vSAN Alerts 儀表板



完整功能的 vRealize Operations Manager

管理人員應該已經察覺到,vROps 輕量級儀表板能提供「深入解析」(Insights),而無法提供更進階的操作,舉例來說,在完整功能的 vRealize Operations Manager 儀表板中,已經內建更深入解析的「Heavy Hitter VMs」儀表板(如圖 20 所示),管理人員可以從儀表板中得知,哪些 VM 虛擬主機在使用 CPU 和 Memory 運算資源非常吃重,哪些 VM 虛擬主機使用過多的 IOPS 儲存資源,哪些 VM 虛擬主機使用過量的 Network 網路資源。

圖 20、Heavy Hitter VMs 儀表板

除了故障排除建議和抓取耗損硬體資源的 VM 虛擬主機之外,完整功能的 vRealize Operations Manager,還提供工作負載效能最佳化的各項建議,幫助管理人員無須尋找和閱讀大量效能最佳化文件,便可以輕鬆得到 VMware 官方的各項最佳化建議(如圖 21 所示)。

圖 21、vRealize Operations Manager 提供工作負載效能最佳化的各項建議





結語

透過本文的深入剖析和實作演練後,管理人員已經了解完整功能 vRealize Operations Manager,和 vROps 輕量級儀表板兩者之間的差異。因此,即便企業和組織僅有 vSAN 超融合叢集環境和軟體授權的情況下,也能透過 vROps 輕量級儀表板的各項分析和統計數據,有效管理 vSAN 超融合叢集環境。