︿
Top

網管人雜誌

本文刊載於 網管人雜誌第 100 期 - 2014 年 5 月 1 日出刊,NetAdmin 網管人雜誌 為一本介紹 Trend Learning 趨勢觀念、Solution Learning 解決方案、Technology Learning 技術應用的雜誌,下列筆記為本站投稿網管人雜誌獲得刊登的文章,網管人雜誌於每月份 1 日出刊您可於各大書店中看到它或透過下列圖示連結至博客來網路書店訂閱它。





文章目錄

1、前言
2、實作環境
3、離線查看磁碟陣列健康情況
4、下載磁碟陣列監控及管理程式
5、為 ESXi 主機安裝磁碟陣列監控程式
          為 ESXi 主機啟 SSH 服務
          上傳 VIB 安裝檔至 ESXi 主機
          為 ESXi 主機安裝 VIB 檔案
          ESXi 主機 Storage 健康情況
6、安裝磁碟陣列管理程式
          搜尋並管理 ESXi 主機
7、設定自動告警機制
8、災難演練 – 模擬硬碟損壞
9、災難演練 – RAID 重建
10、結語





1、前言

以往在實體環境的運作架構當中,當所採購的實體伺服器進行好 RAID 磁碟陣列初始化動作,並且安裝完畢作業系統,例如,Windows、Linux、Solaris...等之後,為了隨時了解 磁碟陣列卡(RAID Card)、硬碟(Hard Disk)、智慧型電池備用模組(Intelligent Backup Battery Unit,iBBU)的健康情況。因此,IT 管理人員便會安裝 RAID Monitor 磁碟陣列監控軟體,並且設定告警機制以便相關元件發生故障情況時 如 硬碟損壞、BBU 電池壽命不足...等,能夠立即通知 IT 管理人員以便於第一時間進行處理防患未然。

然而,目前市場上隨著雲端運算以及 BYOD(Bring Your Own Device)等議題的推波助瀾之下,企業或組織部署及導入伺服器虛擬化平台已經非常普及。那麼以往的 RAID Monitor 磁碟陣列監控軟體,能否順利安裝在 Hypervisor 虛擬化平台當中? 此外,雖然許多廠商紛紛推出第三方應用程式,能夠同時監控大量伺服器的磁碟陣列健康情況,但是對於預算吃緊的中小企業來說也是一筆不小的負擔。

本文便是說明,當企業或組織將實體環境遷移至 Hypervisor 虛擬化平台上運作,在不影響 Hypervisor 虛擬化平台運作穩定性的前提下(因為 Hypervisor 其實無法隨意安裝第三方應用程式),安裝磁碟陣列監控軟體並設定監控告警機制,同時模擬演練當硬碟損壞時其自動告警機制,以及後續進行磁碟陣列重建(RAID Rebuild)時該注意的事項,並採用目前市場上最普及的磁碟陣列卡 MegaRAID 為範例。

圖 1、本文實作所採用的 LSI MegaRAID SAS 9266-8i 磁碟陣列卡





2、實作環境






3、離線查看磁碟陣列健康情況

欲進行實體伺服器磁碟陣列初始化,以及後續要離線查看磁碟陣列的健康情況時,可以於伺服器開機後在硬體偵測程序期間,按下「Ctrl + H」組合鍵進入 WebBIOS 設定模式,你可以建立磁碟陣列並查看硬碟的健康情況。

圖 2、WebBIOS Configuration Utility 設定畫面

同時,你也可以在 WebBIOS 管理畫面中,依序選擇「Controller Properties > Next > Next > Battery Backup > Battery Properties」項目,便可以看到目前安裝於磁碟陣列卡當中,智慧型電池備用模組 iBBU 的健康情況,例如,目前的蓄電量百分比、電池可維持快取資料天數、目前溫度(影響電池壽命)...等資訊。

圖 3、WebBIOS Configuration Utility 設定畫面

然而,雖然我們可以透過離線(Offline)的方式,來檢查伺服器主機磁碟陣列及相關元件的健康情況,這樣的離線檢查方式若是在實體運作環境上,只要安排主機進行維護時間進行即可。但是,離線檢查方式套用在虛擬化平台上便顯得複雜且沒有彈性,舉例來說 你必須先將虛擬化平台上所有運作的 VM 虛擬主機,進行遷移(Migration)到其它運作中的虛擬化平台上或者關機,然後進行離線檢查作業了解相關元件的健康情況,接著再把 VM 虛擬主機遷移回來或開機。

因此,可以知道離線檢查方式缺少彈性並增加管理難度,因此本文將會實作當伺服器主機安裝 VMware vSphere ESXi 成為虛擬化平台之後,如何安裝磁碟陣列監控程式及管理程式,以便 IT 管理人員「線上(Online)」檢查伺服器主機磁碟陣列及相關元件的健康情況。





4、下載磁碟陣列監控及管理程式

此次實作環境中,實體伺服器所安裝為目前市場上最普級的磁碟陣列卡 MegaRAID,其製造商 LSI 官方所發佈的磁碟陣列監控程式 MegaRAID SMIS Providers,以及磁碟陣列管理程式 MegaRAID Storage Manager,皆支援多種作業系統平台有 Windows / Linux / Solaris,以及 VMware vSphere ESXi 虛擬化平台

請至 LSI 官網下載頁面,在搜尋框中輸入關鍵字「MegaRAID SMIS」後按下 Search 鈕,便可以得到磁碟陣列監控程式 MegaRAID SMIS Providers,請下載此次實作環境的安裝程式,也就是 OS 欄位為「VMware 5.x」的最新版本 MegaRAID SMIS Providers。

圖 4、下載最新版本磁碟陣列監控程式 MegaRAID SMIS Providers for VMware 5.x

請在搜尋框中再次輸入關鍵字「Storage Manager」後按下 Search 鈕,便可以得到磁碟陣列管理程式 MegaRAID Storage Manager,請下載此次實作環境欲安裝的作業系統,也就是 OS 欄位為「Windows」的最新版本 MegaRAID Storage Manager。

圖 5、下載最新版本磁碟陣列管理程式 MegaRAID SMIS Providers for Windows





5、為 ESXi 主機安裝磁碟陣列監控程式

下載 MegaRAID SMIS Providers 磁碟陣列監控程式完畢後,再安裝以前請再次確認是否支援你所採用的磁碟陣列卡(此次實作為 MegaRAID SAS 9266-8i)。下列為此次下載最新版的 LSI Logic MegaRAID VMWare 5.x SMIS Provider VIB,其支援的磁碟陣列卡清單:

  • MegaRAID SAS 9240-4i、9240-8i、9341-4i、9341-8i
  • MegaRAID SAS 9260-4i、9260-16i、9260CV-4i、9260-8i、9260CV-8i、9260DE-8i、9261-8i
  • MegaRAID SAS 9265-8i、9266-4i、9266-8i
  • MegaRAID SAS 9270-8i、9271-4i、9271-8i、9271-8iCC
  • MegaRAID SAS 9280-4i4e、9280-8e、9280DE-8e、9280-24i4e、9280-16i4e
  • MegaRAID SAS 9285-8e、9285CV-8e
  • MegaRAID SAS 9286-8e、9286CV-8e、9286CV-8eCC
  • MegaRAID SAS 9361-4i、9361-8i


為 ESXi 主機啟 SSH 服務

請為 VMware vSphere ESXi 虛擬化平台開啟 SSH 服務,以便稍後可以上傳磁碟陣列監控程式 VIB 安裝檔,以及鍵入相關指令執行安裝的動作。您可以到 ESXi 主機的 Console 面前使用 DCUI 方式開啟 SSH 服務,或者以 vSphere Client 登入後開啟 SSH 服務,請依序點選「ESXi Host > Configuration > Security Profile > Services > Properties > SSH > Options > Start > OK」。(詳細資訊請參考 VMware KB 2004746

圖 6、開啟 ESXi 主機 SSH 遠端管理服務



上傳 VIB 安裝檔至 ESXi 主機

將剛才下載的 MegaRAID SMIS Providers 磁碟陣列監控程式解開後(VIB 安裝檔案),透過 Datastore Browse 或 WinSCP 上傳至 ESXi Host 當中。接著開啟 SSH Client 登入 ESXi Host 後,將剛才上傳的 VIB 檔案移動至「/tmp」路徑下。

圖 7、上傳 VIB 安裝檔至 ESXi 主機並移動作 /tmp 路徑下



為 ESXi 主機安裝 VIB 檔案

在為 ESXi Host 安裝 VIB 磁碟陣列監控程式以前,先了解一下關於虛擬化平台更新的二個技術名詞「VIB」及「Depot」:

  • VIB: VMware Installation Bundle 的縮寫,其內容包括 VMware 以及其它如伺服器硬體廠商所開發出來的 vSphere ESXi 軟體,此軟體內容中含有 硬體驅動程式(Drivers)、硬體狀態監控(CIM),以及為 ESXi Host 進行功能增強及臭蟲修正(Bugs Fix)…等功能,檔案副檔名為 .vib。
  • Depot: 包含所有 VIB 軟體及相關索引檔案及配置檔案…等的軟體組合包,可以透過 HTTP 協定或者打包後的 zip 壓縮檔案進行安裝。


簡單來說,您可以把 VIB 軟體視為是幫 ESXi Host 平台所安裝的驅動程式或應用程式,VMware 官方將 VIB 軟體規劃為四種驗證等級,其實您也可以把 VIB 視同 Microsoft 為 Windows 作業系統的驅動程式進行認證一樣道理,這樣的軟體驗證等級措施都是為了保持運作平台的穩定性所設計。

在預設的情況下 VIB 檔及 ESXi Host 都有驗證等級,要將 VIB 安裝至 ESXi Host 則二者的驗證等級至少必須相同才行,例如,ESXi Host 驗證等級為 PartnerSupported 時,則無法安裝驗證等級為 CommunitySupported 的 VIB 軟體,當然您可以變更 ESXi Host 的驗證等級(VIB 檔無法變更),以便安裝所取得的 VIB軟體不過若因此導致 ESXi Host 平台運作不穩定則必須自行負責。

因此VMware 官方並不建議你輕易變更 ESXi Host 的驗證等級,以下為四種驗證等級及說明:(等級由高至低)

  • VMwareCertified: 此等級的 VIB 受到最嚴格的驗證要求,並且通過 VMware 官方全面的測試,目前只有 IOVP 驅動程式以此等級進行發佈,若安裝後發生問題 VMware 官方將提供技術支援。
  • VMwareAccepted: 此等級的 VIB 通過驗證要求,但是並未針對每種功能進行全面測試,簡單來說是 VMware 的合作夥伴所開發及測試之後,送交 VMware 官方進行驗證後通過,目前只有硬體偵測機制 CIM 及儲存設備存取機制 PSA 等軟體以此等級進行發佈,若安裝後發生問題可以向 VMware 官方反應,他們會立即將問題轉交給合作夥伴以提供技術支援。
  • PartnerSupported: 此等級的 VIB 由 VMware 信任的合作夥伴所開發及測試,但 VMware 官方未驗證結果,通常合作夥伴要在 VMware 平台中採用新或非主流的技術時便會採用此驗證等級,例如 Infiniband、ATAoE、SSD…等軟體便是以此等級進行發佈,若安裝後發生問題可以向 VMware 官方反應,他們會立即將問題轉交給合作夥伴以提供技術支援。
  • CommunitySupported: 此等級的 VIB 由 VMware 社群熱心人士所推出,未通過任何 VMware 官方驗證及測試,若安裝後發生問題 VMware 官方將不提供任何技術支援。


在安裝以前可以先查詢所要安裝 VIB 及 ESXi Host 的驗證等級,因為預設情況下驗證等級至少要相同才可安裝,若等級不同時可以變更 ESXi Host 主機的驗證等級(請注意驗證等級名稱的大小寫)以進行安裝,若不想更改 ESXi Host 主機的驗證等級,雖然可以在安裝 VIB 時加上「--force」參數強迫進行安裝,但如此一來除了在安裝過程中顯示警告之外,後續在移除 VIB 或某些操作中也會顯示警告訊息,並且如同前面所說明若強迫安裝後發生問題時 VMware 官方將不提供技術支援。

首先,以「esxcli software acceptance get」指令查詢 ESXi Host 的驗證等級,可以得到預設的「PartnerSupported」驗證等級,接著以「esxcli software sources vib list --depot=」指令查詢 VIB 安裝檔的驗證等級,得到的是比 ESXi Host 還高的「VMwareAccepted」驗證等級,最後執行「esxcli software vib install -v」指令安裝 VIB 磁碟陣列監控程式,可以得到「The update completed successfully」安裝成功的訊息,但必須注意必須要重新啟動 ESXi Host 才能套用生效(Reboot Required 欄位為 true)。

此外,如果先前已安裝過 VIB 磁碟陣列監控程式,欲進行版本升級請執行「esxcli software vib install –v」指令。

圖 8、安裝 VIB 磁碟陣列監控程式



ESXi 主機 Storage 健康情況

你可以發現在尚未安裝 VIB 磁碟陣列監控程式以前,如果您查看 ESXi Host 的儲存資源時,僅能看到硬碟數量而以並且相關資訊不足。但是,當 ESXi Host 安裝好VIB 磁碟陣列監控程式並重新啟動後,您可以看到磁碟陣列卡以及智慧型電池 BBU 的健康情況。

請注意!! 若看不到 ESXi Host 的硬體健康情況,請確認「CIM Server」服務是否為「執行中(Running)」。

圖 9、「尚未」安裝 VIB 磁碟陣列監控程式

圖 10、「已」安裝 VIB 磁碟陣列監控程式





6、安裝磁碟陣列管理程式

確認為 ESXi Host 安裝好磁碟陣列監控程式後,您可以安裝一台 MSM(MegaRAID Storage Manager) 磁碟陣列管理主機(支援 Windows / Linux),以便查看更詳細的磁碟陣列健康資訊以及設定自動告警機制。

請注意!! MSM 磁碟管理工具主機,將會使用 Port 30715571 進行溝通,請確認防火牆允許進行通訊。

此外,值得注意的是雖然 MSM 磁碟陣列管理工具,屆時將會採用「IP Address」進行搜尋 ESXi Host 的動作,但是根據實測結果在搜尋及溝通時會用到「DNS 解析」,所以請確認下列環境事項:

     1. 安裝 MSM 客戶端主機必須要能「正確解析」ESXi Host,如果區網中沒有 DNS 伺服器進行解析動作的話,可以在 MSM 客戶端主機設定自行解析機制,例如 採用 Windows 作業系統的話,便修改 「C:\Windows\System32\drivers\etc\hosts」內容、若採用 Linux 作業系統則修改「/etc/hosts」。
     2. ESXi Host 除了預設的「localhost」之外,還必須設定「主機名稱 Hostname」。

若上述 DNS 名稱解析的動作未正確完成的話,稍後使用 MSM 管理工具嘗試搜尋 ESXi Host 時便可能會發生「找不到 或 找到 0.0.0.0」的情況,進而導致無法順利連接及後續的管理動作。

圖 11、DNS 名稱解析的動作未正確導致無法找到 ESXi Host



搜尋並管理 ESXi 主機

開啟 MSM 管理工具後,請依序點選「Configure Host > Display all systems in the network of local server > Save Settings」項目,以調整 MSM 管理工具搜尋 ESXi Host 的方式,接著在 IP Address 欄位輸入「MSM 管理主機 IP」此實作為 192.168.1.10 後,按下「Discover Host」鈕進行搜尋的動作,之後便會在 Remote server 區塊中發現 ESXi Host,此實作其 IP 位址為 192.168.1.55

圖 12、以 MSM 管理工具搜尋 ESXi Host

點選搜尋到的 ESXi Host 後按下 Login 鈕,此時將彈出登入驗證視窗請輸入 ESXi Host 的管理帳號 root 及密碼後,按下 Login 鈕進行登入的動作。登入後便可以看到磁碟陣列概要資訊儀表板(Dashboard)。

請注意!! 必須採用 root 管理帳號登入才會具備「完整權限(Full Access)」,否則僅具備「檢視(View Only)」權限。

圖 13、MSM 磁碟監控管理工具順利登入

你可以切換到 Logical 頁籤,以查看目前的 RAID 模式、儲存設空及健康情況,同時可以查看此 RAID 是由幾顆硬碟所組成。或者切換到 Physical 頁籤除了查看硬碟詳細資訊之外,也可以查看智慧型電池 BBU 的蓄電及健康情況

圖 14、查看智慧型電池 BBU 的蓄電及健康情況





7、設定自動告警機制

現在,你已經可以線上查看 ESXi Host 的磁碟陣列及相關元件的健康情況。接著,以 MSM 管理工具設定自動告警機制,以便相關元件發生故障狀況時 (例如,HDD 損壞)便可以進行告警的動作,請依序點選 MSM 上方工具列「Tools > CIMOM Configure Alerts」。

在彈出的 Configure Alerts 視窗中,於 Alert Settings 設定頁籤內可以設定告警的通知方式,分別支援 彈出視窗(Popup)、電子郵件(Email)、系統日誌(System Log)、MSM日誌(MSM Log) 等四種通知方式。在 Mail Server 設定頁籤內為設定 寄件者(Sender mail address)、寄件伺服器(SMTP Server)、通訊埠(Port) 等資訊,在 Email 設定頁籤內為設定 收件者(Recipient email address),完成設定後按下 OK 鈕即可儲存自動告警設定。

圖 15、設定自動告警機制




8、災難演練 – 模擬硬碟損壞

透過 MSM 工具了解 RAID 健康狀態並完成自動告警機制設定後,我們來模擬測試當硬碟發生故障時,相關的 RAID 狀態會有什麼改變,以及剛才設定的告警機制是否能順利運作。在災難演練測試中我將「第四顆硬碟(Slot 3)」拔除退出,因為剛才在告警機制中有設定「Popup」通知方式,所以安裝 MSM 管理工具的主機當中便會彈出告警視窗。

圖 16、硬碟損壞後 Popup 告警視窗自動彈出

同時,剛才所設定的收件者應該也已經收到故障通知郵件,在郵件內容中可以明確看到「Diagnostics failed on PD: -:-:3」字樣,表示偵測到實體伺服器當中的第四顆硬碟(PD 3)發生故障事件。

此外,在開啟的 vSphere Client – Health Status視窗中,也可以看到「Disk Bay 3」硬碟發生「Drive Fault」故障事件,並且 RAID 狀態為「Degraded」。

圖 17、ESXi Host 磁碟陣列監控程序,順利偵測到第四顆硬碟發生故障事件

當然,若開啟 MSM 管理工具也可以看到,在 Dashboard 頁籤中已經從先前狀態良好的 Optimal 變成「Needs attention」,而切換到 Physical 頁籤中則會看到損壞的硬碟「Slot 3 消失」僅剩七顆硬碟,切換到 Logical 頁籤同樣的也看到 Slot 3 消失,並且狀態也從 Optimal 變成「Degraded」。

圖 18、損壞的硬碟 Slot 3 消失僅剩七顆硬碟,RAID 狀態從 Optimal 變成 Degraded





9、災難演練 – RAID 重建

將良好的硬碟重新插入 Slot 3 之後,此時當實體伺服器硬體「感應器(Sensor)」偵測到新的硬碟加入後,便會自動進行「RAID 重建(RAID Rebuild)」的動作,此時再回到 MSM 管理工具中可以發現,在 Physical 或 Logical 頁籤當中,「Slot 3 硬碟出現」並且狀態為「重建(Rebuild)」。

圖 19、感應器偵測到新的硬碟加入後,自動進行 RAID 重建動作

RAID 重建(RAID Rebuild)的動作要花費多少時間? 這必須要視您的磁碟陣列卡效能以及儲存空間而定,但是您可以在 MSM 管理工具介面中,切換至 Dashboard 頁籤在 Background Operations 區塊中,按下「More details」連結便會彈出視窗,顯示目前的 RAID 重建進度百分比、已花費時間(Elapsed time)、預估剩餘時間(Estimated time left)。

圖 20、RAID 重建進度百分比、已花費時間、預估剩餘時間

當 RAID 重建作業完畢後,回到 Dashboard 頁籤狀態由先前的 Needs attention 變回「Optimal」,而切換到 Physical / Logical 頁籤中,除了 Slot 3 由先前 RAID 重建時的 Rebuild 變回「Online」狀態之外,RAID 狀態也由先前的 Degraded 變回「Optimal」。

圖 21、RAID 重建作業完畢





10、結語

希望透過本文的說明及實作,能夠幫助讀者在建立虛擬化平台時,輕鬆建立不需額外成本的 RAID 磁碟陣列監控機制,除了可隨時線上掌握磁碟陣列及相關元件的健康狀態之外,並設定自動告警機制以便因應如 硬碟損壞、BBU 電池壽命不足...等故障事件發生時,能夠在第一時間內進行災難因應的動作。
文章標籤: ,