vSAN 6.7 Update 1 的 RSS Engine 問題導致 PSOD


Question

vSAN 6.7 Update1 發生 PSOD 事件,查看下列 PSOD 死當畫面,發現有 RSS Engine RSS Plug Cleanup 等關鍵字。




Answer

導致此問題的根本原因是 Load-Based NetQueue Balancer Module 所引起,當 ESXi 無法清理 RSS Engine Private Data 時就會引起 PSOD 事件 (詳細資訊請參考 VMware KB 58874 - RSSPlugCleanupRSSEngine purple diagnostic screen on ESXi 6.7)。

簡單來說,有下列二種解決方式 (擇一即可):

解決方法一、更新 ESXi 6.7 Update 1 -> Update 2

將 ESXi 6.7 Update 1 更新至 ESXi 6.7 Update 2 即可解決。詳細資訊請參考 VMware ESXi 6.7 Update 2 Release Notes - PR 2219661: An ESXi host might fail with a purple diagnostic screen if RSS is enabled on a physical NIC


解決方法二、無法更新時的暫時作法

倘若,無法在短時間內將 ESXi 6.7 Update 1 更新至 ESXi 6.7 Update 2 時,可以先採用下列暫時的作法,將 ESXi 實體伺服器的 RSS 功能關閉,以避免發生  PSOD 事件。
esxcli network nic queue loadbalancer set --rsslb=false -n vmnicX