一個2節點的vSAN延伸群集,節點主機配置 了 1個CPU、16GB內 存、1塊萬兆網卡、2個磁盤組組成2節點直連的vSAN延伸群集。在使用一段時間之后,其中一個節點主機出現問題,管理員進入控制臺將這個主機進行了“系統重置”,重置之后,再次進入控制臺,將IP地址、密碼設置為與原來相同。登錄vSphere Web Client重新連接、配置主機之后,在“配置→磁盤管理”中看到,這臺主機磁盤組的“vSAN健康狀況”為-(如圖 1),同時,在“網絡分區組”列表中,這臺主機沒有分區信息。

圖1 vSAN健康狀態不正常

圖2 vSAN健康狀態正常
正常情況下的“vSAN健康狀況”應該顯示為“正常”(如圖2)。
此時當前的vSAN數據存儲容量降為原來的一半。
對于出現圖1所示狀態的故障,解決的思路如下。
(1)如果當前vSAN群集中有正在運行的虛擬機,重要的虛擬機可以備份或遷移到其他群集中繼續運行。不太重要的虛擬機,可以暫時先關閉。
(2)禁用 HA。
(3)將出故障的主機進入維護模式(當前主機是172.18.96.36),并 從 vSAN群集中移除。
(4)將172.18.96.36重新加入vSAN群集,并退出維護模式。
(5)重新啟用HA。
下面介紹詳細步驟。
(1)在導航器中選中vSAN群集(當前群集名稱為T630-vSAN),在右側單擊“配置→故障域和延伸群集”,在“故障域/主機”中可以看到,當前缺少“首選”主機(或缺少輔助主機)。
(2)在“配 置 → 服 務→vSphere可用性”中單擊“編輯”按鈕。
(3)在打開的“編輯群集設置”對話框的“vSphere可用性”中,取消“打開vSphere HA”的選擇然后單擊“確定”按鈕。
(4)在vSphere導航器中,將故障主機進入維護模式,然后將其移除。移除完成之后如圖3所示。
(5)將故障主機再次加入群集,并將故障主機退出維護模式。
(6)在“配置→vSAN→故障域和延伸群集”中單擊+號按鈕(如圖4)。

圖3 移除故障主機之后

圖4 添加故障域

圖5 故障域信息正常
(7)在“新建故障域”對話框中的“名稱”文本框中為新添加的故障域設置缺失的故障域名稱。根據圖4所示,當前缺失“首選”故障域,故設置名稱為首選,選中再次添加的主機172.18.96.36,單擊“確定”按鈕。
(8)添加故障域之后,如圖5所示。
(9) 為 172.18.96.36的主機啟用SSH服務,使 用xshell登 錄 到172.18.96.36,執行如下命令,為在vmk0添加vSAN見證流量。
esxcli vsan network ip add -i vmk0 -T=witness
(10)在“配置→vSAN→磁盤管理”中,可以看到172.18.96.36的主機磁盤組正常。
(11)在“數據存儲→數據存儲”中可以看到容量恢復正常(當前為3.68TB)。
(12)在“配置→vSphere可用性”中,啟用vSphere HA。
在重新添加節點主機之后見證主機可能出錯,這表示為在“配置→磁盤管理”中的“網絡分區組”中,見證主機沒有分組信息,vSAN健康狀況顯示為-。
對于這種問題,只要更改見證主機,并重新選擇見證主機即可解決。
(1)在“配置→vSAN→故障域和延伸群集”中單擊“更改見證主機”。
(2)在“更改見證主機”對話框的“選擇見證主機”選項中,仍然選擇原來的見證主機172.18.96.39即可。
(3)重新選擇見證主機之后,整個vSAN群集恢復正常,在“網絡分區組”中可以看到每個節點主機及見證主機都在組1,vSAN健康狀況為正常。