趙雅欣 申 振 王 鵬 管 虎 張 寧
青島前灣聯合集裝箱碼頭有限責任公司
目前,集裝箱碼頭生產作業日趨無人化、自動化,ECS(Equipment Control System,設備控制系統)作為集裝箱碼頭設備遠程控制的重要系統,要求24 h不停機且穩定運行,對可靠性要求高,ECS數據庫如果出現故障,需要能迅速恢復。傳統的單節點服務器由于其局限性,在繁重、復雜的應用服務中體現出來的弊端也越來越明顯。目前雙機熱備或多機互備的方式,具備快速自動切換功能,能夠保證在無人值守的環境下,主服務器出現故障時提供無數據差異的秒級切換,可大大減少因服務器故障帶來的網絡癱瘓,提高系統平臺的穩定性。合理使用雙機熱備技術,充分發揮其穩定高效、高可用性的特點,是保障系統數據庫穩定運行,碼頭生產作業正常運轉的重要措施。
雙機熱備是集群熱備的特例,一般用于保障重要的服務正常不間斷運行[1]。雙機熱備用兩臺機器作為服務機器,其中一臺用于實際數據庫操作應用,另外一臺則實時地從前者中獲取數據以保持數據一致。如果當前的服務器宕機,備份的服務器在短時間內自動完成服務的切換,代替當前的機器繼續提供服務,從而保證在不需要人工干預的情況下,系統能持續提供服務,正常運轉[2]。
雙機熱備有如下幾點特征:
(1)業務不間斷。備服務器實時地從主服務器中獲取數據,確保對數據庫24 h不間斷訪問,保證各項業務的穩定運行。
(2)雙機自動切換。若主服務器因某種原因宕機,備服務器在短時間自動完成服務的切換,不需要人工干預[3]。
(3)應用數據不丟失。針對不可預期的服務器主機故障,可通過備份服務器恢復正常的使用能力,且不會造成數據丟失。
雙機熱備的優點如下:①可在表空間或數據文件級備份,備份時間短;②備份時數據庫仍可使用;③可達到秒級恢復;④可對幾乎所有數據庫實體做恢復;⑤恢復是快速的,大多數情況下在數據庫仍工作時即可恢復。其缺點是若熱備份不成功,所得結果不可用于時間點的恢復。
某集裝箱碼頭軌道式龍門起重機(以下簡稱軌道吊)自動化改造項目采用ECS系統指揮碼頭生產作業,一旦發生服務器宕機故障或應用停機,將會造成數據丟失,影響現場作業,帶來重大經濟損失。基于安全性、穩定性、可靠性及避免單點故障的考慮,對數據庫服務器實現雙機熱備功能。
該碼頭作業現場ECS自動化關鍵業務系統部署在windows server2012服務器上,系統軟硬件配置見表1。

表1 系統軟硬件配置
數據庫雙機熱備系統建成后,實現如下目標。
(1)系統持續運行。數據同步復制,最短時間內完成故障切換,使系統不停機,業務不間斷[3]。
(2)雙機自動切換。若主服務器因某種原因宕機,備服務器在短時間自動完成服務的切換,不需要人工的干預。
(3)應用數據全自動備份。減少系統管理員的工作量,增加備份效率,壓縮備份時間,消除備份過程中因操作不當導致的嚴重損失。
(4)數據零丟失。出現系統故障后修復數據要求達到零數據丟失的高安全性。
如果現場運行主庫服務器宕機,嚴格按照如下步驟操作,即可恢復現場作業并重現數據庫。
3.3.1 運行主庫脫機
作業現場運行主庫服務器宕機后,需要第一時間拔除主庫所有網線,讓服務器進入脫機狀態,避免備用從庫切換至主庫時引起IP沖突等問題。
3.3.2 備用從庫切換
運行主庫網線拔除后,將備用從庫IP修改為主庫IP,并通過服務器桌面的一鍵關閉以及一鍵開啟程序,重啟運行應用服務器的所有后臺應用服務及服務器桌面的MP中轉程序,即可恢復現場作業,整個操作過程耗時不超過5 min。
3.3.3 雙機熱備重現
雙機熱備可在恢復現場作業之后進行,不影響現場作業。宕機服務器維修完畢后,接入網絡前需要將該服務器IP修改為備用從庫IP,此時主備服務器已經調換,刪除之前實現的熱備功能、發布的事務與訂閱后,重新實現熱備功能。
對數據庫熱備功能進行單機模擬測試,以模擬集裝箱碼頭操作系統為基礎向單機虛擬環境發送收發箱、裝卸船等指令,完全模擬現場作業流程進行作業。該項測試通過后,編寫數據插入程序,模擬現場39臺軌道吊的作業數據,24 h不間斷插入數據庫,進行數據壓力測試,實時監測數據同步性能,驗證熱備功能的持續性、穩定性、可靠性。
經過測試的雙機熱備功能已上線運行,主從數據庫數據達到秒級同步,現場數據庫服務器進入高可用狀態。本次功能的實現極大地提高了現場作業的穩定性、可靠性,即使在主服務器宕機的情況下,也能在極短的時間內進行主備機切換,恢復現場作業。
數據庫雙機熱備技術是保障碼頭ECS系統穩定運行、生產作業正常運轉的必要措施,現場如出現主運行服務器宕機等事故,嚴格按照恢復手冊操作,能夠在極短時間內恢復現場作業,極大地提高了系統穩定性、可靠性及安全系數,避免了單點故障對現場作業產生的影響。