王增波
WANG Zeng-bo
(寧波鋼鐵有限公司,寧波 315807)
多年來國內冶金行業控制系統一直采用服務器冷切換方式、熱切換方式或集群方式作為數據庫、I/O服務器的控制方式。傳統采用的是雙機熱備方案,該方法不僅不能節省投資成本,而且系統的可靠性得不到保證。
隨著經濟的迅速發展和計算機、網絡等技術的不斷進步,冶金企業在加快建設步伐的同時,也面臨著控制系統的要求越來越高這樣一個局面。因此,建立高精度、高可靠性的冶金控制系統,已經是當務之急。
隨著運行時間的增加,整個監控系統的安全性越來越受重視。各種升級后的計算機設備、路由設備、交換設備、操作系統、數據庫系統等都會有不同程度的故障風險,再加上使用環境、資源共享、數據通信、計算機病毒以及網絡管理等方面的不安全因素,使得控制系統數據的安全性和有效性變得更加重要。以往,為提高控制系統數據信息的可靠性,通常在控制系統中采用雙機熱備方案。盡管采用該方案對系統的可靠性有所提高,但卻增加了系統整體的軟硬件投資費用,同時增加了系統的管理和維護工作,更重要的是,系統的可靠性并不一定能得到足夠的保障。
因此,尋找并采用一種具備高可用性、低成本、易維護的服務器應用方案,是眾多冶金企業一直在研究的課題。筆者根據多年的冶金行業服務器應用經驗,結合目前國內外在高可用性服務器領域的成熟技術方案和有效應用成果,發現使用可用性高于99.999%以上的Stratus容錯服務器代替傳統的雙機熱備方案是一種有效的途徑。
寧波鋼鐵五豐塘焦化廠為了能更好的提供控制系統核心服務器的連續可用性,采用了世界上最先進的容錯服務器作為控制系統核心服務器。這種方案不但可避免雙機熱備方案中單硬件系統故障所造成的系統停機以及系統切換帶來的的經濟損失,同時還可減少焦化控制系統的后續維護量及維護費用。由于容錯服務器采用了硬件冗余設計,整個硬件系統從主板、CPU、內存到I/O模塊都采用雙份冗余模式,并且基于先進的鎖步(LockStep)技術,各冗余模塊在同一時鐘周期執行相同的指令,使得整個系統能夠消除單點故障、無故障切換時間,連續可用性高于99.999%。

圖1 容錯系統原理圖
容錯服務器(如圖1所示)與傳統服務器(如圖2所示)在物理結構上最重要的區別有兩點:1)容錯服務器采用了雙份冗余容錯硬件,包括CPU、內存、主板、硬盤、I/O系統等等;2)容錯服務器在物理構成上將CPU-內存單元與I/O單元分離,中間增加了容錯公司定制的故障偵測與隔離邏輯芯片組進行PCI橋接,該芯片組是容錯服務器實現時鐘同步操作、容錯、糾錯等功能的基礎。

圖2 傳統計算機系統原理圖
Stratus容錯的核心技術——連續處理技術是三十年來為全球最苛刻的應用確保連續運行時間之經驗的結晶。連續處理技術主要由三個核心要素構成,分別是:時鐘同步技術、故障安全軟件和主動服務體系。
鎖步技術(Lockstep Technology),也稱時鐘同步技術,采用雙份的容錯硬件,由同一時鐘源進行控制,兩套硬件在同一時刻執行相同的指令。在一個部件出現故障的情況下,其冗余部件就像已激活了的備件一樣繼續正常的操作,預防了停機現象。鎖步技術使系統還能消除可引起軟件故障的瞬間硬件錯誤。
Stratus故障安全軟件(Failsafe Software)與鎖步技術協同工作,能夠預防許多會升級到停機的軟件故障。與通常的服務器或集群系統不同,ftServer的硬件和軟件以透明的方式處理這類錯誤,而對操作系統、中間件、應用軟件進行屏蔽,同時駐留內存數據也得到很好的保護及維護。
此外,其管理和診斷特性還對其他軟件問題進行跟蹤、分析,以及向Stratus通報這些軟件問題,使支持人員在軟件問題發生之前超前糾正問題。強化的設備驅動程序也顯著增加了ftServer系統內Windows環境的穩定性。
Stratus獨到的主動服務體系(ActiveService)能提供冠絕群倫的服務能力。Stratus ftServer系統能夠持續監視自身的操作,發現故障后,服務器會即時隔離故障,并且自動呼叫Stratus支持中心,準確告知其應采取何種解決措施。

圖3 焦化廠分布式控制系統結構圖
ftServer通過訪問適配器及Stratus全球主動服務網絡(ActiveServiceNetwork)為客戶提供遠程支持服務,服務工程師據此實現在線故障診斷、排障,在線解決率達95%以上。必要時,系統還能自動訂購其熱插拔替換部件,確保相應的部件能在24小時內運到全球主要地點客戶手中??蛻舾梢栽趂tServer無中斷的情況下,輕易安裝需更換的備件。同時,Stratus和客戶授權的經銷商還可透過互聯網的主動服務管理器(ActiveService Manager)互相協作,快速解決問題。
寧波鋼鐵五豐塘焦化廠為了能更好的提高控制系統的連續可用性,采用了世界上最先進的容錯服務器作為控制系統核心服務器及HMI服務器。五豐塘焦化廠是一個新建項目,有JN60-6型焦爐兩座,以及與之配套的管帶機、圓形料場、備煤、焦爐除塵、干熄焦、篩貯焦、煤氣回收、污水處理等生產系統,各生產車間工段均設置相應的PLC控制系統,并設置了中控室,各個控制系統均通過網絡將生產實時數據引入中控室,以實現生產的集中監控、集中管理和統一調度功能。系統通訊采用C/S模式,在中控室設置了備煤、焦爐、煤氣凈化、篩焦等生產系統的Data Server和HMI Server;另外還設置了超級服務器,采集和存儲全廠生產實時數據,并用于對過程機和EMS能源中心進行生產管控和能源計量數據的實時發布和上傳。其中煤氣凈化系統為化工性質、連續生產,對服務器提出了高可靠性、連續可用性要求;超級服務器作為全廠生產管控系統的核心,其重要性更是不言而喻。焦化廠控制系統結構圖如圖3所示。
按照傳統,為提高控制系統的可靠性,通常采用雙機熱備方案,由兩臺獨立服務器構成,再通過集群軟件完成故障切換。但是,這種方案的可靠性是建立在集群軟件的基礎上。隨著數據庫越來越大,應用越來越復雜,一旦系統中某一環節出現故障,其切換時間需要幾分鐘到幾十分鐘,同時,切換時間內的動態實時數據將隨之丟失。更重要的是,切換工作并不一定每次都能成功。
相比之下,Stratus容錯服務器所采用的冗余硬件同步技術(Lockstep),能保持多CPU/內存單元在精確的同步狀態——同一時鐘周期執行相同的指令,即能夠確保包括瞬時錯誤在內的任何故障都不會影響到系統運行,系統可以在任何CPU/內存單元,或I/O單元發生錯誤的情況下不丟失動態數據,也不需產生中斷進行錯誤處理,避免了雙機熱備方案所產生的故障切換和恢復時間,以及該過程中數據的丟失。
在焦化廠控制系統中采用容錯服務器,能確保系統在可用性、維護性、總體成本三方面具備無與倫比的優勢。
寧波鋼鐵五豐塘焦化廠控制系統煤氣凈化服務器和超級服務器采納了容錯技術方案,根據系統規模及數據庫的大小,考慮到系統的可用性,煤氣凈化服務器采用了Stratus ftServer 2510配置,超級服務器采用了Stratus ftServer 4410配置。自2009年11月份投產以來,容錯服務器一直運行穩定可靠,管理維護簡單方便,為確保生產的安全穩定順行發揮了至關重要的作用。
通過分析Stratus容錯服務器的設計思想、關鍵技術以及與雙機熱備方案的比較,我們可以看出,在焦化控制系統中,采用高可靠性的容錯服務器,不僅能滿足系統7×24小時連續運行的需要,還能為用戶節省總投資成本,減少后期維護工作及維護費用。
[1] STRATUS《容錯服務器白皮書》.