文/張乃帥 杜曉峰
高校教學科研的發展離不開圖書館的支撐。在信息技術高度發展的今天,圖書館已經不再是一個簡單借還書的地方,更是一個基于信息技術的資源中心。從入館身份識別到圖書的借還流通、再到數字文獻資源的發現獲取,無不依賴信息技術。圖書館數據中心作為承載信息的基礎設施,支撐圖書館正常運行、穩定運行已成為必然要求。然而,在特定條件下如數據中心擴建、樓宇修繕等,數據中心不得不遷移至其他空間。如何確保數據中心遷移期間圖書館各項業務和文獻服務正常開展,是數據中心運行維護人員不得不面對和解決的問題。本文以北京大學圖書館東樓修繕期間數據中心的遷移實踐為例進行分析,鑒于數據中心遷移的復雜性和操作難度,其經驗分享彌足珍貴。
北京大學圖書館(以下簡稱北大圖書館)東館建成20余年,館內基礎設施、館舍布局已無法滿足當前讀者服務的需求。為此,北大圖書館于2017年正式啟動東館大修。位于圖書館東館的數據中心(以下稱為舊數據中心)必須在正式啟動前遷移至西館過渡數據中心。
為確保數據中心遷移順利進行,盡量降低對圖書館正常服務的影響,北京大學圖書館從2016年開始著手準備數據中心遷移的前期工作,討論制定了遷移三步走戰略。首先梳理了當前數據中心的現狀,并基于梳理結果制定遷移方案及準備過渡數據中心環境,一切就緒后實施數據中心遷移,確保服務不間斷。
數據中心不僅僅是服務器合集,還包括一整套復雜的設施。根據各類設施的作用不同,可將其分為以下四類。
環境控制設備用于滿足數據中心對溫濕度、電力、監控設施等的需求。包括機房精密空調、不間斷電源(UPS,Uninterruptible Power System)、溫濕度報警設備、自動滅火設施等。北大圖書館已有的2臺UPS、3組機房精密空調中,有1臺UPS、2組空調已在線運行超過10年,穩定性已大幅降低,特別是機房精密空調,夏季高溫時頻發停機故障。這部分設備已不適合繼續用于數據中心。
網絡設備用于提供數據中心網絡接入和網絡安全防護,包括各級網絡交換機、光纖交換機及防火墻。其中核心交換機用于將圖書館網絡接入校園網,如果直接停機遷移,將會中斷圖書館內所有網絡服務。
服務器提供所有網絡服務所需的計算資源,既包括運行圖書館自動化管理系統的小型機,也包括獨立提供服務的物理服務器以及虛擬化服務器。北大圖書館共有各類物理服務器100余臺,虛擬服務器160余臺。
存儲系統提供數據集中存儲與管理功能。北大圖書館使用的存儲系統共3套,其中2套已在線運行接近或超過10年,在性能、穩定性及容量上均已無法滿足館內數據日益增長的需求。
為確保遷移有序平穩且對外服務穩定,首先需確保過渡數據中心與舊數據中心并行運行,同時滿足數據中心環境需求及網絡需求。本著“綠色發展”的理念,過渡數據中心還應充分復用已有環境控制設備和存儲設備。結合已有設備的使用壽命,北大圖書館制定了環境遷移、網絡遷移、存儲系統與服務器遷移的順序遷移方案。
購置2套精密空調及1套UPS,先行部署于過渡數據中心,用于滿足基本的溫濕度及電力需求,也用于替換老化的舊設備。大部分設備遷移至過渡數據中心后,再將可繼續使用的精密空調和UPS遷移至過渡數據中心,并機運行。尚未遷移的數據中心設備暫時由待淘汰的精密空調和UPS保障,直至遷移全部完成。
“兵馬未動,糧草先行”。對數據中心及圖書館而言,網絡的重要性堪比“糧草”。新購一臺交換機部署于過渡數據中心,升級為核心交換機,原核心交換機降級為匯聚交換機,完成網絡平滑遷移。
服務器和存儲系統密不可分,共同構成了數據中心對外服務的主體。新購高性能和大容量存儲系統各一套,部署于過渡數據中心,用于替換2套超期服役的舊存儲系統,滿足未來對存儲系統的性能和容量要求。整理所有服務器連接存儲系統的鏈路方式,分類遷移:
獨立運行、不連接存儲系統的服務器夜間在逐臺遷移;虛擬化服務器工作時間在線遷移;其他服務器與存儲系統周末集中打包遷移。確保將中斷服務的時間降到最小。
環境遷移過程中,精密空調和UPS的遷移時間點都可通過計算得出。隨著遷移工作的不斷進行,根據剩余設備的耗電量計算所需的制冷量,再根據待淘汰精密空調的功率計算出其能提供的制冷量,簡單對比即可確定遷移時機。通過對比兩路UPS的總負載與待淘汰UPS的輸出功率,即可確定UPS遷移時機。由于數據中心內所有設備都使用冗余電源,分別使用兩路UPS供電,遷移前還需將所有電源接入到待淘汰UPS。
過渡數據中心內的新購交換機配置相應路由策略,上聯至校園網核心交換機節點,作為獨立的核心交換機運行。連接過渡數據中心核心交換機與舊數據中心核心交換機但保持端口關閉狀態。在線關閉舊數據中心核心交換機原有上聯鏈路,打開新舊數據中心互聯鏈路。舊數據中心核心交換機作為過渡數據中心核心交換機的下聯交換機(也就是邏輯上的匯聚交換機)繼續提供網絡接入功能,完成網絡的在線遷移。整個過程僅有短暫的鏈路調整和路由調整時的網絡中斷,基本不影響數據中心對外提供的各類服務的網絡訪問。
根據遷移方案,分類別遷移不同類別的服務器及存儲系統。
虛擬化服務器遷移
虛擬化平臺的VMotion功能非常適合用于數據遷移。過渡數據中心部署虛擬化計算節點服務器并加入已有集群,通過光纖直連新存儲系統。舊數據中心虛擬化節點通過iSCSI協議連接新存儲系統,實現數據存儲共享。利用Storage VMotion功能將所有虛擬機遷移至新存儲系統,再利用VMotion功能將計算資源遷移至過渡數據中心計算節點,即可完成所有虛擬服務器的平滑在線遷移。整個遷移過程用戶無感知,服務無中斷。
獨立服務器遷移
獨立運行、不連接存儲系統的服務器利用夜間逐臺遷移,遷移一臺上線一臺,盡量減少停機時間。從舊數據中心關機下架,遷移至過渡數據中心上架開機,全程控制在10分鐘以內,盡最大努力減小停機時間,降低對讀者服務的影響。
存儲服務器遷移
存儲系統及使用存儲系統的服務器作為有機整體,分開遷移的意義不大,利用周末時間整體停機遷移。備份所有服務器及數據,用以應對關機遷移后可能出現的硬件故障。關閉所有服務器并進行下架遷移,同步進行關閉存儲系統及遷移過程。存儲系統遷移至過渡數據中心后,開機進行軟硬件檢查,確保一切正常后,根據各服務器的優先順序逐臺開機恢復服務。
得益于前期周密的規劃及遷移過程謹慎、細致、密切的配合,整個數據中心遷移過程進展順利、成果顯著。所有設備順利遷移至過渡數據中心,同時完成了新舊設備更替,既保證了東館大修工程的按期推進,又為未來幾年圖書館對數據中心的設備需求奠定了基礎,還為不遠的將來,數據中心遷回東館提供了豐富的經驗儲備。
數據中心順利遷移的背后,也暴露出了一些問題,這些問題不僅影響到了遷移的進度及遷移時的讀者服務,也為后續提供穩定的讀者服務帶來了一定的隱患。

圖1 網狀網絡拓撲
當前的網絡拓撲存在單點故障,一旦圖書館數據中心核心交換機故障或者核心交換機到校園網的鏈路故障,都將導致圖書館網絡中斷,影響圖書館的各類網絡服務。東館改造完成后,新建數據中心應著重提高網絡拓撲的健壯性,構建雙核心、雙上聯的網狀網絡拓撲(如圖1所示)。從結構上避免單點故障,確保網絡滿足未來服務的需求。
在數據中心遷移過程中,虛擬化技術優勢表現得非常明顯,遷移過程服務無中斷、用戶無感知。服務器獨立運行提供服務的傳統使用模式則不得不面臨停機停服務的局面。經過近幾年的不斷努力,北大圖書館已將半數服務器遷移至虛擬化環境,但仍有大量網絡服務運行于獨立的服務器上。這也為不遠的將來,東館數據中心啟用及數據中心遷移帶來挑戰。
北大圖書館通過將數據中心遷移至西館過渡數據中心,不但保障了東館大修期間圖書館各項網絡服務的穩定,也發現了已有數據中心存在的問題、明確了未來的建設方向。北大圖書館將繼續完善數據中心基礎設施建設、調整數據中心架構,不斷提高信息服務保障能力,為北京大學創建世界一流大學提供更加有力的文獻資源保障。