白海亮?馮梅
摘 要 重慶廣播電視集團(以下簡稱“重慶廣電”)融媒體系統是重慶廣電積極響應國家號召,依托“兩江云”平臺搭建的融合媒體系統。該系統旨在構建全方位、全覆蓋的全媒體體系,實現傳統電視節目與新媒體業務的流程一體化。本文主要通過高可用機制、備份機制及監控告警機制來分析如何實現該系統的技術保障。
關鍵詞 廣電;融媒體;高可用
重慶廣電融媒體系統技術保障方案是融媒體綜合業務平臺各業務系統遇到緊急情況或運行中斷后為恢復相關服務所采取的快速有效的應對手段。通過建立包含應急啟動、執行、恢復等流程、步驟和技術操作方案,為系統相關部門、人員處理應急情況提供指導,保障平臺業務系統的安全、平穩運行。
針對融媒體系統成立專門的技術保障工作協調小組(以下簡稱“保障小組”)負責技術保障工作,決定融媒體系統技術保障工作的重大事項,組織實施、業務協調和發布融媒體系統應急指令,發布系統決策處理方案[1]。
該方案適用范圍是融媒體系統有關的所有組織體系和人員,適用于融媒體綜合業務平臺運行所需的功能,操作和資源。該方案適用于融媒體系統應對突發事件所導致業務中斷,需要采取應急處置和恢復措施予以操作的事件。
1高可用機制
在做系統架構設計時,對基礎共用類服務和核心應用類服務都采用負載均衡,主備,集群等高可用架構,最大限度提高系統的可用性。并且考慮到了高負載及服務器宕機等多種情形,保證了整體系統對外服務的穩定性。
1.1 基礎服務的高可用
MySQL數據庫采用主備架構,并實現讀寫分離,既保證了數據的災備又保證了數據使用的高效;MongoDB數據庫采用副本集+分片的模式設計,以3臺服務器進行配置,多臺服務器并存,數據儲存實行切片制,可以為密集讀寫提供保障;RabbitMQ消息隊列采用鏡像模式,含有內存高效調度與磁盤同步寫入。
1.2 應用服務的高可用
融媒體系統統一認證服務CAS、云平臺外網訪問代理和工具類、資源類API等均采用LVS+Keepalived服務器負載均衡;轉碼,截圖、快編等服務均采用集群式設計,提高處理能力及自身服務的穩定性。
2備份機制
系統數據備份是所有系統中最重要的技術保障機制,融媒體系統必須保障各項業務數據的安全性,防止突發意外事件導致的安全問題,制定了統一的系統和數據備份標準與規范,采取數據備份技術,保證業務數據和系統軟件的安全性。
2.1 應用軟件包備份
在融媒體系統的備份服務器上針對各包分配相應的備份存儲空間,統一管理線上應用系統軟件包。按照“軟件名稱_版本號_年月日”進行備份。
項目更新前期備份:按“公司名_.bak”的格式備份,備份目前軟件包,如果同一個軟件包當天更新多個版本,之前的版本可依次按“公司名_軟件名稱_版本號_年月日.bak1”,“軟件名稱_版本號_年月日.bak2”等備份,備份位置為項目上級backup目錄。
項目更新過程:項目服務自動切換到備用系統,在不影響系統整體對外服務前提下,將更新包更新到主服務系統,完成關鍵性測試后,將項目服務切換到主服務系統,再對備用系統進行更新升級。
2.2 操作記錄備份
項目相關系統配置、更新的操作完成后計入《操作記錄》,相關人員事后將《操作記錄》備案,抄送所有涉及部門;關于服務器增減,架構變化的操作,出具《架構更新方案》經過領導層郵件審批后方可進行,完成后郵件通知涉及部門并計入《服務器整改記錄》[2]。
2.3 數據庫備份
對于MySQL,MongoDB等數據庫實行腳本定時備份,備份數據存放于私有云的備份服務器上。并以“公司名_數據庫名_應用名”規則進行數據備份。
2.4 存儲安全備份
融媒體系統虛擬化存儲采用主備雙活機制,在主存儲故障時備存儲會自動接管,保障整個系統虛擬化的正常運行,保障融媒體業務的安全;融媒體系統業務存儲采用分布式存儲,采用N+2模式在有兩個節點故障時依然能夠保障業務數據的安全。
2.5 系統備份
融媒體系統有快照功能,如果系統層面出現故障導致無法恢復性錯誤,可以用快照等方式恢復系統到最佳狀態;系統鏡像在融媒體系統各區域交叉備份,每次程序有更新時對該系統生成一次系統鏡像備份,并將系統鏡像拷貝一份到分布式存儲。防止單區故障引起的配置及數據丟失,最大限度保障系統穩定性及高效性。
2.6 媒體文件安全管理
融媒體系統中每個應用都分配獨立的存儲標識,存儲空間互不干擾;采用限制訪問IP策略及用戶名密碼訪問權限等保障文件訪問的安全;采用統一的文件管理系統,設有回收站等安全刪除策略。在誤刪時可以從回收站中進行還原。
3監控告警機制
融媒體系統有統一的云管理平臺,使用企業級監控系統zabbix對網絡服務器CPU,內存,磁盤讀寫,網絡流量,數據庫狀態,特定進程,以及核心業務進行全面實時監控。并設置告警閾值,當運營指標超過告警閾值時,監控系統將自動發送報警信息給運維和管理人員,以便快速響應突發情況。
通過監控告警等渠道獲悉服務器或服務將受到或已經受到影響時,保障小組可以在第一時間予以響應,并采取有效措施,以避免整體服務受到影響,盡最大限度保障對外服務的高效運行及穩定,在處理故障的同時嚴格按照故障流程進行處理。
故障排除后,保障小組需向系統使用人員發出系統運行正常通知,并且對系統發生故障的原因、影響及處理結果進行全面的經驗總結,出具詳細文檔備案記錄。
參考文獻
[1] 付麗群,何金寶.網絡中心核心機房數據備份的設計與實現[J].華人時刊(下旬刊),2015,(4):90.
[2] 張鈺.廣播電臺音頻節目制播系統存儲架構設計[J]. 廣播與電視技術,2016,(9):76-81.