黃青逢
(廣西廣播電視技術中心,廣西 南寧 530000)
在信息化時代,民眾對廣播電視提出更高的要求。無線發射臺站作為信息傳播的關鍵環節,傳統的數據處理方式已經難以滿足其快速發展的需求。大數據中心的建設能夠實現對海量數據的高效處理、存儲和分析,從而為節目傳輸、播出及監測等環節提供有力支持。因此,建設適用于廣播電視無線發射臺站的大數據中心至關重要。通過高效處理、存儲和分析海量數據,能夠深入挖掘潛在有用信息和廣播電視行業發展趨勢,為決策提供科學依據。
大數據是指規模龐大、類型多樣、處理速度快的數據集合[1]。這些數據集合通常難以由傳統數據庫工具捕捉、存儲、管理和處理,是需要新處理模式才具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。業界通常用5 個V——Volume(大量)、Variety(多樣)、Value(價值)、Velocity(高速)和Veracity(真實性)來概括大數據的特征[2],即數據體量巨大、數據類型繁多、價值密度低、處理速度快、真實性和準確性。
廣播電視行業包含的設備監控數據、結構化數據、文本、音頻、視頻、碼流、設備告警信息及監控視頻等各類數據符合大數據的特征。因此,有必要建設一個數據中心,數據中心的系統結構應包含數據源、數據采集、數據存儲、數據處理和分析以及數據展示,系統結構如圖1 所示。

圖1 數據中心系統結構
數據采集應全面、準確收集節目傳輸、播出、監測和設備運行狀態等各個環節的數據。數據中心可以利用各種傳感器、智能設備和網絡爬蟲等技術手段進行數據采集。首先根據臺站的業務和數據處理需求,確定需要采集的數據范圍和目標。目前,數據中心要處理的數據主要包括臺站的基礎信息、設備信息、播出信息、監控信息及監測信息等,除臺站相關數據外,還包括人員、機構、文件、網絡及信息系統等等。這些數據可以采集自遠程監控平臺、臺站數據管理系統、監測系統、辦公自動化(Office Automation,OA)軟件、人力資源管理系統、通信設備、網絡及文件系統等[3]。其次,根據數據類型和采集需求,選擇適合的數據采集方法和技術。通常可以使用爬蟲程序采集應用程序編程接口(Application Programming Interface,API)、Web頁面數據,使用數據采集卡、傳感器、Kafka 等采集設備實時數據,使用數據集采集關系型數據里的數據。
為支持大規模數據存儲和處理,實現數據的分布式存儲和高效訪問,可采用Hadoop 架構,部署分布式文件系統(Hadoop Distributed File System,HDFS),并使用高性能、可擴展的存儲設備和存儲區域網絡(Storage Area Network,SAN)。
數據處理和分析需要對采集后的數據進行格式化和規范化處理,從海量數據中提取出對決策有潛在價值的數據、關系、模式和趨勢,并在此基礎上建立決策支持模型。可以使用MapReduce 進行數據的清洗、轉換和加載,使用Microsoft Excel 軟件進行簡單的篩選、排序、計算等操作,使用Python 進行缺失異常值處理、重復值刪除、數據變換等操作[4],使用潤乾報表的集算器進行多源結構化查詢語言(Structured Query Language,SQL)查詢。數據經過以上復雜的處理后,才能更加準確、可靠地供給業務分析和應用系統調用。
處理后的數據存儲在分布式存儲系統中,實現數據的統一管理和訪問。可以采用MySQL、MongoDB、Redis 等數據庫構建靈活、高效的數據存儲和管理架構,實現大量分布式數據的快速處理、讀寫訪問。
采用數據挖掘、機器學習等數據分析工具和方法對數據進行深入分析。通過數據分析發現數據的內在規律和趨勢,為決策提供支持。數據分析主要關注影響安全播出的主要因素、事故類型,關注臺站規劃建設的合理性、關注無線廣播電視相關業務的發展趨勢以及關注隱含的、潛在的、未知的安全隱患等。
數據展示方面,可以使用潤乾報表工具實現數據可視化。該工具支持切片、切塊、鉆取、上卷及旋轉等多維分析常見操作,支持復雜報表,集成ECharts 大屏,百萬數據秒級展現。展現內容包括節目播出時間、機器維護時間、各級臺站節目停播率統計,各類設備故障統計和分析、臺站斷聯統計分析、播出情況統計分析、歷年數據對比、監控系統設備通信情況、實時告警查詢、工單統計、無音頻告警分析以及實時故障統計分析等。這些數據分析的可視化展現,為決策制定、業務優化和創新提供更準確、更全面的數據支持。
基礎設施建設是實現數據中心的前提條件,需要綜合考慮硬件、軟件、網絡及安全等多個方面,確保高性能、高可用性和安全性。可以選擇適用于大數據處理的高性能服務器,部署HDFS 分布式文件系統,采用高帶寬、低延遲的網絡設備,并進行合理的配置。合理規劃數據中心的基礎架構,包括計算、存儲和網絡的布局和配置,實現計算、存儲和網絡的有機整合和高效協作,提高整體性能。加強數據中心的安全建設,包括物理安全、網絡安全和數據安全等方面。建立完善的安全防護體系,采取SD-WAN網關安全組件、日志審計系統和身份認證、數據加密等技術,防止未經授權的訪問和攻擊,確保數據在傳輸和存儲過程中的安全性。設計并實施完善的災備和容災計劃,采用定期全量備份結合增量備份和異地備份,確保數據的安全性和可恢復性。
建立完善的數據治理和標準化體系,可以更好地管理和利用數據,提高數據質量、可靠性和一致性[5],確保大數據中心的高效運行,具體包括以下內容。一是制定明確的數據管理制度和規范,包括數據的目錄、分類、編碼、存儲及備份等方面;二是制定統一的數據標準體系,包括數據命名、格式、數據交換及處理流程標準等,提高數據的可讀性和可用性,降低數據處理和分析的難度,提高工作效率;三是制定數據的訪問和授權管理制度,通過訪問控制和身份認證,規定數據處理和分析的職責和權限范圍,防止數據濫用和泄露風險,確保數據使用的合規性和安全性。
監控和管理系統是大數據中心運維中的重要組成部分,可實時監測、分析和管理計算機系統、網絡、應用程序和服務,確保系統的穩定性、性能和安全性。可以部署態勢感知系統,對整個系統的關鍵信息進行實時監測、分析和理解,包括網絡流量、服務器性能及應用程序運行狀態等,幫助及時發現異常和潛在問題,并實時告警。
運維管理方面,應建立健全的運維管理體系,制定完善的管理制度和工作流程,規范操作流程,監控運維過程,及時發現并解決問題,確保大數據中心的穩定運行。可以采用自動化工具進行運維管理,配置管理監控預警等功能,降低人為錯誤提高運維質量,提高運維質量和效率。同時,要定期進行性能分析和優化,評估現有資源配置情況,調整資源分配方案,優化系統性能。另外,需密切關注大數據技術發展趨勢和行業最佳實踐,及時進行升級改造,擴展其功能,適應業務發展需求。
人才隊伍建設是實現大數據中心的重要保障。盡管數據挖掘大都依靠自動化工具,但人的參與和干預仍然必不可少,必須建設一支高效、專業、具備創新能力的大數據人才隊伍。一是加強對職工的培訓和教育,提供專業的大數據技術培訓,包括數據分析、機器學習、人工智能等領域的知識和技能,確保團隊成員具備應對復雜數據環境的能力;二是建立完善的人才激勵機制,包括薪酬、晉升機會等,鼓勵員工積極創新和實踐;三是積極引進外部優秀人才,充實人才隊伍實力,提升整體競爭力;四是鼓勵職工自我學習和提升,提供必要的學習資源和支持,創造良好的學習氛圍,激發員工的學習熱情和創新精神。
本文對廣播電視無線發射臺站大數據中心的建設進行了初步探討。通過合理設計數據采集、存儲、處理、分析和可視化展現等環節,以及加強基礎設施建設、數據治理、監控和管理、運維管理和優化、人才隊伍建設等措施,以提高臺站的數據處理能力、優化資源配置、提升運營效率和質量、為決策提供支持為目標,為建設廣播電視領域大數據中心提供具體思路。