(廣西廣播電視技術(shù)中心)
廣西廣播電視技術(shù)中心(下簡稱“技術(shù)中心”)是管理廣西全區(qū)廣播電視無線發(fā)射臺站及其信號無線發(fā)射業(yè)務(wù)的單位。長期以來,技術(shù)中心的數(shù)據(jù)大都分別掌握在各業(yè)務(wù)部門手中,造成了數(shù)據(jù)的分散化、碎片化、不統(tǒng)一、不聚合、不準(zhǔn)確、不及時(shí)等結(jié)果,形成多個(gè)信息孤島。從單個(gè)臺站的角度來看,數(shù)據(jù)包括臺站的基礎(chǔ)信息、設(shè)備信息、播出信息、監(jiān)控信息、監(jiān)測信息等等,僅設(shè)備監(jiān)控告警量即可高達(dá)每月30萬條;隨著臺站數(shù)量、設(shè)備數(shù)量銳增,相應(yīng)的數(shù)據(jù)量也將急劇上升。從整個(gè)單位的全局角度來看,數(shù)據(jù)還包括人員、機(jī)構(gòu)、文件、網(wǎng)絡(luò)、信息系統(tǒng)等等。目前技術(shù)中心管理的發(fā)射臺站八百多個(gè)且數(shù)量仍不斷增加,面臨需要管理和使用的數(shù)據(jù)量極大。
若無維護(hù)數(shù)據(jù)和使用數(shù)據(jù)的工作機(jī)制,就難以讓數(shù)據(jù)為決策分析提供數(shù)據(jù)支持,難以為數(shù)據(jù)挖掘、關(guān)聯(lián)預(yù)測提供大數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)也是一種資源,讓海量數(shù)據(jù)沉睡,不統(tǒng)一、不維護(hù)、不利用,將形成浪費(fèi)。因此,有必要建設(shè)一個(gè)數(shù)據(jù)中心,使其成為各類信息的集散地,使數(shù)據(jù)信息的管理更加集中,取用更加便捷。
無線發(fā)射臺站數(shù)據(jù)中心是以集中管理各類數(shù)據(jù)為目的,以各個(gè)獨(dú)立的信息系統(tǒng)為數(shù)據(jù)源基礎(chǔ),以大數(shù)據(jù)技術(shù)為數(shù)據(jù)管理手段,以統(tǒng)一認(rèn)證體系為協(xié)同開放平臺的信息管理系統(tǒng)。本數(shù)據(jù)中心可打通各個(gè)信息孤島,使各個(gè)信息系統(tǒng)互聯(lián)互通,減少數(shù)據(jù)維護(hù)量,增強(qiáng)數(shù)據(jù)實(shí)時(shí)性和準(zhǔn)確性,增加數(shù)據(jù)使用量。本數(shù)據(jù)中心不改變原有的各個(gè)系統(tǒng),各系統(tǒng)仍然分別獨(dú)立,但是又可互通消息,保持?jǐn)?shù)據(jù)實(shí)時(shí)性和一致性。

圖1 數(shù)據(jù)中心整體設(shè)計(jì)圖
圖1是本數(shù)據(jù)中心的整體設(shè)計(jì)框架。數(shù)據(jù)中心是各個(gè)信息系統(tǒng)的樞紐,是各系統(tǒng)數(shù)據(jù)的集中地,是數(shù)據(jù)挖掘的數(shù)據(jù)源泉,是各應(yīng)用系統(tǒng)的入口,是擴(kuò)展應(yīng)用的基礎(chǔ)。因此,項(xiàng)目首先需要搭建大數(shù)據(jù)系統(tǒng),實(shí)現(xiàn)對數(shù)據(jù)源的管理,對數(shù)據(jù)的采集,對數(shù)據(jù)的存儲以及后期對數(shù)據(jù)的處理、分析、挖掘和展示等;其次需要建立協(xié)同開放平臺,實(shí)現(xiàn)本數(shù)據(jù)中心的統(tǒng)一入口,身份認(rèn)證,數(shù)據(jù)交互,行為審計(jì)等;再次,本數(shù)據(jù)中心還應(yīng)建設(shè)一些上層應(yīng)用,包括報(bào)表生成與呈現(xiàn)、消息推送、統(tǒng)一代辦、即時(shí)通訊等功能。

圖2 數(shù)據(jù)中心系統(tǒng)框架圖
圖2為本數(shù)據(jù)中心的系統(tǒng)框架圖,將數(shù)據(jù)中心分為大數(shù)據(jù)系統(tǒng)、協(xié)同開放平臺以及上層應(yīng)用三大部分。
1.大數(shù)據(jù)系統(tǒng)
雖然對于“大數(shù)據(jù)”至今沒有統(tǒng)一的定義,但是大數(shù)據(jù)具有5個(gè)公認(rèn)特征,即5個(gè)V[1]:體量大(volume)、速度快(velocity)、模態(tài)多(variety)、難辨識(veracity)和價(jià)值大密度低(value)。由引言所述,技術(shù)中心及其所涉業(yè)務(wù)的數(shù)據(jù)是海量、實(shí)時(shí)(如設(shè)備監(jiān)控?cái)?shù)據(jù))、多樣(數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)和文本、音視頻,甚至碼流等)、不確定(如設(shè)備告警信息)、價(jià)值大密度低(如監(jiān)控視頻等),符合大數(shù)據(jù)的特點(diǎn)。大數(shù)據(jù)的主要難點(diǎn)并不在于數(shù)據(jù)量大,而在于數(shù)據(jù)類型多樣、要求及時(shí)響應(yīng)和數(shù)據(jù)的不確定性[2]。
決策層主要關(guān)注影響停播率的主要因素、關(guān)注臺站選址的合理性、關(guān)注某項(xiàng)業(yè)務(wù)的發(fā)展趨勢、關(guān)注可能存在的安全隱患等等。建立大數(shù)據(jù)系統(tǒng),從大量數(shù)據(jù)(包括文本、音視頻等)中挖掘出隱含的、未知的、對決策有潛在價(jià)值的關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,最終提供預(yù)測性決策支持[3],具有重大價(jià)值和意義。在本文中,大數(shù)據(jù)系統(tǒng)是指可完成大數(shù)據(jù)采集、存儲、處理和展示的軟件集成系統(tǒng);大數(shù)據(jù)系統(tǒng)在本數(shù)據(jù)中心框架中起到采集數(shù)據(jù)、存儲數(shù)據(jù)和提供大數(shù)據(jù)分析與挖掘的基礎(chǔ)作用。

圖3 大數(shù)據(jù)系統(tǒng)總體架構(gòu)圖
如圖3[4]可見,大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)源是多樣的,包括Web日志、文件、關(guān)系型數(shù)據(jù)庫和其他。從技術(shù)中心的數(shù)據(jù)來源看,數(shù)據(jù)源分為三類:公共數(shù)據(jù),對應(yīng)各應(yīng)用系統(tǒng)公開頁面的數(shù)據(jù);應(yīng)用系統(tǒng)的埋點(diǎn)數(shù)據(jù),對應(yīng)臺站遠(yuǎn)程監(jiān)控系統(tǒng)采集回來的設(shè)備實(shí)時(shí)數(shù)據(jù);結(jié)構(gòu)化數(shù)據(jù),對應(yīng)已建成應(yīng)用系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫里的數(shù)據(jù)。針對這三類數(shù)據(jù),分別采用三種采集方式。使用爬蟲程序采集公共數(shù)據(jù),使用Kafka等工具采集埋點(diǎn)數(shù)據(jù),使用Sqoop或數(shù)據(jù)集采集結(jié)構(gòu)化數(shù)據(jù)。因?yàn)檫h(yuǎn)程監(jiān)控系統(tǒng)已經(jīng)完成設(shè)備監(jiān)控實(shí)時(shí)數(shù)據(jù)的采集和處理,在本文的數(shù)據(jù)中心將其視為公共數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)來處理,不再重復(fù)采集。數(shù)據(jù)采集回來存放在Hive數(shù)據(jù)倉庫中。
數(shù)據(jù)經(jīng)過清洗、建模、發(fā)布等復(fù)雜的處理后,形成滿足業(yè)務(wù)分析及決策的模型數(shù)據(jù)供業(yè)務(wù)分析及應(yīng)用系統(tǒng)調(diào)用。這部分工作需要使用專業(yè)工具來完成,如Hadoop的MapReduce、Hive、Python、Spark等。數(shù)據(jù)的清洗過程需要ETL(抽取、轉(zhuǎn)換、加載)工具[5]、文本結(jié)構(gòu)化工具[6]等。
數(shù)據(jù)層的工作完成后,數(shù)據(jù)挖掘的基礎(chǔ)基本成型。在此基礎(chǔ)上才能進(jìn)行數(shù)據(jù)挖掘和分析展示。數(shù)據(jù)挖掘雖然可以依靠自動化的挖掘工具,但是挖掘的過程也是“人治”的,需要依靠訓(xùn)練有素的專業(yè)人員使用挖掘工具來進(jìn)行數(shù)據(jù)預(yù)處理、建模、模型評價(jià)等工作。挖掘人員使用大數(shù)據(jù)系統(tǒng)提供的數(shù)據(jù)和挖掘工具,再使用計(jì)算機(jī)語言、報(bào)表工具等,進(jìn)行數(shù)據(jù)分析和展示。
2.協(xié)同開放平臺
協(xié)同開放平臺是以統(tǒng)一身份認(rèn)證體系為基礎(chǔ),具有完備、安全的服務(wù)端認(rèn)證中心,提供外部應(yīng)用系統(tǒng)接入接口,具備數(shù)據(jù)同步和交互的能力,并能在其上建立即時(shí)通訊、消息推送、統(tǒng)一代辦和報(bào)表流轉(zhuǎn)等多種功能的軟件。針對已有若干獨(dú)立應(yīng)用系統(tǒng)的現(xiàn)狀,應(yīng)建立協(xié)同開放平臺,用于打通各個(gè)信息孤島。

圖4 協(xié)同開放平臺總體架構(gòu)圖
如圖4所示,協(xié)同開放平臺以統(tǒng)一身份認(rèn)證體系為基礎(chǔ),建立起完備、安全的服務(wù)端認(rèn)證中心,用于來自不同應(yīng)用系統(tǒng)的用戶獲取統(tǒng)一身份,也用于不同應(yīng)用系統(tǒng)的業(yè)務(wù)獲取接入令牌。不同的應(yīng)用系統(tǒng)具有不同的用戶體系,若要實(shí)現(xiàn)單點(diǎn)登錄和一鍵通達(dá),就必須解決用戶身份的問題。由協(xié)同開放平臺建立起統(tǒng)一的用戶體系,與各個(gè)應(yīng)用系統(tǒng)的用戶體系構(gòu)建關(guān)聯(lián)關(guān)系,使用一套用戶,使異構(gòu)的用戶、機(jī)構(gòu)等信息統(tǒng)一和同步,即可通達(dá)各個(gè)獨(dú)立的外部應(yīng)用系統(tǒng)。使用統(tǒng)一的用戶體系,也能嚴(yán)格控制數(shù)據(jù)的查看和使用,審計(jì)用戶行為,保護(hù)數(shù)據(jù)隱私。
協(xié)同開放平臺的認(rèn)證中心同時(shí)也為接入平臺的各類應(yīng)用系統(tǒng)業(yè)務(wù)提供接入接口和認(rèn)證令牌。首先協(xié)同開放平臺為獨(dú)立的應(yīng)用系統(tǒng)提供開放接口,外部應(yīng)用系統(tǒng)使用這些接口來接入?yún)f(xié)同開放平臺,使應(yīng)用系統(tǒng)的用戶、數(shù)據(jù)、業(yè)務(wù)等資源有效聚合;當(dāng)應(yīng)用系統(tǒng)需要與平臺或其他接入系統(tǒng)通訊時(shí),先由應(yīng)用系統(tǒng)業(yè)務(wù)向認(rèn)證中心提出申請,再由認(rèn)證中心向其頒發(fā)通行令牌,系統(tǒng)業(yè)務(wù)執(zhí)令牌發(fā)生消息交互。因此,協(xié)同開放平臺是使本數(shù)據(jù)中心成為各應(yīng)用系統(tǒng)的統(tǒng)一入口、成為數(shù)據(jù)集中管理的中心和數(shù)據(jù)集散地的前提條件和必要條件。
在此基礎(chǔ)上,協(xié)同開放平臺擴(kuò)展建立上層應(yīng)用,使得本數(shù)據(jù)中心的功能更多樣、實(shí)用和便捷。如建立統(tǒng)一代辦,使得各應(yīng)用系統(tǒng)的代辦工作都在平臺上顯示,并可直接跳轉(zhuǎn)至代辦頁面,通過消息推送發(fā)至個(gè)人短信、微信等;建立即時(shí)通訊,使得用戶間日常交流更頻繁和便捷;建立報(bào)表系統(tǒng),使得日常的發(fā)表、填報(bào)、數(shù)據(jù)收集整理更規(guī)范,使數(shù)據(jù)分析更智能,報(bào)表呈現(xiàn)更準(zhǔn)確更精彩。
本文針對在無線發(fā)射臺站建設(shè)及事業(yè)發(fā)展過程中出現(xiàn)的數(shù)據(jù)管理和使用問題,提出了建設(shè)無線發(fā)射臺站數(shù)據(jù)中心的設(shè)計(jì)與實(shí)現(xiàn)方案,解決數(shù)據(jù)在完整性、精確度、一致性、可用性等方面出現(xiàn)的不足。從源頭解決數(shù)據(jù)管理問題,解決數(shù)據(jù)的錄入、采集、融合與使用過程中多個(gè)環(huán)節(jié)的監(jiān)督與控制問題[7][8],讓沉睡的數(shù)據(jù)助力無線發(fā)射事業(yè)的發(fā)展。