聶鼎 宋憂樂 范黎濤 施冬明 蒲建志
摘要:大數據分析梳理平臺就是整合當前主流的各種具有不同側重點的大數據分析框架和工具,實現對數據的挖掘和分析,一個大數據分析平臺涉及到的組建眾多,如何將其有機的結合起來,完成海量數據的挖掘是一項復雜的工作。本文通過數據分析平臺的構建和數據分析兩個方面展開研究。
關鍵詞:信息分析、大數據、構建
一、序言
當前,人類社會信息化進程正在邁向網絡化信息技術普及階段。整個社會的信息采集渠道日益豐富,信息應用廣度不斷拓展,信息總量呈指數級增長,以信息為核心的創新驅動力持續增強,從而帶來全社會信息在類型多樣性、關系復雜性、應用時效性等方面呈現出嶄新的趨勢和特征。這種由社會信息環境的變革而引發的社會數據的變革,給信息科學及相關產業發展帶來了巨大的挑戰和機遇。
大數據時代,幾乎每一個企業都對數據分析平臺趨之若鶩,尤其是在今年疫情爆發之后,更多的企業主意識到了數據所具有的的極大商業價值,以及其作為支撐企業信息智能化的無形資產。
通常來說,企業內部的運營和業務系統每天會積累下大量歷史數據,一些企業最多是對一些零散的數據進行淺層次的分析,真正的海量數據其實并沒有得到真正有效的分析利用。
同時,隨著系統的不斷增加和積累,沉淀在系統深處的數據也更加難以提取和整合,后期的報表展示和可視化分析也就成了空殼應用。所以數據分析平臺的建設就十分必要了,一方面它可以匯通企業的各個業務系統,從源頭打通數據資源,另一方面也可以實現從數據提取、集成到數據清洗、加工、可視化的一站式分析,幫助企業真正從數據中提取價值,提高企業的經營能力。
二、數據分析
數據分析指用適當的統計、分析方法對收集來的大量數據進行分析,將它們加以匯總和理解并消化,以求最大化地開發數據的功能,發揮數據的作用。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
數據分析的目的是把隱藏在一大批看來雜亂無章的數據中的信息集中和提煉出來,從而找出所研究對象的內在規律。在實際應用中,數據分析可幫助人們做出判斷,以便采取適當行動。數據分析是有組織有目的地收集數據、分析數據,使之成為信息的過程。這一過程是質量管理體系的支持過程。在產品的整個壽命周期,包括從市場調研到售后服務和最終處置的各個過程都需要適當運用數據分析過程,以提升有效性。
當前云南電網配網線路和設備故障明細,配網設備相關的交叉跨越,安全隱患等信息,目前是各單位采取EXCEL表格為載體對數據進行收集、整理并報送,由于數據量太大,導致全省各家供電單位報送數據質量和內容規范性較差,數據格式也無法統一,進一步導致大量數據的統計和分析工作無法高效進行,無法對配網線路和設備故障進行有效的閉環跟蹤管控和多維度分析。本項目主要對配網缺陷、故障搶修、涉電安全隱患、線路交叉跨越、問題線路、重復跳閘線路、重過載、低電壓等配網生產運行數據規范填報管控和數據統計分析應用。
基于以上原因,有必要開展配網生產運行數據縱向聚合分析平臺開發,實現對全網配網線路和設備生產運行數據的統一規范化填報、管理,實現配網運行數據多維分析和統計。
離線數據分析
離線數據分析用于較復雜和耗時的數據分析和處理,一般通常構建在云計算平臺之上,如開源的HDFS文件系統和MapReduce運算框架。Hadoop機群包含數百臺乃至數千臺服務器,存儲了數PB乃至數十PB的數據,每天運行著成千上萬的離線數據分析作業,每個作業處理幾百MB到幾百TB甚至更多的數據,運行時間為幾分鐘、幾小時、幾天甚至更長。
在線數據分析
在線數據分析也稱為聯機分析處理,用來處理用戶的在線請求,它對響應時間的要求比較高(通常不超過若干秒)。與離線數據分析相比,在線數據分析能夠實時處理用戶的請求,允許用戶隨時更改分析的約束和限制條件。與離線數據分析相比,在線數據分析能夠處理的數據量要小得多,但隨著技術的發展,當前的在線分析系統已經能夠實時地處理數千萬條甚至數億條記錄。傳統的在線數據分析系統構建在以關系數據庫為核心的數據倉庫之上,而在線大數據分析系統構建在云計算平臺的NoSQL系統上。如果沒有大數據的在線分析和處理,則無法存儲和索引數量龐大的互聯網網頁,就不會有當今的高效搜索引擎,也不會有構建在大數據處理基礎上的微博、博客、社交網絡等的蓬勃發展。
三、平臺構建
企業對數據、效率要求的逐步提高,也給大數據提供了展現能力的平臺。企業構建大數據平臺,歸根到底是構建企業的數據資產運營中心,發揮數據的價值,支撐企業的發展。
動態配置、易于擴展:系統后臺管理功能要具備高度的定制和配置能力,利用已有功能的、通過簡單配置就可以滿足大多數系統的應用場景。同時,為開發框架今后的擴展需要,預留接口,方便新功能的擴展。
簡單部署、運行穩定:盡量減少不需要的配置和步驟,方便系統的搭建,實現系統的快速部署。通過完善的框架功能和標準的開發規范,保障系統運行的穩定和運行性能。
界面無關、方便定制:前端展現代碼和后端業務代碼的邏輯分離,開發框架不局限于某一種前端展現框架和代碼,實現前端展現界面可以靈活設計和定制而不受某一種展現框架的局限。
調試簡單、維護方便:框架所使用的各種技術要方便調試和已于維護,一方面提升問題定位和解決的效率;另一方面降低某一種技術自身缺陷對系統造成影響。
簡單實用、快速投產:框架研發不貪大求全,以簡單實用為準則,減少不必要功能的開發和設計,以實現用較短的時間完成基礎框架的研發并投入使用。
層次分明、平滑升級:實體層、數據訪問層、業務邏輯層、UI層,使用maven管理,每一層獨立一個項目一個jar包便于管理、升級。升級方面采用源碼方面,分層jar管理,web方面核心資源css、js統一管理,差異化采用繼承的方式拓展,所有提供出來的調用api采用平滑過渡,保留老版本接口,出現升級時,對老版本接口進行提示,建議不使用方式。
技術平臺的研發,在統一UI規范、接口規范、服務規范基礎上,滿足穩定性、安全性、拓展性、延續性、高性能的基礎上,突出研發效率和用戶體驗,技術研發平臺主要由服務框架、J2EE開發框架、終端開發框架組成。
四、總結
隨著計算機技術和網絡技術的不斷發展進步,目前社會中的各行各業都要面臨大量的數據,而單純依靠人力進行海量的信息數據分析已然不再現實,這就催生了大數據分析技術。我們通常將大數據稱之為復雜且規模巨大的數據集,擁有海量的非結構化數據。在大數據時代發展的浪潮下,大數據分析的構建已無可避免。
參考文獻
[1] 陶皖主編.云計算與大數據:西安電子科技大學出版社,2017.01:第44頁
[2] 邊馥苓主編;孟小帝,崔曉暉副主編.時空大數據的技術與方法:測繪出版社,2016.05:第24頁
作者簡介
聶鼎(1983-),男,漢族,黑龍江省哈爾濱人,碩士,高級工程師,主要研究方向:電力大數據,智能配電網技術等