聶鼎 宋憂樂 范黎濤 施冬明 馬志強


摘要:大數據時代,數據相關的分析因其具有可以快捷、高效地發現事物間內在關聯的優勢而受到廣泛的關注,并有效地應用于推薦系統、商業分析、公共管理、醫療診斷等領域.面向非線性、高維性等大數據的復雜特征,結合現有相關分析方法的語義分析。文中從數據聚合、數據分析兩個方面對數據的研究進行了梳理說明。
關鍵詞:大數據;數據分析;數據聚合
一、序言
隨著信息與通信技術的迅猛發展,全球數據量呈現爆炸式增長。面對海量、復雜的數據,人們日益發現其是人類發展的重要經濟資產,有效的數據分析與挖掘將推動國家、企業乃至整個社會的高效、可持續發展。
自2008年9月《 Nature 》出版“BigData ”專刊以來 [1],大數據更是成為政府、學術界、實務界共同關注的焦點,如2011年《Science 》出版的專刊“ Dealingwith Data ”[2] 和麥肯錫公司發布的報告“Bigdata:The next frontier for innoation,competition,andproductivity ”[3],2012 年達沃斯世界經濟論壇上發布的報告“Bigdata,bigimpact:New possibilitiesfor international development ”[4] 等。大數據分析與挖掘的研究成果也被廣泛應用于物聯網、輿情分析、電子商務、健康醫療、生物技術和金融等各個領域。
當前云南電網配網線路和設備故障明細,配網設備相關的交叉跨越,安全隱患等信息,目前是各單位采取EXCEL表格為載體對數據進行收集、整理并報送,由于數據量太大,導致全省各家供電單位報送數據質量和內容規范性較差,數據格式也無法統一,進一步導致大量數據的統計和分析工作無法高效進行,無法對配網線路和設備故障進行有效的閉環跟蹤管控和多維度分析。
基于以上原因,有必要開展配網生產運行數據縱向聚合分析平臺開發,實現對全網配網線路和設備生產運行數據的統一規范化填報、管理,實現配網運行數據多維分析和統計。實現配網生產運行數據統一規范化管理,更高效的進行數據統計和分析工作,為配網生產管理提供數據支撐,減輕基層人員數據填報的工作量,提高工作效率。為運維人員提供全面的信息展現,支撐設備生產技改大修,差異化運維決策,為管理層提供有效的管理依據。
二、數據縱向聚合
數據聚合是指通過同時聚集多個數據源分析數據來獲取數據全貌的數據。在數據信息多樣化發展下,為了實現對各類數據的多元化分析和應用,相關人員需要結合實際采取多樣化的策略來處理多源數據下載,從而提升數據信息應用效率。
(一)數據縱向聚合的必要性:
1.數據和信息系統分散
我國信息化產業經過多年的發展,現已開發了眾多計算機信息系統和數據庫系統,并積累了大量的基礎數據。然而,豐富的數據資源由于建設開發的時期不同,開發部門不同、技術發展階段不同、使用設備不同、開發方式和能力水平的不同等,從而導致數據存儲管理極為分散,以至于造成了過量的數據冗余和數據不一致性,使得數據資源難以查詢訪問,管理層無法快速獲得有效的決策數據支持。目前,管理者想要了解所管轄不同部門的數據信息,需要進入各種存儲數據的系統,而且數據之前不能直接比較分析,所造成浪費的時間和人力成本不可估量。
2.信息資源利用率較低
當前信息系統普遍存在集成度低、互聯性差、信息管理分散,數據的完整性、準確性、及時性等方面的問題。雖然有些單位已經建立了內部網和互聯網,但多年來分散開發或引進的信息系統,對于大量的數據不能提供一個統一的數據接口,不能采用一種通用的標準和規范,無法獲得共享通用的數據源,于是不同的應用系統之間必然會形成彼此隔離的信息孤島。現階段缺乏共享的、網絡化的可用度高的信息資源體系。
3.支持管理決策能力較低
數據的共享度達不到單位對信息資源的整體開發利用的要求。簡單的應用多,交叉重復也多,能支持管理和決策的應用少,能利用網絡開展經營活動的應用更少。對一個企業來說,最有價值的資產就是數據,數據中蘊藏著巨大的信息資源,但是沒有通過有效工具充分挖掘利用,信息資源的增值作用還沒有在管理決策過程中充分發揮應有的作用。
(二)數據聚合的優點:
1.底層數據結構的透明:為數據可以訪問(消費市場應用)提供了統一的接口,消費模式應用無需我們知道:數據在哪里保存、源數據庫系統支持那種生活方式的訪問(XQuery,SQL)、數據的物理知識結構、網絡安全協議等。
2.性能和功能擴展性:數據聚合把數據集成和數據訪問分成了兩個過程,因此訪問時數據已經處于準備好的狀態。而且數據會更易于提取。
3.提供真正的單一數據視圖,數據視圖data view這個概念很容易理解,數據聚合的優勢是經過了數據校驗和數據清理,使用者看到的數據更加真實、準確、可靠。
4.數據可重用性好:由于數據有了實際的物理存儲方式,從而聚合后的數據就可以為各種應用提供可重用的數據視圖,也不用擔心底層實際數據源的可用性。
5.數據管控能力加強:數據管控是SOA里面重要的概念。數據聚合的優勢是數據規則可以在數據加載,轉換中實施,從而可以確保數據在計算實施過程中高效的管控能力。
(三)數據聚合方案:
1.多數據庫聚合方案;
2.數據倉庫聚合方案;
3.中間件聚合方案;
4.Web Services聚合方案;
5.主數據管理聚合方案。
三、數據分析
數據分析是大量的高效地收集用于分析數據的分析的統計方法中,為了最大限度地提高功能數據的發展,數據的作用,提取有用的信息和形態的結論,以便詳細地進行研究,并匯總數據的的處理。這一過程也是質量管理體系和智能管理決策的支持過程。在實際應用中,數據分析可以幫助人們作出準確判斷,以便后續采取開展適當行動。數據分析是數學與計算機科學的結合。數據分析的數學基礎確立于20世紀初期,但直到計算機的發明使用才使得實際操作成為可能,從而使得數據分析為人熟知并得以推廣。
(一)數據分析的必要性
以市場而論,在一個產品的整個生命周期,包括從市場調研開始到產品研發、成品銷售、售后服務和最終處置的各個過程都需要運用大數據分析來支撐,以提升有效性。例如J.開普勒通過分析大量行星角位置的觀測數據,找出了行星運動的規律。又如,一個合格的銷售型企業領導人想要讓帶領公司發展,就需要通過市場調查,分析所得數據以判定市場動向,從而制定合適的生產及銷售計劃。由此可見,大數據分析有極其廣泛的應用范圍和巨大的潛在價值。
(二)數據分析的類型
現階段數據分析大致分為探索性數據分析、定性數據分析、離線數據分析、在線數據分析幾種。
(三)數據分析方法
1.列表法
將所得數據按一定規律用列表的方式表達展示出來,列表法是記錄統計和處理數據最常用的方法。
列表法基本分析
對比分析:進度分析,展現目標完成情況的分析方法
差異分析,多個樣本之間的差異程度
縱向對比(時間序列的趨勢分析):時間序列分析,同一指標不同時間下的對比
橫向對比:部分與部分,部分與整體或是對象與對象之間的對比
同環比分析:同比:本期值與同期值之間的對比
環比:本期值與上期值之間的對比
結構分析:構成分析
反映同一指標或多種指標狀態及數值變化情況的分析方法
2.作圖法
映射方法可最顯著地表達的各種物理變化之間的關系。一些實驗結果可從圖所需的行,也有些復雜的函數,通過一定的變換表示以圖形方式被簡單地確定。
(一)數據分析工具
Excel自己的數據分析功能可以完成多個專業軟件的數據統計,分析,包括:直方圖,相關系數,協方差,各種概率分布,抽樣和動態仿真,人口均值判斷,均值推斷,線性,非線性回歸,多元回歸分析,移動平均等。在商業智能COGNOS,風格智力,MicroStrategy的,布里奧,BO和Oracle以及國內產品如永洪Z-套房BI套件。
(二)數據分析步驟
1、明確分析的目的,提出問題。只有弄清分析的目的是什么,才能準確定位分析因子,提出有價值的問題,提供清晰的思路;
2、數據采集。對采集收集到的原始數據進行數據加工,主要包括、數據抽取數據清洗、數據檢索、數據分組等處理方法;
3、數據探索。通過探索式縫隙檢驗假設的形式方式,在數據之間發現新的特征,對整個數據集有個全面的認識,以便后續選擇何種分析策略;
4、分析數據。數據整理完后,需要對數據進行綜合分析和相關分析,需要對產品、業務、技術等有足夠的了解,常常用到分類、聚類等數據挖掘算法,excel是最簡單的數據分析工具,專業數據分析工具有Python,Finbi等;
5、數據可視化。借助可視化數據,能有效直觀地表述想要呈現的信息、觀點和建議,比如金字塔、矩陣圖、漏斗圖、帕累托圖等,同時也能用報告形式與他人交流。
大數據分析的主要過程活動由開始識別信息需求、收集整理數據、分析計算數據、評價并改進數據分析的有效性組成。
四、總結
大數據相關分析作為探尋與發現事物內在規律的重要“導航”工具,其自然成為大數據分析與挖掘的關鍵科學問題。大數據相關分析的研究尚處于起步階段,可以預見,在未來的大數據研究中,具有快捷、清晰、高效探測事物內在關系、規律功能的大數據相關分析將涌現大量的重要研究成果。本文針對大數據相關分析的綜述研究希望能夠為關注大數據相關分析理論與應用的研究者與實踐領域專家提供借鑒。
參考文獻
[1]梁吉業,馮晨嬌,宋鵬. 大數據相關分析綜述. vol.39 No.1 Jan.2016
[2]趙守香,唐胡鑫,熊海濤著.大數據分析與應用:航空工業出版社,2015.12
[3]數據整合方案介紹_數據整合的優點_數據整合的缺點.人大經濟論壇[引用日期2017-06-21]
[4]李會超.通信領域網絡管理數據模型的建立.2008-11-01
作者簡介:聶鼎(1983-),男,漢族,黑龍江省哈爾濱人,碩士,高級工程師,主要研究方向:電力大數據,智能配電網技術等。