翟金亭

關鍵詞:Spark;大數據;分析管理;應用研究
1引言
隨著互聯網、云計算和人工智能的快速發展,人們的日常生活和工作中會產生大量的小文件,如圖片、信息等數據文件。這些小文件數據規模越來越大,因此,高效地管理海量小文件數據是非常重要的應用需求。數字數據的數量爆炸使得研究人員和開發人員尋找更加科學合理的新方法,“大數據”應運而生。大數據分析對于管理海量數據具有重要的意義,從已有的數據資源中挖掘更有價值的知識具有重要的作用。大數據在擴展性,復雜性,速度等方面都面臨不一樣的挑戰,擴展性是指以指數形式將數據量由Terabytes發展為Petabytes, Exabyt, Zettabyt, Yottabyt等;復雜性意味著數據具有多樣性,可表現為結構化,非結構化以及半結構化,其內容涵蓋了多種格式,種類以及結構,如文本、數字、圖像、音頻、視頻、順序、時間序列、社交媒體數據以及多維數組[1-3]。
近年來,數字數據增長仍然呈指數型增長,需要尋找一種高效的手段對海量數據進行實時處理并提取信息,如分布式數據處理工具Hadoop,Spark計算技術等。國內外學者針對此類問題進行了大量的研究,并取得豐富的研究成果,如2012年Gartner認為,大數據將會成為新技術發展的熱點,海量和多樣化的信息資產需要一種新的處理模式,而大數據正好可以從海量數據中提取關鍵信息,使數據信息使用者可以高效使用信息,增強企業洞察危險的能力,優化數據的流程,最終決策也更加準確和科學;Victor在《大數據日寸代——生活、工作與思維的大變革》一書中指出,大數據時代要想得到有價值的信息,就需要從總體數據進行分析,而不是使用少量數據樣本分析與實務相關的數據。其更為關注數據之間的相關性,而不是探求數據的因果關系和精確性。
2Spark計算技術的優劣勢
能夠有效地進行大數據處理研究的Spark技術的框架系統,最初是由Matei Zaharia于2009年在加州大學伯克利分校的AMPLab開發的,并于2010年作為Apache項目成為開源項目,Spark技術主要使用分布式彈性數據集(RDD),旨在促進編寫和提高重復、重用數據(交互或迭代算法)的大數據應用程序的執行速度[4]。截至2015年,國內外學者已經開始使用Spark技術進行數據的評估分析,并且一些企業已經開始使用Spark技術存儲、探索和分析在企業運行過程中產生的海量數據。2018年,郭育辰基于大數據框架Spark,利用話單大數據進行了詐騙電話的識別和響應模型研究,來降低詐騙分子的成功率,達到保護人民群眾財產安全的目的;2018年,毛辰陽利用Spark平臺獲取好友列表和共同好友,基于話單分析的人物關系可視化分析可疑聯系人,為偵察嫌疑人提供技術支持;2019年,呂亮亮基于Spark實現電信客戶細分數據分析平臺的應用。
2.1Spark計算技術的優勢
首先,Spark是一種基于內存的計算,傳統的硬盤由于物理性質限制進行提升非常困難,而CPU和內存的發展近年來卻是十分迅速。內存的發展遵循著摩爾定律,近幾十年來內存價格不斷下降,內存量逐漸增加。現在主流的服務器中就有大量幾百GB或幾TB的內存儲量,使得內存數據庫的實現成為可能,而Spark正是利用這種計算資源而設計出的一種基于內存的分布式處理軟件,以達到取代MapReduce的目的。其次,Spark計算模式的速度具有優越性,研究表明,在內存中運行時比Hadoop快100倍,在磁盤上運行時比Hadoop快10倍。Spark計算模式能夠實現對HDFS進行數據的讀取功能,并且能夠支持YARN、MapReduce模型,還支持SQL查詢、流數據、機器學習和圖算法等部署模式,支持多種編程語言,Spark提供Java,Scala和Python語言的內置API。
2.2Spark計算技術的劣勢
近年來,基于Spark技術在大數據計算分析應用過程中也發現存在一些缺點,對該技術的性能造成一定的影響。在系統架構穩定性方面,Spark技術基于Java語言代碼實現數據處理功能,一般情況下,在處理大數據的過程中系統的RAM會出現內存占用率太高的現象,但系統代碼回收數據垃圾的效率比較低,嚴重影響系統架構的穩定性,導致處理過程中會出現報錯等錯誤信息。其次,由于Spark計算海量數據對硬件設備要求比較高,因此,普通常用的服務器無法滿足需求,需要更大的服務器集成群完成計算任務,從而有利于更好地改善計算環境,提高使用效率。
3基于Spark計算的數據分析實際應用
3.1基于Spark平臺的電信行業用戶流失預警
隨著電信行業和Spark技術的快速發展以及手機的普及應用,電信行業系統的應用規模越發擴大,行業內應用同時所產生的數據量則呈現指數型增長的趨勢。鑒于此,尋求一種有效且能夠解決實際問題的大數據處理技術以及方法手段成了目前行業的迫切需求。
隨著電信產業的不斷發展壯大,其海量的電信數據為Spark技術提供了獨特的應用空間。在云計算、大數據背景下,對于行業客戶流失的預警分析就顯得尤為重要。在電信行業發展的同時,如何控制或減少行業客戶流失已經變成電信行業目前的難題。在面對海量數據進行分類預測時,Spark強大的計算能力就顯得非常適合。因此,我們引入大數據平臺的Spark組件,借助隨機森林分類預算法構建用戶流失預警模型,分析用戶使用情況的細微波動,同時不斷改進模型以及模型的參數,調整預測效果。不同的目標客戶有著不同需求,針對性地設計專屬的營銷方法,可以有效減少客戶的流失,最大限度地實現對客戶的守護。
3.2基于Spark平臺及話單分析的人物關系可視化的研究與應用
近年來,隨著網絡的飛速發展,手機技術的革新也越來越快,同時手機的功能和角色也越來越多樣化,我們在使用手機的同時,手機信息安全等信息記錄安全就顯得尤為重要。最近幾年,很多犯罪分子會廣泛應用手機實施犯罪活動,此時,對手機中各種犯罪信息記錄進行分析就成為公安日常辦案中不可或缺的重要技術手段。警方可以通過手機分析犯罪嫌疑人的通話記錄和相關人物及機主的相關特征,其對破獲案件和緝拿犯罪嫌疑人有著不可替代的作用,本文以Spark技術為平臺,將通話記錄和相關信息作為本次研究的基礎數據,對基礎數據進行預處理、查詢和分析相關數據,通過決策樹分類算法獲得犯罪嫌疑人的人物關系,這就可以為警方辦案提供有用的線索,如圖1所示。
綜上所述,基于Spark平臺及話單分析的人物關系可視化的研究與應用不僅可以對緝拿犯罪嫌疑人有巨大的幫助,而且可以協助電信行業、輔助電信用戶獲取隱藏在話單中的有價值信息。
3.3基于Spark話單大數據的詐騙電話識別與響應模型研究
網絡技術飛速發展的同時,其也變成了一把雙刃劍,很多犯罪團伙會借助網絡技術渠道實施網絡詐騙,使得人們財產及生命安全面臨嚴重的威脅。由于手機功能的多樣化,使得電話詐騙變成最普遍及后果最嚴重的詐騙方式。但是,電話詐騙存在手段隱蔽、詐騙組織隱秘等特點,對于后期的破解存在難度大且治標未治本的特征。近年來,雖然國家開發了國家反詐騙APP等一些防詐騙軟件,但是由于詐騙組織技術的頑劣,依然很難杜絕詐騙事件的發生。此時,如何在詐騙前或中期及時地發現詐騙事件、及時阻止詐騙事件的發生,將對群眾和社會的危險降到最低就成了一個較為關鍵的研究應用熱點。本文基于Spark技術,以話單數據作為分析的切人點,對獲取的詐騙電話通信記錄信息進行離線數據分析,從而構建出詐騙電話識別與響應模型,以實現快速識別詐騙組織實施詐騙犯罪行為時間段內的詐騙電話,為警察以及反電信詐騙平臺提供重要的技術依據。
3.4基于Spark技術的電信客戶細分數據分析平臺實現和應用
201 8年,中華人民共和國工業和信息化部公布了11月通信業經濟運行狀況,報告中表明當前移動用戶的用戶人數大約為15.6億,同比之前上漲速度極快。這也表明了不僅網絡速度增加了,而且隨之帶來了人們生活方式的改革。在電信行業,由于移動用戶的變化、用戶消費的變化、行業系統的改革、數據量等的變化導致企業的運營發展需要進行不斷的更新以求新的變通。面對目前競爭激烈的市場,對于電信公司而言,同等質量的服務背景下,如何做好客戶的服務及防止客戶的流失顯得無比重要,同時客戶的細分對于維護客戶關系成了很重要的前提和基礎。本文基于Spark技術,利用電信運營商的CRM數據、計費數據及客戶的興趣偏好等為切入點,將目標客戶進行細分,幫助電信企業實現效益最大化,對電信運營商進行客戶維護和防止客戶流失具有重要的參考意義。
4結束語
Spark是一種新興的技術,與Hadoop MapReduce相比,Spark的迭代計算速度更快,應用前景更加廣泛。通過總結歸納國內外相關研究文獻發現,目前Spark在大數據處理方面的理論及實踐都有一定的研究成果,但在系統架構、算法設計等方面仍然存在著很多不足。Spark已成為一種具有高級內存編程模型與可擴展上層庫的大數據分析框架,具有先進的內存編程模型,并應用于可擴展機器學習、圖形分析、流媒體以及結構化數據處理等領域,但是由于其自身的諸多缺陷,對于大數據量、穩定性方面還需進一步的改進完善。