◎蔣亞飛
大數(shù)據(jù)情形數(shù)理統(tǒng)計和并行計算方法研究
◎蔣亞飛
當(dāng)前時代對信息數(shù)據(jù)的分析與統(tǒng)計提出了更高的要求,數(shù)理統(tǒng)計作為其基礎(chǔ)被廣泛關(guān)注及研究,以便為實現(xiàn)數(shù)據(jù)的高效統(tǒng)計及應(yīng)用提供必要有效的保障。并行計算相對于串行計算來講,具有其獨特的優(yōu)勢及發(fā)展前景,對實現(xiàn)數(shù)據(jù)統(tǒng)計具有重要作用。本文結(jié)合筆者的實踐經(jīng)驗,對數(shù)理統(tǒng)計的基本情況及要點進行了分析,對并行計算的發(fā)展及模型建立進行了說明,并提出了優(yōu)化措施以供參考。
大數(shù)據(jù) 數(shù)理統(tǒng)計 并行計算
大數(shù)據(jù)分析在這些年的研究較為廣泛,且取得了較大的進展。然而,在大數(shù)據(jù)背景下對數(shù)理統(tǒng)計方法的研究及創(chuàng)新已出現(xiàn)了新的方式及變革,使得統(tǒng)計更具科學(xué)性及有效性,有利于當(dāng)前大量數(shù)據(jù)的分析與統(tǒng)計。計算機技術(shù)是目前科學(xué)技術(shù)發(fā)展的重要成果,對現(xiàn)有數(shù)據(jù)的統(tǒng)計及分析具有重要意義。縱觀現(xiàn)有數(shù)理統(tǒng)計方式及應(yīng)用現(xiàn)狀,各類性能高、專業(yè)性強的軟件的使用為實現(xiàn)數(shù)據(jù)高效統(tǒng)計提供了技術(shù)支持;但數(shù)據(jù)的多樣化及復(fù)雜化也對軟件功能的發(fā)揮及效率提出了嚴峻的挑戰(zhàn)。對此,本文結(jié)合現(xiàn)有計算機技術(shù)、并行算法模型的建立及應(yīng)用可對其數(shù)據(jù)分析與統(tǒng)計提供必要的技術(shù)支持,對數(shù)理統(tǒng)計方法及并行計算模型的研究情況進行了分析與總結(jié),以便后期數(shù)據(jù)統(tǒng)計方法的研究。
(一)大數(shù)據(jù)情形下的數(shù)理統(tǒng)計說明及思考
大數(shù)據(jù)時代下,數(shù)據(jù)的龐大及變化性呈現(xiàn)出較多的規(guī)律。就目前數(shù)據(jù)分析概率來講,以應(yīng)用概率學(xué)的基本理論結(jié)合數(shù)理統(tǒng)計的方法進行分析,將對數(shù)據(jù)規(guī)律的分析與創(chuàng)新具有極其重要的作用。同時,數(shù)據(jù)分析與其他相關(guān)類學(xué)科相比,復(fù)雜性與其他學(xué)科相互融合,在增加其分析難度的情況下,也提高了其數(shù)據(jù)統(tǒng)計分析的有效性。對此,在當(dāng)前數(shù)據(jù)分析中,數(shù)理統(tǒng)計方法與其他學(xué)科的相互滲透已成必然趨勢。但就目前數(shù)據(jù)分析情況,研究方法及模式還存在一些問題,導(dǎo)致其難以實現(xiàn)理論向?qū)嶋H快速的轉(zhuǎn)變。因此,研究一套完整的可用于目前大數(shù)據(jù)時代的數(shù)據(jù)統(tǒng)計方法對當(dāng)前數(shù)據(jù)的分析具有極大的應(yīng)用價值。

(二)大數(shù)據(jù)時代下并行算法的解讀與思考
對于目前大數(shù)據(jù)分析的實際情況及計算機技術(shù)的發(fā)展與使用,其串行的處理方式已無法滿足目前時代的發(fā)展及人們的需求,并行算法已成為主要發(fā)展趨勢。關(guān)于并行算法,現(xiàn)行的主要有以下兩種模式,即細粒度并行計算與粗粒度并行計算。但基于目前并行計算方式,在數(shù)據(jù)分布處理中仍存在不少的問題:一是節(jié)點間通信對并行處理的代價,如一些操作中的搜索、計數(shù)等可在各節(jié)點獨立執(zhí)行,使得其各節(jié)點數(shù)據(jù)處理后的合并及通信不可避免。二是節(jié)點間的負載不平衡性。如何實現(xiàn)數(shù)據(jù)在各個節(jié)點的平均分布對數(shù)據(jù)平衡計算具有積極的意義。三是可靠性。如節(jié)點集群常出現(xiàn)的節(jié)點故障問題對其可靠性造成了影響,而通過節(jié)點復(fù)制數(shù)據(jù)可解決上述問題,不僅提高了數(shù)據(jù)分析效率,也可冗余應(yīng)對節(jié)點故障。

基于目前數(shù)據(jù)分析與處理情況,大數(shù)據(jù)處理與分析中應(yīng)用較多的主要集中在數(shù)據(jù)倉庫技術(shù)、預(yù)測分析技術(shù)及數(shù)據(jù)統(tǒng)計方法等,其對于企業(yè)分析具有極大的應(yīng)用價值。從當(dāng)前情況看,實現(xiàn)數(shù)據(jù)存儲并非難事,但如何對其進行高效存儲應(yīng)作為重點進行考慮,以實現(xiàn)其數(shù)據(jù)轉(zhuǎn)換時不出現(xiàn)由于轉(zhuǎn)儲、抽取、整合所帶來的數(shù)據(jù)延遲;同時,有效的數(shù)據(jù)預(yù)測分析技術(shù)將對其實現(xiàn)企業(yè)決策具有重要意義。在當(dāng)前計算機技術(shù)高速發(fā)展的同時,大數(shù)據(jù)時代的到來將對并行算法模型的研究及應(yīng)用提出更高的要求,特別是提高數(shù)據(jù)處理的質(zhì)量及效率。因此,加強大數(shù)據(jù)處理并行計算模型的研究及優(yōu)化具有重要意義。
(一)數(shù)理統(tǒng)計的重要性分析
各行各業(yè)在進行科研工作時難免會涉及各類變量大小、離散情況以及數(shù)據(jù)特征的描述,如何對其實施有效分析與統(tǒng)計至關(guān)重要。然而,數(shù)理統(tǒng)計學(xué)所關(guān)注的焦點就在于將各隨機變量及其相互之間的關(guān)系進行定量定性描述;對此,數(shù)據(jù)統(tǒng)計學(xué)在大數(shù)據(jù)分析中具有極其重要的作用。如何使用數(shù)理統(tǒng)計方法及正確作出客觀、可行的結(jié)論是進行數(shù)理統(tǒng)計分析的重點,也是關(guān)鍵所在。進行數(shù)理統(tǒng)計作用重大,一方面,可靠的數(shù)理統(tǒng)計數(shù)據(jù)可對各變量的變化趨勢有較為清晰的了解與掌握,對于相關(guān)學(xué)者及決策者進行方案的制定將起到積極作用;另一方面,數(shù)理統(tǒng)計也是對方案實施效果的一種有效驗證工具及手段,有利于問題反饋,對于推動事件有效發(fā)展具有重要意義。
(二)數(shù)理統(tǒng)計軟件的選擇
可進行數(shù)理統(tǒng)計的分析軟件現(xiàn)在有很多種。采用EXCEL電子表格作為數(shù)據(jù)統(tǒng)計分析工具,在早些年被廣泛應(yīng)用于各行各業(yè),其強大的數(shù)據(jù)統(tǒng)計功能及便捷的操作很好地滿足了當(dāng)時數(shù)據(jù)的計算與分析。但隨著數(shù)據(jù)網(wǎng)絡(luò)化程度的發(fā)展及人們對統(tǒng)計效率及效果要求的逐步提高,EXCEL電子表格已不能滿足數(shù)據(jù)統(tǒng)計專業(yè)化的分析要求,如數(shù)理統(tǒng)計分析中一些特值的計算及趨勢動態(tài)分析等。尤其對于特殊行業(yè),如醫(yī)學(xué)等。因此,選擇合適的分析軟件對實現(xiàn)數(shù)據(jù)合理分析具有重要的意義。
目前,國際上已開發(fā)出專門應(yīng)用數(shù)據(jù)統(tǒng)計分析的軟件,較為著名的有SPSS統(tǒng)計分析軟件與SAS數(shù)據(jù)統(tǒng)計分析軟件。另外,BMDP和STATISTICA等軟件在實現(xiàn)數(shù)據(jù)分析統(tǒng)計中應(yīng)用也較為廣泛。如SPSS軟件,具有極強的專業(yè)性,針對社會科學(xué)、自然科學(xué)領(lǐng)域研究設(shè)計,應(yīng)用較為廣泛,統(tǒng)計所形成的數(shù)據(jù)國際認證程度高。在日常交流中,采用該軟件分析所得的數(shù)據(jù)可不必說明其具體算法,可見該軟件的國際認可度及專業(yè)性。
SPSS是專門為社會科學(xué)領(lǐng)域的研究者設(shè)計的,但此軟件在自然科學(xué)領(lǐng)域也得到廣泛應(yīng)用。BMDP是專門為生物學(xué)和醫(yī)學(xué)領(lǐng)域研究者編制的統(tǒng)計軟件。
(三)均值計算與相關(guān)性分析
在數(shù)據(jù)分析中,均值及其相關(guān)性的計算與分析是基礎(chǔ),也是表明數(shù)據(jù)變化趨勢的主要指標。所謂均值,即反映隨機變量大小的基本特征,可通過對均值的計算實現(xiàn)對數(shù)據(jù)數(shù)學(xué)期望的真實反映。如學(xué)者及統(tǒng)計分析人員在對數(shù)據(jù)進行統(tǒng)計分析時,常出現(xiàn)對相同采樣或同一條件下的隨機變量多次取值,為表證其數(shù)據(jù)觀測總體大小值,相關(guān)人士常采用直接計算數(shù)據(jù)的算術(shù)平均值或標準差。采用這種方法雖然可以起到對數(shù)據(jù)大小進行表征的效果,但嚴謹性較差,部分統(tǒng)計結(jié)果可能是不正確的。
在分析中也常出現(xiàn)計算數(shù)據(jù)相關(guān)性的問題。因此,對相關(guān)性的分析,如秩變量一般別無選擇,只能計算Spearman或Kendall秩相關(guān)系數(shù)。而對于數(shù)值變量,應(yīng)盡可能使用檢驗功效最高的參數(shù)方法,以便做到有效的統(tǒng)計計算的目的。一般情況下,相關(guān)系數(shù)的選擇依據(jù)是確定變量是否符合正態(tài)分布或變換后的數(shù)據(jù)是否符合正態(tài)分布。如樣本數(shù)據(jù)不符合正態(tài)分布,可在對數(shù)據(jù)處理時應(yīng)采用適當(dāng)?shù)姆绞綄ζ溥M行數(shù)據(jù)變換,并針對變換后的數(shù)據(jù)計算Pearson積矩相關(guān)系數(shù);否則,應(yīng)改用檢驗功效較低的Spearman或Kendall秩相關(guān)系數(shù),以保證數(shù)據(jù)的可靠性及有效性。
(一)并行算法的歷史回顧
在計算機技術(shù)發(fā)展的初期,串行計算是其主要的設(shè)計及開發(fā)模式。可以說,當(dāng)時的計算機從體系結(jié)構(gòu)及應(yīng)用軟件等方面,基本采用串行計算方式;但該種方式計算能力有限,隨著數(shù)據(jù)量的逐步增大及數(shù)據(jù)統(tǒng)計的愈發(fā)頻繁,該方法的瓶頸則越發(fā)被人們認識,并體會到采用并行計算是解決串行計算瓶頸及提高計算能力的有效手段。如并行計算可分為以流水線為代表的時間并行及對處理器為代表的空間并行等,極大地利用了計算機資源,提高了程序的利用率。
但關(guān)于并行計算的研究,在一些重要領(lǐng)域如科學(xué)、軍工等,應(yīng)用得到了推廣并取得了較好的效果。但在其他領(lǐng)域,卻未得到有效的發(fā)展,具體存在幾個方面因素:一是分布式并行門檻較高,且對于實現(xiàn)分布式并行程序執(zhí)行具有其不確定性及異步性,需要復(fù)雜的通信及調(diào)度并發(fā)控制,但由于早期計算模型在容錯性、可擴展性等方面存在不足且抽象層次低,實現(xiàn)高層次并行計算程序的編寫比較復(fù)雜。二是并行計算對軟件及體系結(jié)構(gòu)的依賴程度高且存在擴展性差、管理難及能耗大的問題,對于一些大型單位,如國家實驗室、航空航天等機構(gòu)具有較多的資源可使用,但對于一般單位應(yīng)用還存在一定的局限性。在目前大數(shù)據(jù)時代下,并行計算的發(fā)展帶來了極大的機遇與挑戰(zhàn)。如云計算為分布式計算機并行計算提供了有效的平臺,另外數(shù)據(jù)密集型的生產(chǎn)及科研已成為行業(yè)發(fā)展的主要趨勢,并行計算為實現(xiàn)大數(shù)據(jù)的有效處理可提供積極的支持推動并行計算的發(fā)展。
(二)并行算法模型的建立及優(yōu)化
P-DOT并行計算模型是重要模型,對實現(xiàn)大數(shù)據(jù)處理與分析具有重要作用。在我國經(jīng)濟與科技不斷進步的過程中,該模型的影響范圍越來越大,其在應(yīng)用過程中不僅呈現(xiàn)出傳統(tǒng)并行計算模型所沒有的功能,同時在其基礎(chǔ)上形成的計算方式能夠有效形成時間成本函數(shù)。同時,在目前的大數(shù)據(jù)應(yīng)用中,對實現(xiàn)實時數(shù)據(jù)流的分析與統(tǒng)計是數(shù)據(jù)統(tǒng)計主要關(guān)注的問題,低延遲是對該列數(shù)據(jù)流最重要的要求;在使用面向批處理高度優(yōu)化的MapReduce算法模型直接處理無界的數(shù)據(jù)流具有很大的應(yīng)用局限性,無法滿足流式應(yīng)用對實時性的需求。而學(xué)者將MapReduce模型與典型的數(shù)據(jù)流系統(tǒng)進行融合形成更高效的并行處理架構(gòu),為保證其數(shù)據(jù)的有效處理提供了新的途徑及解決方式,而這種面向流數(shù)據(jù)的專用并行計算模型作為解決上述問題的根本途徑受到業(yè)內(nèi)人士的高度重視。
綜上所述,數(shù)理統(tǒng)計是當(dāng)前大數(shù)據(jù)時代進行數(shù)據(jù)分析與決策的有效工具,對推動行業(yè)的發(fā)展具有重要的作用。而數(shù)據(jù)分析隨著科學(xué)技術(shù)的進步及經(jīng)濟的發(fā)展,傳統(tǒng)領(lǐng)域?qū)?shù)據(jù)統(tǒng)計的要求越來越高,數(shù)據(jù)統(tǒng)計方法的研究及應(yīng)用已成為推動行業(yè)發(fā)展的主要動力。筆者對現(xiàn)有數(shù)據(jù)統(tǒng)計方法進行了分析與說明,對常用數(shù)理統(tǒng)計軟件及要點進行了分析;同時結(jié)合當(dāng)前計算機技術(shù)及大數(shù)據(jù)要求,對傳統(tǒng)串行計算方式與并行計算進行了對比,指出并行計算是發(fā)展的主要趨勢;最后對并行計算模型的建立及優(yōu)化進行了確認。
(作者單位:江西財經(jīng)大學(xué))
責(zé)任編輯:張永輝
