龍草芳
摘要:隨著大數據及人工智能時代的到來,數據分析逐漸成為數據科學研究中的一個重要領域。本文主要介紹了數據分析的概念、數據分析方法、常用分析工具。
關鍵詞:大數據;人工智能;數據分析
中圖分類號:TP393 ? ? ?文獻標識碼:A
文章編號:1009-3044(2019)14-0226-02
1數據分析
20世紀初期如果要對一問題進行分析,需要人們手工計算,這導致運算速度非常慢,隨著時間的流逝,現在的數據量遠遠超過以前的運算規模,傳統手工的計算手段更加滿足不了現在的需求。
為了解決運算的問題,人們一直在致力這方面的研發,用電子代替人工。隨著計算機的出現和發展,這一問題被有效地解決了,人們進入了自動化時代。移動互聯網時代的來臨直接推進了大數據時代的到來。如何處理分析這些數據得到有效的信息,這是個巨大的挑戰,人們不斷地在尋求合適的解決方案。
眾所周知,大數據不單是數據量大的事情,最重要的是怎么利用好這些大數據,也就是對大數據進行分析,通過分析得到有價值的信息,并將這些信息加工成人們可快速、準確理解的知識。現在越來越多的行業應用涉及了大數據,例如金融、零售業、醫療、電信、航空等。這些行業應用不斷地產生大量數據,而這些數據的屬性,包括數量,速度,多樣性,復雜性等都在呈現不斷增長的復雜性,這些都要通過合適的分析方法來處理,所以說大數據的分析方法起到決定性作用。
數據分析是指用適當的分析方法和工具對準備好的數據進行分析和解釋,提取出有用的信息,以得到有效的結論并通過可視化技術展現出來的過程。因此,要學習數據分析首先需清楚數據分析與數據展現的方法以及對數據分析工具的使用。
2 數據分析方法
目前,數據分析方法中常見的基本分析方法包括對比分析、趨勢分析、差異顯著性檢驗、分組分析法、結構分析、因素分析法、交叉分析法、綜合評價分析法等。
2.1對比分析
對比分析也稱為比較分析,該方法通過對客觀事物進行對比,從而認識事物的本質以及挖掘事物的規律并給出準確的評價。對比分析的分析對象一般為相互聯系的兩個指標數據,它主要展示與說明研究對象水平的高低、速度的快慢、規模的大小以及各關系之間是否協調。
2.2趨勢分析
趨勢分析是指將實際達到的結果,通過比較同類指標不同時期的數據,繼而明確該指標的變化趨勢以及變化規律的一種分析方法。趨勢分析主要是運用在財務分析方面,具體的分析方法包括定比和環比兩種方法。定比分析是報告分析期的水筆比上某一特定時期的水平,它闡釋的是該現象在不短的一段時期內總的變化水平。環比分析指的是報告分析期水平比上前一時段水平,表示是逐期變化趨勢的現象,然后通過本期數據與上期數據的對比,形成時間序列圖。
2.3顯著性檢驗
“顯著性檢驗”是Significance Test翻譯過來的,在統計學中,顯著性檢驗屬于“統計假設檢驗”(Statistical hypothesis testing)一類,顯著性檢驗是用于檢測科學實驗中實驗組對照組之間是否有差異及差異是否顯著的辦法。事先要設立一個假設,然后判斷該假設是否合理,即判斷假設與真實情況是否存在顯著性差異。或者說,顯著性檢驗是判斷樣本與對總體所做的假設之間的差異是屬于機會變異,還是由所做的假設與總體真實情況之間不一致而產生的差異。
2.4分組分析
分組分析法是將總體數據按照某一特征劃分成若干個部分再加以分析的一種方法。是根據目標數據的性質、特征,按照一定指標,將數據總體劃分成幾個部分,來認識所要分析對象的不同特征,不同性質以及相互關系的方法。
分組時需要遵循窮盡原則和相互獨立原則。窮盡原則:即分組中要包含所有數據,不能遺漏,各組的空間能容納所有的數據。相互獨立原則:即分組之間不能交叉,組別之間差異明顯,一個數據只能歸屬于某一個組。
2.5結構分析
結構分析是建立在對比分析的基礎上,擴大對比范用,然后運用結構分析進行一一比較,通過結構指標來解釋企業資源結構分布、生產布局的狀況,便于經營者進行調整,投資者長期決策。
結構指標(%)=(總體中某一部分總體總量) X 100%
結構指標是指總體某一部分占總體總量的比重,總體中各個部分的結構相對數的和等于100%。
結構分析廣泛應用于財政收支領域,它能夠從不同的維度展開結構分析,如科目結構、區域結構等。同時餅圖、圓錐圖和金字塔圖等都是開展結構分析的有效工具。根據關注的時間,可分成靜態結構分析和動態結構分析;根據關注的對象,結構分析可分成增量結構分析、元素的比重分析以及總量結構分析。
2.6因素分析
因素分析法是斯皮爾曼( C.Spearman )在1904年提出的,根據分析指標與其影響因素的關系,從而確定不同因素對分析指標影響程度以及影響方向的一種方法。因素分析法既能夠獨立分析某個因素對經濟指標的影響,又能夠全面分析各因素對某一經濟指標的影響,因素分析法實際就是相關性概念,是在心理學領域中發展起來的一種多變量解析手段。
2.7交叉分析法
交叉分析法是指將有一定聯系的兩個變量及其值交叉排列在一張表內,使各變量值成為不同變量的交叉結點,形成交叉表,從而分析交叉表中變量之間的關系,也叫交叉表分析法。它是從交叉、立體的角度出發,由淺入深、由低級到高級的一種分析方法。雖然復雜,但這種方法彌補了“各自為政”分析方法所帶來的偏差。常用的是二維交叉表分析法,也有二維以上的交叉表,當然維度越多表就越復雜,這需要根據分析目的來確定。
2.8綜合評價分析方法
使用多個指標對多個參評對象評價的方法一般稱為綜合評價分析,其核心思想是利用一定的指標體系,采用特定的評價方法,將參評對象多個方面的特征轉化為一個綜合指標,從而確定參評對象的優劣、類型或進行排序等。綜合評價分析方法可以用在不同社會發展水平的地區或者對不同企業的經濟效益進行評價。
3 常用分析工具
3.1 Excel
Excel是微軟公司研發的辦公軟件Microsoft office的組件之一,是由微軟為Windows和MAC操作系統的計算機編寫和運行的一款表格計算軟件。Excel是Office中的一個常用軟件,它可以用于數據處理與統計分析,并可以將結果以圖形方式呈現,Excel是一個非常容易入門的軟件。使用Excel進行數據分析,簡單的分析運用里面最基礎的運算和圖表的制作就可以了,稍微復雜一點的分析工作可能用到函數和數據透視表,VBA和宏是其數據分析的高級應用。或者可以下載XLstat插件(一個統計分析插件),可以完成大部分SPSS數據分析功能。
3.2 SPSS
SPSS(Statistical Product and Serivice Solutions,統計產品和服務解決方案),是世界著名的商用統計分析軟件之一,它的數據管理和輸入方法與Excel很相似,數據接口基本通用,可以很方便地從數據庫中讀取數據。其內含模型包括常用的、較為成熟的統計分析模型,完全可以滿足非統計專業人士的工作需要。另外,SPSS的輸出結果十分直觀、漂亮,很多都是以圖表的形式輸出,存儲時則使用SPO格式,且可以轉存為HTML格式和文本格式。對于熟悉編程運行方式的用戶,可直接使用語句生成窗口,只需要在菜單中選擇好各個選項,然后粘貼就可以自動生成標準的SPSS程序。SPSS可以直接讀取Excel及DBF數據文件,且它的分析結果直觀、清晰、易學易用。現已推廣到多種操作系統的計算機上,極大地方便了中、高級用戶。
3. 3 SAS
SAS(Statistical Analysis System)于1976年正式推出。SAS主要用于大型集成信息系統的決策支持,最初它的功能僅限于統計分析,至今,它的重要組成部分和核心功能也仍然是統計分析功能。SAS對于處理大數據具有很大優勢,在金融領域SAS使用非常廣泛。相對于SPSS來說,SAS有更加強大的繪圖工具,而且可以編程,但是也更難掌握。
3.4 Stata
Stata是Statacorp于1985年開發的一套軟件,可以為使用者提供數據分析、數據管理以及繪制專業圖表等服務。它提供了一系列的功能,包含線性混合模型、均衡重復反復及多項式普羅比模式。
Stata的統計功能強大,不但有傳統的統計分析方法,還收集了近些年發展的新方法,在許多方面遠遠超過了SPSS和SAS。Stata在分析時是將數據全部讀入內存,分析完成后才和磁盤交換數據,從而運算速度極快。Stata具有很強的程序語言功能,但使用比SAS簡單。其生存數據分析、縱向數據分析等模塊的功能很出色,大大超過了SAS。另外,Stata作圖功能方面,它提供八種基本圖形的制作,基本滿足大部分用戶的作圖要求。Stata在全球范圍內被廣泛應用于企業和學術機構中,許多使用者是工作在特定研究領域一線的人員,比如經濟學、社會學、政治學及流行病學等領域。
3.5 MATLAB
MATLAB是由美國MathWorks公司出品的商業數學軟件,主要包括MATLAB和Simulink兩大部分,MATLAB一詞來源于matrix和laboratory兩個詞的組合,即矩陣實驗室。MATLAB用于科學計算、可視化以及交互式程序設計的高科技計算環境,被用于算法開發、數據可視化、數據分析以及數值計算等場合。
3.6 R語言
R誕生于1980年左右的S語言的一個分支,在統計領域廣泛使用,可以認為R是S語言的一種實現,而S語言是由AT&T貝爾實驗室開發的一種用來進行數據檢索、統計分析和作圖的解釋型語言。
R語言擁有一套完整的數據處理、計算和制圖軟件,其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的編程語言既可以操縱數據的輸入和輸出,也可以實現分支和循環結構。而最重要的是R語言是完全免費開源的,所以對于很多中小型公司來說,R語言是數據分析的首選工具。
4 小結
大數據的關注點已經不再僅僅是數據量大,而最重要的是對大數據進行分析和挖掘,只有通過智能分析才能獲取深入的、有價值的信息,并將這些信息加工成人們可快速、準確理解的知識。
參考文獻:
[1] 程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統和分析技術綜述[J].軟件學報,2014,25(9):1889-1908.
[2] 劉鵬,張燕,張重生,張志立.大數據[M].北京:電子工業出版社,2017.
[3] 王國胤,劉群,于洪,曾憲華.大數據挖掘及應用[M].北京:清華大學出版社,2017.
[4] 大數據戰略重點實驗室.大數據概念與發展[J].中國科技術語,2017(4):43-50.
【通聯編輯:光文玲】