蘇杭

摘要 在大數據時代下,海量數據處理對數據相關性分析有較高要求,需要應用統計學的相關系數進行量化描述。本文首先對相關系數的定義和性質進行介紹,在此基礎上,探討相關系數在大數據背景下的應用,給出兩個常用公式,結合具體案例研究相關系數計算方法。
【關鍵詞】大數據背景 相關系數 常用公式計算方法
相關關系是指客觀事物之間存在的數量關系,在自然界中,各種事物和現象之間總是存在一定的聯系性,大數據時代的一個顯著特征是采用相關關系描述代替了以往數據關系分析中的因果關系描述。統計學中的相關系數就是對兩變量關聯性的量化描述,使其精煉為一個描述性數據。在大數據時代下,相關系數在數據分析過程中有重要應用,應積極研究其定義和計算方法,為實際應用提供參考。
1 概率相關系數的定義和性質
2.2 相關系數統計計算
在傳統統計計算方法中,搜集全部數據可行性較低,一般采取抽樣分析方法,按照一定策略在總體中進行抽樣,計算其相關系數,反映總體特征。比如以某城市的青少年身體成長為研究對象,探討其體重與身高的相互關系,可以直接采用
(1)確定樣本規模,獲取樣本中每一位青少年的體重測量值和身高測量值;
(2)分別計算體重和身高的平均值、標準差:
(3)將樣本體重和身高測量值轉化為標準值;
(4)將體重標準值與身高標準值相乘,將每個樣本數據的乘積相加,最后除以樣本總人數,得到相關系數。
2.3 相關系數大數據計算
在大數據技術的支持下,我們可以較為輕松的獲取研究對象的全部數據,且實現對動態數據的采集和分析,根據兩個變量之間的相互關系,分析事物在未來一段時間內的變化趨勢。因此,傳統相關性計算只是對以往數據的相互關系進行檢驗,而大數據技術下的相關性計算則能夠反映出數據的未來變化趨勢。比如以企業單位成本和產量為研究對象,利用大數據技術搜集企業的全部單位成本和產量數據,相關系數計算步驟為:
(1)分別計算單位成本與產量的平方,并計算單位成本與產量的乘積;
(2)分別求出單位成本之和、產量之和、兩者各自平方的和以及單位成本與產量乘積之和:
3 結束語
綜上所述,在大數據時代下,捕獲研究對象的全部數據成為一種可能,在此情況下利用統計學中的相關系數計算公式計算數據變量之間的相關系數,可以科學評判數據變量之間的相關性,全面反映數據隱藏特征,并預測數據的未來發展趨勢,為管理決策提供科學依據。
參考文獻
[1]姜詠梅,倪中華,基于大數據背景的相關系數研究[J].商丘職業技術學院學報,2017,16 (05):68-71.
[2]魏新來.大數據背景下居住用地價格驅動力分析
以蘇州工業園區為例[A].中國科學技術協會、廣東省人民政府,2015:7.