





[摘要]職工平均工資是一個重要的指標,它既關系到了勞動者的自身利益,又是政府制定政策時的依據。本文介紹了探索性數據分析的主要特點,充分運用該分析方法對華東六省的職工平均工資進行描述性數據分析,繪制了箱線圖,進行對稱變換和匹配變換,排除局部的異常值干擾,重點關注了總體數據特征。
[關鍵詞]探索性數據分析;職工平均工資;匹配變換
[中圖分類號]G819[文獻標識碼]A[文章編號]1005-6432(2013)46-0099-02
1引言
探索性數據分析方法是一種新型的統計分析手段,近年來在許多行業得到了廣泛的應用,并取得了明顯成效。其強調了數據本身的價值,可以更加客觀地發現數據的規律,找到數據的穩健耐抗模式,從而發掘出數據的隱藏信息。本文從職工平均工資的實際數據出發,利用探索性數據分析中的工具,直觀地探索華東六省職工平均工資的規律,挖掘數據特征和有價值的信息。
2華東六省職工平均工資的描述性分析
職工平均工資指企業、事業、機關單位的職工在一定時期內平均每人所得的貨幣工資額。它表明一定時期職工工資收入的高低程度,是反映職工工資水平的主要指標。由于中國城市眾多,各地經濟發展水平有較大的差異,生活水平和生活質量也各有不同,為了縮小地理差異對研究數據的影響,得到較為準確和有意義的結果,這里只選用了2010年華東地區六個省的職工平均工資運用探索性數據分析方法做初步的描述性分析和研究,每個省選取了9個大城市。
為了更加簡單直觀地對比各個省市的數據,我們繪制了箱線圖,如圖1所示。對華東六省進行對比中,可以看到只有江西省和福建省是有離群值的,說明了這兩省中存在著個別城市職工平均工資與同省其他城市相比特別大,其他幾省的數據就不存在離群值。對于四分展布,可以得到大小關系,安徽>江蘇>浙江>山東>福建>江西,可知安徽和江蘇中城市的職工平均工資差異較大,福建和江西相比起來,則分布得更加集中。
圖1華東六省2010年職工平均工資水平箱線圖
綜合對比各個省的中位數,可以發現江蘇省平均職工工資水平最大,江西省最小,從經濟上反映了地區經濟發展差異,江蘇緊靠上海,處在華東的中心,交通系統發達,同時,長三角江蘇占了大部分,其靠海的地理優勢給它帶來了更多的經濟發展機會,導致了職工工資水平中位數相差如此大。
同時可以直觀地看出安徽省數據對稱性最好,除了福建省數據呈現左偏趨勢外,其他省都呈現右偏的趨勢,其中江西省的數據最為嚴重,主要是受到了兩個離群值的影響,為了使其更對稱,我們運用探索性數據分析方法中的對稱變換方法,在經過R軟件的計算后,得到職工平均工資的對稱性變換圖,如圖2所示。
圖2江西省2010年職工平均工資水平對稱性變換圖
進行對稱性變換后,運用R軟件擬合曲線,得到:
由圖3可以看出,在進行對稱匹配變換之后,江西省的兩個離群值消失了,數據變得更加集中,趨勢也更加易于分析和研究。這樣的數據會給分析帶來便利,更加清晰和直觀地表現出數據的本質特征。
圖3江西省2010年職工平均工資水平匹配
3結論
使用探索性數據分析技術具有耐抗性和穩健性的特點,通過箱線圖可以簡單直觀地看出數據間的差異,華東六省中浙江、江蘇省職工平均工資較高,安徽、山東、福建省處于中間,江西省最低。安徽省的數據較為分散,同時數據比較對稱,而江西省的數據有著極大的右偏性,在經過了對稱、匹配變換后,仍然與華東地區其他省的數據有較大的差異,可能是由離群值太大造成的。
參考文獻:
[1]李世勇,胡建軍,熊燕,等2004年我國卷煙焦油量的探索性數據分析[J].煙草科技,2005(7):8-11
[2]王淑紅,李英龍,戈保梁,等探索性數據分析在選礦中的應用[J].金屬礦山,2002(7):22-27
[3]楊悅運用探索性數據分析探查考試數據的研究[J].遼寧教育行政學院學報,2009(5):63-67