一種基于給定標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行正態(tài)修正的算法

2016-07-10 08:07:53楊毅宇

電子技術(shù)與軟件工程 2016年8期

楊毅宇

摘要：在數(shù)據(jù)隨機(jī)采樣與統(tǒng)計的過程中，根據(jù)實(shí)際情況可能需要對數(shù)據(jù)分布進(jìn)行正態(tài)化調(diào)整。本文研究的內(nèi)容是在給定平均值和標(biāo)準(zhǔn)差的前提下，將樣本數(shù)據(jù)的分布修正為理想正態(tài)曲線的一種方法，此方法可適用于數(shù)據(jù)信息偏離正態(tài)分布的各種情況，比如土壤元素、年降水量等。

【關(guān)鍵詞】數(shù)據(jù)分布給定標(biāo)準(zhǔn) 正態(tài)修正

1 引言

如果數(shù)據(jù)的產(chǎn)生過程受到獨(dú)立隨機(jī)因素的影響，那么數(shù)據(jù)的分布規(guī)律應(yīng)當(dāng)符合正態(tài)分布，然而在實(shí)際的測量與評價過程中，由于人為因素的影響，最終采集的數(shù)據(jù)可能偏離了正態(tài)分布，這時就需要對數(shù)據(jù)進(jìn)行正態(tài)修正，以使其恢復(fù)本來的樣子。

以往采用的方法之一是先計算出數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差，據(jù)此構(gòu)造出正態(tài)分布函數(shù)，并按照事先定義的劃分規(guī)則，計算出各個劃分上期望達(dá)到的分布頻數(shù)，然后從較高劃分開始，將每個劃分的期望頻數(shù)a與實(shí)際頻數(shù)b對比，如果a大于b，則從下一個劃分中將最高值“拉”到本劃分中；如果a小于b，則將本劃分中的最高值“推”到上一個高劃分中，這兩種操作都一直進(jìn)行到各個劃分達(dá)到期望頻數(shù)為止。這種方法在一般情況下，處理以后的數(shù)據(jù)結(jié)果可以很接近期望的正態(tài)曲線，但是“推”或“拉”的操作，都具有向較高劃分段躍進(jìn)的趨勢。

本文介紹的修正方法根據(jù)給定的平均值和標(biāo)準(zhǔn)差構(gòu)造出正態(tài)分布曲線，并計算各個劃分上的期望頻數(shù)，然后根據(jù)各個期望頻數(shù)值，從原始分布中按排名順序提出相應(yīng)數(shù)值，并按原始分布比例映射到相應(yīng)區(qū)間上。本文所討論的是進(jìn)行正態(tài)修正的一種方法，可以應(yīng)用在諸如土壤元素、年降水量等數(shù)據(jù)方面，在數(shù)據(jù)信息偏離了正態(tài)分布性，需要進(jìn)行修正時，才是本文所討論的范疇。

2 基于給定標(biāo)準(zhǔn)進(jìn)行正態(tài)修正的算法

2.1 計算正態(tài)分布下的期望頻數(shù)

設(shè)數(shù)據(jù)樣本為，即共有n個數(shù)值，且這些數(shù)值按照從高到低有序排列。以5為一個劃分，則0-100可分為20 個劃分，用表示每個劃分上的期望頻數(shù)。給定平均值μ和標(biāo)準(zhǔn)差σ，則可得到期望的正態(tài)分布曲線：

以此作為概率密度函數(shù)在各個數(shù)值段區(qū)間上求積分，再四舍五入取整，即可得到各個區(qū)間的期望頻數(shù)：

這一步需要注意的是，由于對各個劃分的計算結(jié)果進(jìn)行了四舍五入，所以最后得到的總頻數(shù)可能會產(chǎn)生誤差。比如對20個樣本數(shù)據(jù)進(jìn)行計算的實(shí)際結(jié)果為（1.5，2.6，6.2，5.8，2.4，1.5），四舍五入操作后變?yōu)椋?，3，6，6，2，2），總和變?yōu)榱?1。對于這樣的情況，本文的處理方式為：如果期望頻數(shù)總和少于實(shí)際頻數(shù)總和，將被減少的誤差頻數(shù)加到第二高劃分上；如果期望頻數(shù)總和大于實(shí)際頻數(shù)總和，將被增加的誤差頻數(shù)從最低劃分減掉。

2.2 將原始數(shù)據(jù)按期望頻數(shù)映射到各個數(shù)值段

從最高劃分開始，依次分別從原始數(shù)據(jù)中取出個數(shù)據(jù)，構(gòu)成各個待調(diào)整區(qū)間，對應(yīng)的調(diào)整目標(biāo)區(qū)間為，設(shè)原始數(shù)值為，調(diào)整后數(shù)值為，則可按照下式進(jìn)行映射：

另外，為了避免調(diào)整后出現(xiàn)前一區(qū)間的最小值與后一區(qū)間的最大值相同的情況，可以設(shè)定一個邊界因子，在計算前進(jìn)行如下操作：

這樣做相當(dāng)于擴(kuò)大了待調(diào)整數(shù)值的上下邊界，使得調(diào)整后的數(shù)值能夠全部落在區(qū)間邊界的內(nèi)部。

比如，待調(diào)整的數(shù)值為（87，89，91，93），目標(biāo)區(qū)間為[90，95]，取邊界因子，則，，調(diào)整后的數(shù)值為（90.63，91.88，93.13，94.38）。

需要注意的是，當(dāng)取出待調(diào)整數(shù)值的時候，有可能出現(xiàn)l-1，即待調(diào)整區(qū)間末端的數(shù)值與下一個數(shù)值相同的情況，這樣就需要將后面所有相同的數(shù)值也一并取到待調(diào)整區(qū)間中來，同時相應(yīng)地調(diào)整這兩個涉及到的區(qū)間的期望頻數(shù)。

3 實(shí)驗(yàn)結(jié)果分析

采用本文的修正算法，我們在Java開發(fā)環(huán)境下進(jìn)行模擬運(yùn)算，以某門課程的期末考試數(shù)據(jù)為樣本，樣本容量為51，其原始數(shù)據(jù)分布如表1所示。觀察直方圖可發(fā)現(xiàn)頻數(shù)的分布并沒有較好地符合正態(tài)分布特性。

我們設(shè)定平均值68.8，標(biāo)準(zhǔn)差7.3，對數(shù)據(jù)數(shù)據(jù)進(jìn)行調(diào)整后，數(shù)據(jù)分布如表2所示。觀察直方圖可發(fā)現(xiàn)，不僅數(shù)據(jù)的頻數(shù)分布很好地滿足了正態(tài)分布的特征，且不及格率也控制在了合理水平以內(nèi)。

本文提出了一種基于給定標(biāo)準(zhǔn)對非正態(tài)分布的數(shù)據(jù)進(jìn)行正態(tài)修正的算法，以某門不符合正態(tài)分布特征的課程考試數(shù)據(jù)為例，根據(jù)給定的合理平均值和標(biāo)準(zhǔn)差，用本文中的算法對數(shù)據(jù)按劃分進(jìn)行了調(diào)整，調(diào)整結(jié)果不僅沒有影響原先的排名順序，而且按比例保持了原始數(shù)據(jù)之間的距離，同時調(diào)整后的數(shù)據(jù)很好地符合了正態(tài)分布特性。

參考文獻(xiàn)

[1]鄭月鋒，形春波，黃德才，朱凌.修正數(shù)據(jù)為正態(tài)分布的一種新算法[J].統(tǒng)計與決策，2008，13（142）.

[2]趙逸云，黃兆雄，唐智杰，趙軍平.一種簡單、可靠的數(shù)值正態(tài)化及標(biāo)準(zhǔn)化換算方法[J].云南大學(xué)學(xué)報，2004，26（163）.

作者單位

大理大學(xué)教務(wù)處云南省大理白族自治州 671000

電子技術(shù)與軟件工程2016年8期

電子技術(shù)與軟件工程的其它文章: 電子信息在工業(yè)中的現(xiàn)狀和應(yīng)用; 科技創(chuàng)新創(chuàng)業(yè)交流展示平臺建設(shè)研究; 人工神經(jīng)網(wǎng)絡(luò)在白洋淀水質(zhì)評價中的應(yīng)用; 低成本智能插座的設(shè)計; 基于GSM短信模塊的家庭防盜報警系統(tǒng)設(shè)計; 基于51單片機(jī)的流水燈的設(shè)計與實(shí)現(xiàn)