999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

相對誤差對相關(guān)系數(shù)影響的統(tǒng)計特性

2018-10-17 08:38:00
統(tǒng)計與決策 2018年18期
關(guān)鍵詞:影響

丁 勇

(南京醫(yī)科大學(xué)康達學(xué)院 理學(xué)部,江蘇 連云港 222000)

0 引言

相關(guān)和回歸是統(tǒng)計學(xué)研究的重要內(nèi)容。在實際工作中,受各種因素的影響,原始數(shù)據(jù)不可避免地存在一定的誤差,這些誤差對計算的結(jié)果會產(chǎn)生一定的干擾,因此需要對誤差的影響進行分析和研究。查閱文獻發(fā)現(xiàn),關(guān)注誤差對回歸分析影響的研究非常多,例如經(jīng)典的最小二乘法、最小一乘法都是針對誤差對回歸的影響[1-5];而關(guān)注誤差對相關(guān)分析影響的研究則很少[6,7]。

相關(guān)系數(shù)是研究變量之間相關(guān)程度的重要指標,在理論研究和實際工作中得到了大量的應(yīng)用[1,2,8],例如,相關(guān)系數(shù)作為變量之間的距離,在多元統(tǒng)計分析中,廣泛應(yīng)用于聚類分析、主成分分析等。因此,研究數(shù)據(jù)誤差對相關(guān)系數(shù)的影響有重要意義。本文在一個變量有相對誤差的情況下,探討相對誤差對簡單相關(guān)系數(shù)(又稱pearson積差相關(guān)系數(shù),以下簡稱相關(guān)系數(shù))的影響。

1 公式與性質(zhì)

1.1 公式推導(dǎo)

記 r 為 x=(x1,x2,…,xn)和 y=(y1,y2,…,yn)的相關(guān)系數(shù),則[1,2]:

考慮x、y兩個變量其中之一有誤差,由于對稱性,不妨設(shè) y有相對誤差:;這里εi~N(0,σ2) 且相互獨立。記 ε=(ε1,ε2,…, εn) ,則由樣本標準差和總體標準差的關(guān)系可知:

從而可以把σ近似看成是y的平均相對誤差(以下簡稱相對誤差)。

記r*為x=(x1,x2,…,xn)和的相關(guān)系數(shù),則:

由此可知,r*是由ε確定的隨機變量,上式比較復(fù)雜。為了較簡單明了地分析相對誤差對相關(guān)系數(shù)的影響,本文從總體特性的角度進行分析。從理論上獲悉r*的統(tǒng)計分布再推導(dǎo)總體均數(shù)E(r*)比較困難,為簡單起見,考慮如下的近似公式:

由 數(shù) 理 統(tǒng) 計 知 識 可 知[1]:E(εi)=0 ,E(εiεj)=E(εi)E(εj)=0(i≠j) ,且,所 以,從 而,故有。這里E(X)為隨機變量X的數(shù)學(xué)期望,χ2(1)為自由度為1的卡方分布。由數(shù)學(xué)期望的 性 質(zhì) 可 知[1]E[(xi-ˉ)yiεi]=(xi-ˉ)yiE(εi)=0 ,E[(yi-ˉ),又因為,所以從而,因此:

式(1)為有相對誤差數(shù)據(jù)的相關(guān)系數(shù)的總體均數(shù)的近似公式,與數(shù)據(jù)有相對誤差相對應(yīng),考慮相關(guān)系數(shù)的相對總體均數(shù):

當ˉ=0,且σ2較小時,式(2)為:

當n≥2、σ≤20%時:

1.2 誤差對相關(guān)系數(shù)影響的統(tǒng)計特性

由式(2)可得如下相對誤差對相關(guān)系數(shù)的影響的3個統(tǒng)計特性:

性質(zhì)2:相對誤差σ值越小,對相關(guān)系數(shù)的影響也越小;當σ=0 時,|=|r|;

性質(zhì)3:相對與性質(zhì)1誤差對相關(guān)系數(shù)的影響和有誤差數(shù)據(jù)的二階原點矩與二階中心矩的比值有關(guān),其值越小,影響越小;因為,故當yˉ=0 時,,此時,y的大小對相關(guān)系數(shù)沒有影響。

2 模擬研究

2.1 數(shù)據(jù)

式(1)、式(2)是近似公式,其精度如何?由近似公式得到的性質(zhì)是否和實際情況相符?下面通過一組數(shù)據(jù)進行計算機模擬考察和驗證。在實際應(yīng)用中,考慮到相對誤差不會太大,故設(shè)相對誤差界為20%。

表1 某交通點大氣污染情況的測定數(shù)據(jù)

表1是某交通點大氣污染情況的16個測定數(shù)據(jù)[9],第1列為汽車流量(輛/小時)數(shù)據(jù),第3列為大氣中NO2含量(毫克/立方米)數(shù)據(jù),這兩者的相關(guān)系數(shù)為r=0.8304,第2列為汽車流量減去它的平均值得到的中心化數(shù)據(jù),由數(shù)理統(tǒng)計知識可知,兩個變量或其中之一做線性變換時,它們的相關(guān)系數(shù)不變[1],所以它與大氣中NO2含量(毫克/立方米)數(shù)據(jù)的相關(guān)系數(shù)也為r=0.8304。由于本例的相關(guān)系數(shù)大于0,故在以下的討論中,省去相關(guān)系數(shù)的絕對值。

2.2 模擬研究

本文將汽車流量作為x,大氣中NO2含量作為y,此時取相對誤差σ分別為0.05、0.10、0.15和0.20(表2第1列),再由εi~N(0,σ2)產(chǎn)生有相對誤差的隨機數(shù),分別進行了10000次模擬,得到10000個x和y*的相關(guān)系數(shù)r*,統(tǒng)計其中r*>r的個數(shù)(表2第2列,記為m),計算r*的均值和標準差(表2第4列)以及r*與r比值的均數(shù)與標準差(表2第7列),為便于和近似公式比較,表2第3列和第6列給出了公式(1)和公式(2)的結(jié)果。

表2 大氣中NO2含量數(shù)據(jù)有相對誤差時10000次模擬結(jié)果

顯然,當沒有誤差時,r*=r,從而=r*=r,式(2)也表明,當相對誤差σ為0時,=r;當數(shù)據(jù)有相對誤差時,由式(2)可知,要小于r,表2第3列結(jié)果驗證了這一點,<r=0.8304 ,且當σ增大時,變得更小。是r*的平均值,<r的一個可能原因是當相對誤差σ存在時,r*>r的個數(shù)會減少,表2第2列的結(jié)果驗證了這一點。以上結(jié)果與前述的性質(zhì)1和性質(zhì)2的結(jié)論是一致的。

為比較y值的影響,取大氣中NO2含量數(shù)據(jù)為x,汽車流量數(shù)據(jù)為y,此時=19.7638,比表2的要大的多。類似上述的模擬方法,可得表3的各模擬結(jié)果。表3第2列與表2第2列欄類似,隨著誤差σ增大,r*>r的個數(shù)越來越少,相比表2的個數(shù)還要少;表3第3列與表2第3列欄類似,隨著誤差σ增大而變小,相比表2的數(shù)值還要小。

表3 汽車流量數(shù)據(jù)有相對誤差時10000次模擬結(jié)果

表4 汽車流量中心化數(shù)據(jù)有相對誤差時10000次模擬結(jié)果

圖1

2.3 近似公式的精度

由表2、表3和表4的第3列、第4列和第6列、第7列可知,與r*的均數(shù)的均數(shù)都比較接近,且標準差較小,說明近似公式有較好的精度,本文進一步以均方根誤差(root-mean-square error)為精度評價的量化標準,由于與僅差一個常數(shù),為簡便起見,只對進行比較,記顯然,當σ=0 時,r*=r,從而=r,所以此時RMSE=0 ;另外4種σ的情況,計算機模擬的計算結(jié)果列于表2、表3和表4中第5列,一個有趣的現(xiàn)象是,RMSE與σ成正比關(guān)系(下頁圖2,圖中R2為決定系數(shù)),表4的RMSE小于σ的3.6%(圖2中☆數(shù)據(jù)),表2的RMSE小于σ的6%(圖2中*數(shù)據(jù)),表3的RMSE小于σ的21.5%(圖2中o數(shù)據(jù))的值越小,RMSE與σ比值就越小;三種情況都表明,RMSE遠遠小于誤差σ,這進一步說明近似公式有較高的精度。由于的精度與的精度是一致的。由于近似公式有較好的精度,由此得到的3個性質(zhì)與實際情況相符也就順理成章了。與僅相差一個常數(shù),因此

圖2 均方根誤差RMSE與相對誤差σ的關(guān)系圖

3 討論

從復(fù)雜的現(xiàn)象中,排除次要因素的干擾,梳理出重要線索,抓住主要矛盾,有助于分析事物間的本質(zhì)聯(lián)系。本文從總體特性的統(tǒng)計規(guī)律出發(fā),利用簡單的近似公式,較好地找到了相對誤差對相關(guān)系數(shù)影響的主要因素。

從變量數(shù)據(jù)散點圖的幾何直觀來看,數(shù)據(jù)點越分布在回歸直線附近,變量的相關(guān)性越好。眾所周知,數(shù)據(jù)的誤差會對相關(guān)系數(shù)產(chǎn)生影響。一般來說,當誤差使數(shù)據(jù)點靠近(遠離)回歸直線時,相關(guān)系數(shù)會增加(減少)。由于誤差是隨機的,因此,誤差有可能使相關(guān)系數(shù)(絕對值)增加,也可能使相關(guān)系數(shù)(絕對值)減少。本文研究表明,從統(tǒng)計規(guī)律來看,誤差的影響大多數(shù)情況是不利的,會使變量的相關(guān)性變差。

對于相對誤差,一般會認為數(shù)據(jù)變量的絕對值越大,誤差會越大,從而對相關(guān)系數(shù)的影響也越大。本文研究得到一個重要的結(jié)論是:數(shù)據(jù)的二階原點矩的與二階中心矩的比值對相關(guān)系數(shù)有較大的影響。誤差會對相關(guān)系數(shù)產(chǎn)生影響,但僅有誤差,影響的作用并不大,公式(3)說明了這一點,誤差和二階矩比值的共同作用,特別是二階矩的比值較大時,會對相關(guān)系數(shù)產(chǎn)生較大的影響,圖1給出了直觀的說明。數(shù)據(jù)均值為0時,二階矩的比值達到最小值1,此時數(shù)據(jù)大小對相關(guān)系數(shù)沒有影響。因此,數(shù)據(jù)相對誤差對相關(guān)系數(shù)的影響,除了誤差和數(shù)據(jù)的大小,還要考慮數(shù)據(jù)是否對稱分布、均值為0。在實際問題中,可以把二階矩的比值作為一個評價指標,當該指標數(shù)值較小時,相關(guān)系數(shù)的值比較穩(wěn)定,受誤差的影響較小。

猜你喜歡
影響
是什么影響了滑動摩擦力的大小
哪些顧慮影響擔(dān)當?
當代陜西(2021年2期)2021-03-29 07:41:24
影響大師
沒錯,痛經(jīng)有時也會影響懷孕
媽媽寶寶(2017年3期)2017-02-21 01:22:28
擴鏈劑聯(lián)用對PETG擴鏈反應(yīng)與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
基于Simulink的跟蹤干擾對跳頻通信的影響
如何影響他人
APRIL siRNA對SW480裸鼠移植瘤的影響
對你有重要影響的人
主站蜘蛛池模板: 在线观看的黄网| 亚洲欧美激情小说另类| 制服丝袜一区| 国产精品露脸视频| 国产在线小视频| 一级看片免费视频| 国产在线自在拍91精品黑人| 精品久久蜜桃| 九九热精品免费视频| 日本国产精品| 香蕉视频在线观看www| 国产网友愉拍精品视频| 国产午夜精品一区二区三| 制服丝袜一区二区三区在线| 日本免费一级视频| 亚洲综合狠狠| 91亚洲影院| 国产网站免费看| 一级毛片高清| 日韩精品亚洲一区中文字幕| 91成人免费观看| 在线va视频| 国产一区二区丝袜高跟鞋| 天天综合色天天综合网| 亚洲男人的天堂在线| 亚洲无线国产观看| 天堂在线www网亚洲| 澳门av无码| 中文字幕欧美成人免费| 久久中文字幕2021精品| 91人人妻人人做人人爽男同| 99热线精品大全在线观看| 亚洲精品欧美重口| 国产精品原创不卡在线| 国产精品视频系列专区| 在线观看无码av五月花| 日韩免费成人| 2018日日摸夜夜添狠狠躁| 狼友视频一区二区三区| 在线播放国产99re| 国产乱人免费视频| 久久国产精品波多野结衣| 国产欧美高清| 91精品啪在线观看国产| 永久毛片在线播| 亚洲色图狠狠干| 日韩欧美国产三级| 久久中文字幕不卡一二区| 婷婷六月在线| 亚洲综合精品第一页| 宅男噜噜噜66国产在线观看| 久久精品aⅴ无码中文字幕 | 91色在线观看| 色偷偷综合网| h视频在线播放| 色视频久久| 日本精品视频一区二区| 国产亚洲欧美在线中文bt天堂| 久久精品视频一| 四虎亚洲国产成人久久精品| 国产呦视频免费视频在线观看| 国产精品久久久久婷婷五月| 蜜桃臀无码内射一区二区三区| 日韩午夜伦| 91无码视频在线观看| 99精品国产高清一区二区| 亚洲国产亚洲综合在线尤物| 精品無碼一區在線觀看 | 久精品色妇丰满人妻| 亚洲91在线精品| 亚洲αv毛片| 999精品视频在线| 日韩午夜片| 黄色片中文字幕| 精品91自产拍在线| 在线观看无码av免费不卡网站| 在线观看欧美国产| 视频二区亚洲精品| 欧美日韩北条麻妃一区二区| 72种姿势欧美久久久大黄蕉| 91网红精品在线观看| 狠狠综合久久久久综|