999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

有序變量的相關性及其 R 實現

2022-04-29 20:16:50陳鼎姜雨昂
計算機應用文摘 2022年15期
關鍵詞:相關性

陳鼎 姜雨昂

摘要:在調查、醫學等研究中,有序變量的相關性都有所涉及,并且合理使用相關系數的計算方法得出正確的結論顯得尤為重要。文章介紹了有序變量相關系數的計算公式,通過R軟件編寫函數計算相關系數及其置信區間、p值,同時通過舉例說明有序變量相關性在教學研究、醫學研究、市場調查中的應用,總結了相關系數之間的差異以及適用范圍。

關鍵詞:非參數統計;相關性;有序變量;R軟件

中圖法分類號:0212文獻標識碼:A

Correlation of ordinal variables and its application by R software

CHEN Ding,JIANG Yuang

(School of Mathematics and Statistics,Suzhou University,Suzhou 234000,China)

Abstract:In various researches such as investigation and medicine, the correlation of ordinal variables is involved, and it is particularly important to use the calculation method of the correlation coefficient reasonably to draw the correct conclusion. This paper introduces the calculation formula of the correlation coefficient of ordinal variables, and uses R software to write functions to calculate the correlation coefficient, its confidence interval, and p value. Finally, through the application of the correlation of ordinal variables in teaching research,medical research,and market research,this paper explains the differences between the correlation coefficients and the scope of application.

Key words: nonparametric statistics, correlation, ordered variable, R software

在經濟、金融、醫學、氣象等各類科學研究中,研究兩個變量是否相互影響一直是人們關注的首要問題。研究變量間的相互影響,不僅關心兩個變量是否存在相關,更關心兩個變量間的相關強度。目前,常用的方法是連續變量采用散點圖或折線圖等圖表法直接觀察,或者使用 Pearson 相關系數、Spearman 相關系數等衡量相關關系[1~2],而名義變量的相關關系采用列聯表分析和獨立性卡方檢驗進行定性分析,或者采用φ系數、列聯系數、Cramer? s V 系數等進行定量分析[3]。在問卷調查、疾病成因和醫學衛生等研究領域,更關注的是定序名義變量間的相關程度[4~6],而大部分情況都是使用列聯表分析等方法去解決問題,這往往忽略有序變量的順序關系,甚至會得出錯誤的結論[7]。鑒于此,本文針對有序變量相關性度量,重點介紹了幾種常用的有序變量相關系數的計算方法及性質,并使用免費開源的 R 軟件編寫函數實現相關系數的計算。

1有序變量的相關性

1.1有序變量的相關系數

假設 X 和 Y 都是有序變量,分別有 r 個有序水平A1,A2,…,Ar 和 c 個有序水平 B1,B2,…,Bc ,而且觀測數據( Xi ,Yi ),i =1,2,…,n 能放入 r × c 的列聯表(表1)。

由于變量數據具有特殊性,常用 Kendall τb 和Kendall τc ,Goodman?Kruskal,s γ,Somers, d 等系數衡量兩個有序變量間相關性。記

,則有序變量間的相關系數可表示為如下形式:

(1)Kendall τ b 相關系數:

其漸進均方差為:

其中,vij=RiDr+CjDc 。

(2)Kendall τc 相關系數:

其漸進均方差為:

其中,q=min( r,c)。

(3)Goodman?Kruskal,s γ相關系數:

其漸進均方差為:

(4)Somers, d(C | R)相關系數:

其漸進均方差為:

(5)Somers, d(R | C)相關系數:

其漸進均方差為:

(6)Somers, d 相關系數:

其漸進均方差為:

Kendall τb 和 Kendall τc, Goodman?Kruskals γ, Somers d(C | R),Somers d(R | C)以及 Somers d 的取值范圍都介于?1 ~ 1 之間,其中系數的符號代表正相關和負相關,系數的絕對值大小代表相關程度,絕對值接近1時,相關性越強;絕對值接近0時,相關性越弱。Kendall τ b 和 Kendall τc ,Goodman?Kruskal,s γ,Somers, d 中變量的位置是對稱的,而 Somers, d ( C | R),Somers, d( R | C)是非對稱的,可以度量自變量對因變量的影響。

1.2有序變量相關性 R 軟件的實現

將有序變量的相關系數、區間估計和檢驗 p 值用 R 語言編寫函數 Ordinal,具體程序如下:

Ordinal=function( x)

{ n1=nrow( x)

n2=ncol( x)

C=D=matrix(NA,nrow=n1,ncol=n2)

for (i in 1:n1)

{ for (j in 1:n2)

{ C[i,j]=sum(( row( x )>i)?( col( x )>j)?x )+ sum(( row( x)

D[i,j]=sum (( row ( x )>i)?( col( x )j)?x)}

}

P=sum( x ?C)

Q=sum( x ?D)

n=sum( x)

Dc=n^2?sum(( apply( x,2,sum))^2)

Dr=n^2?sum(( apply( x,1,sum))^2)

Ri=matrix( apply( x,1,sum),n1,n2)

Cj=matrix( apply( x,2,sum),byrow=T,n1,n2)

V=Ri ?Dr+Cj ?Dc

Kendall taub=( P?Q)/sqrt ( Dc ? Dr )? #計算

Kendall taub 系數

ASE taub=1/(Dc ?Dr)? sqrt ( sum ( x ?(2? sqrt

(Dc ?Dr)?(C?D)+Kendall taub ?V)^2) -n^3?Kendall taub^2?(Dr+Dc)^2)

q=min( nrow( x),ncol( x))

Kendall_tauc=q ?(P?Q)/( n^2?( q?1))? #計

算 Kendall tauc 系數

ASE_tauc=2?q/(( q?1)?n^2)? sqrt ( sum ( x ?(C?D)^2)?(P?Q)^2/n)

Goodman gamma =( P ?Q)/( P +Q)? #計算

Goodman gamma 系數

ASE Goodman=4/(P+Q)^2? sqrt( sum( x ?(Q ? C ?P ?D)^2))

Somer d=2?(P?Q)/(Dc+Dr) #計算 Somers,

d 系數

ASE d=ASE taub ?sqrt(2?sqrt(Dc ?Dr)/(Dc+

Dr))

Somer dCR=( P?Q)/Dr? #計算 Somers, d( C |

R)系數

ASE dCR=2/Dr^2? sqrt ( sum ( x ?( Dr ?( C?D)?(P?Q)?( n ?Ri))^2))

Somer dRC=(P?Q)/Dc? #計算 Somers, d( R |

C)系數

ASE dRC=2/Dc^2? sqrt( sum ( x ?( Dc ?( C?D)?(P?Q)?( n ?Cj))^2))

coef= c ( Kendall taub,Kendall tauc,Goodman

gamma,Somer_d,Somer_dCR,Somer_dRC)

ASE=c(ASE taub,ASE tauc,ASE Goodman,ASE

_d,ASE_dCR,ASE_dRC)

pvalue=2?(1?pnorm ( abs ( coef/ASE))) #求檢驗 p 值

CI95=c( coef?1.96?ASE,coef+1.96?ASE) #

求95%的置信區間

result=matrix ( c ( coef,ASE,pvalue,CI95),nrow=6)

rownames ( result)= c ("Kendall taub","Kendall

tauc"," Goodman _ gamma"," Somer _ d"," Somer _

dCR","Somer dRC")

colnames( result)= c ("coef","ASE","pvalue"," CI95 low","CI95 up")

return( result)

}

在 R 程序中,輸入有序變量( X,Y)的列聯表數據,運行 Ordinal 函數,就可得出所有系數、95%的置信區間和檢驗 p 值[8~10]。

2實例分析

2.1有序變量相關性在教學研究中的應用

教育教學中常常研究學科成績之間的相關性,通常成績以具體分數呈現,可以使用連續型變量相關性系數研究學科成績間的相關性。但是,成績也會以等級形式呈現,這時不同學科成績就是有序變量,應該使用有序變量相關系數去研究不同學科成績間的相關性。以研究某班80名學生的數學成績(成績等級:不及格、及格、中等、良好、優秀)與物理成績的相關關系為例,具體數據如表2所列。

導入數據,運行 Ordinal 函數后,結果如表3所列。

根據表3可知,對稱的系數中 Kendall τ b 系數是0.760,Kendall τc 系數是0.689,Goodman?Kruskal,s γ系數是0.937,Somers, d 系數是0.760,且顯著性水平(p 值)都小于0.001。說明該班的數學成績與物理成績之間存在顯著的正相關性,并且相關性較強。非對稱系數中 Somers, d(C| R)系數是0.754,Somers, d(R | C)系數是0.766,且顯著性水平(p 值)都小于0.001,說明物理成績對數學成績的影響程度要比數學成績對物理成績的影響程度大。

2.2有序變量相關性在醫學研究中的應用

醫學上經常考慮有序變量間的相互影響,如吸煙的頻率與生存時間的關系、早晨起床時間段與胃病嚴重程度的關系等,這都需要使用有序變量相關系數去衡量變量間的相互影響。以嬰兒體重(低于平均水平、平均水平、高于平均水平)和嬰兒胎次(一胎、二胎、三胎、四胎及以上)為例研究有序變量間的關系,具體數據如表4所列。

導入數據,運行 Ordinal 函數后,結果如表5所列。

根據表5可知,對稱的系數中 Kendall τ b 系數是0.524,Kendall τc 系數是0.552,Goodman?Kruskal,s γ系數是0.676,Somers, d 系數是0.523,且顯著性水平(p 值)都小于0.001,說明嬰兒體重和嬰兒胎次存在顯著的正相關性。由于醫學上很多變量間有因果關系,而本例中主要考慮嬰兒胎次對嬰兒體重的影響,因此使用不對稱的 Somers,d(R | C)相關系數。Somers, d(R | C)的系數為0.497,顯著性水平( p 值)小于0.001,說明嬰兒胎次對嬰兒體重的有顯著的正影響,即嬰兒胎次越多,嬰兒的體重越容易高于平均水平。

2.3有序變量相關性在市場調查中的應用

在市場調查中,問卷是搜集調查數據的重要工具,而在問卷設計時,選項不可避免的出現順序,如五級量表:非常滿意、比較滿意、一般、比較不滿意、非常不滿意等。由于問卷的選項設置容易出現有序變量,因此問卷數據分析相關性時需要采用有序變量的相關系數。以研究被調查者的學歷(小學、初中、高中、本科、研究生)和收入水平(收入2000元及以下為組1、收入2001~3500元為組2、收入3501~5000元為組3、收入5001~10000元為組4、收入10000元以上為組5)兩有序變量間的相關關系為例,具體數據如表6所列。

導入數據,運行 Ordinal 函數后,結果如表7所列。

根據表7可知,對稱的系數中 Kendall τ b 系數是0.749,Kendall τc 系數是0.725,Goodman?Kruskal,s γ系數是0.864,Somers, d 系數是0.749,且顯著性水平(p 值)都小于0.001,說明學歷與收入水平間存在較強的正相關性。問卷設計中考慮變量間的相互影響,本例中考慮學歷對收入水平的影響,因此使用非對稱系數中 Somers, d(C | R)系數,其值是0.746,且顯著性水平( p 值)小于0.001,說明學歷越高,收入水平越高。

3結語

本文通過教學、醫學、市場調查三個實例,計算其有序變量的相關系數,可以發現以下結論:(1) Goodman?Kruskal,s γ系數要比其他系數大,而除 Goodman?Kruskal,s γ系數的5種相關系數相差不大;(2)在因果分析中,使用非對稱的 Somers, d( C | R ), Somers, d(R | C)系數可以得到正確的結果。因此,有序變量相關性度量使用不同的相關系數雖然數值不同,但可以得到相同的結論。若需要考慮兩個變量的因果關系,可以使用 Somers, d(C | R),Somers, d(R | C)系數,并且可根據系數對比兩個變量互為因果的強弱。在分析具體實際問題時,合理使用有序變量相關系數更容易分析有序變量間的相關關系。同時,可以使用 R 軟件編寫計算的函數程序,方便研究者使用。

參考文獻:

[1]李彥萍,楊紅霞.非參數統計中相關系數的計算及其應用[J].山西農業大學學報(自然科學版),2003(4):363?366.

[2]楊雨龍.相關性分析方法及其應用淺析[ J].課程教育研究,2019(7):134+138.

[3]王伏虎,趙喜倉.名義變量列聯表的相關統計量分析[J].統計與決策,2009(14):164?165.

[4]曹玉嬋,左映龍.調查問卷數據統計列聯表分析在 SPSS 中的實現[J].科技創新與應用,2018(26):9?11.

[5]趙鵬輝,崔蕊.列聯表檢驗在疾病成因中的應用[ J].大慶師范學院學報,2013,33(3):33?38.

[6]吳喜之,趙博娟.非參數統計(第五版)[ M].北京:中國統計出版社,2019.

[7]陸運清.列聯表資料檢驗的幾種常見錯誤辨析[J].統計與決策,2010(15):161?163.

[8]陳雪東.列聯表分析及在 SPSS 中的實現[ J].數理統計與管理,2002(1):14?18+40.

[9]董云朝.應用 SPSS 軟件分析名義變量之間的相關性[J].福建電腦,2019,35(12):16?19.

[10]薛毅,陳立萍.統計建模與 R 軟件[M].北京:清華大學出版社,2007.

作者簡介:

陳鼎(1993—),碩士,助教,研究方向:統計教學與研究、多元統計分析及其應用。

猜你喜歡
相關性
我國創意產業集群與區域經濟發展研究
商情(2016年42期)2016-12-23 14:25:52
淺析財務管理與稅收籌劃的相關性
商情(2016年42期)2016-12-23 13:35:35
醫學教育中基于蛋白質驅動的miRNA與疾病相關性研究
東方教育(2016年4期)2016-12-14 22:15:13
財務管理和稅收籌劃的相關性分析
基于Kronecker信道的MIMO系統通信性能分析
科技視界(2016年21期)2016-10-17 17:37:34
小兒支氣管哮喘與小兒肺炎支原體感染相關性分析
腦梗死與高同型半胱氨酸的相關性研究(2)
腦梗死與高同型半胱氨酸的相關性研究
會計信息質量可靠性與相關性的矛盾與協調
主站蜘蛛池模板: 日韩毛片在线播放| 性色生活片在线观看| 亚洲啪啪网| www.亚洲一区| 亚洲欧美国产五月天综合| 中文字幕色在线| 免费人成在线观看视频色| 欧洲免费精品视频在线| 国产免费人成视频网| 九九久久精品免费观看| 中国精品自拍| 黄色网页在线观看| 日韩福利视频导航| 成人福利在线视频| Jizz国产色系免费| 无码aaa视频| 91久久精品国产| 欧美一区二区精品久久久| 思思热精品在线8| 亚洲日本中文字幕天堂网| 色综合中文| 天天激情综合| 性喷潮久久久久久久久| 欧美日韩中文国产va另类| 999精品在线视频| 被公侵犯人妻少妇一区二区三区| 精品视频免费在线| 无码区日韩专区免费系列 | 久久精品亚洲中文字幕乱码| 欧美成人一区午夜福利在线| 毛片久久久| 在线精品亚洲国产| 波多野结衣一区二区三区四区| 亚洲欧美日韩综合二区三区| 国产清纯在线一区二区WWW| 国产精品欧美日本韩免费一区二区三区不卡 | 91丝袜美腿高跟国产极品老师| 永久天堂网Av| 一区二区理伦视频| 青青青草国产| 久久伊伊香蕉综合精品| 国产一二三区视频| 欧美成人午夜在线全部免费| 亚洲国产91人成在线| 国产一级无码不卡视频| 色亚洲成人| 欧美日韩亚洲综合在线观看| 亚洲第一页在线观看| 国产爽歪歪免费视频在线观看| 热re99久久精品国99热| 亚洲日本一本dvd高清| 波多野结衣第一页| 免费又黄又爽又猛大片午夜| …亚洲 欧洲 另类 春色| 91精品久久久久久无码人妻| 国产特级毛片aaaaaaa高清| 一本色道久久88| 日韩欧美91| igao国产精品| 91色爱欧美精品www| 国产亚洲男人的天堂在线观看| 精品无码日韩国产不卡av| 东京热av无码电影一区二区| 国产精品第一区| 国模私拍一区二区| 99久久精品视香蕉蕉| 欧美亚洲国产日韩电影在线| 亚洲精品国产成人7777| 伊人久久久大香线蕉综合直播| 真人免费一级毛片一区二区| 亚洲 欧美 中文 AⅤ在线视频| 国产91精品调教在线播放| 亚洲美女视频一区| 国产小视频免费观看| 久久综合色天堂av| 播五月综合| 三级毛片在线播放| 久久综合色天堂av| 国产91无毒不卡在线观看| 亚洲精品免费网站| 国产69囗曝护士吞精在线视频| 亚洲二区视频|