999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于偏正態(tài)數(shù)據(jù)下位置、均值回歸模型的參數(shù)估計(jì)

2021-06-30 00:08:02王丹璐吳劉倉鄭桂芬
應(yīng)用數(shù)學(xué) 2021年3期
關(guān)鍵詞:糖尿病模型

王丹璐,吳劉倉,鄭桂芬

(昆明理工大學(xué)理學(xué)院,云南昆明650504)

1.引言

生活中常見的統(tǒng)計(jì)分布可分為兩類:對(duì)稱分布和偏態(tài)分布.我們所學(xué)的大部分分布如正態(tài)分布、t分布、Laplace分布等都屬于對(duì)稱分布,故對(duì)稱分布在統(tǒng)計(jì)理論與方法的研究中占有重要地位.但是現(xiàn)實(shí)生活中收集到的大部分?jǐn)?shù)據(jù)都不具有嚴(yán)格的對(duì)稱性,幾乎都存在偏斜,這時(shí)再用對(duì)稱分布描述數(shù)據(jù)的性質(zhì)并不科學(xué),所以引入了偏態(tài)分布來解決這一問題.偏態(tài)分布具有偏斜、尖峰、厚尾的特征,由于偏態(tài)分布比對(duì)稱分布更能捕捉到全面準(zhǔn)確、及時(shí)有效的信息,所以近年來偏態(tài)分布引起了許多學(xué)者的研究興趣,如鄭等[1]研究了基于偏Laplace正態(tài)數(shù)據(jù)下的位置、均值回歸模型的參數(shù)估計(jì),朱等[2]研究了偏t正態(tài)數(shù)據(jù)下混合線性聯(lián)合位置與尺度模型的參數(shù)估計(jì).此外,由于偏態(tài)分布在數(shù)據(jù)擬合運(yùn)用方面更廣闊,所以在農(nóng)業(yè)、環(huán)境、生物醫(yī)學(xué)應(yīng)用及金融經(jīng)濟(jì)等領(lǐng)域也有很多研究意義.

偏正態(tài)分布作為正態(tài)分布的推廣,不僅具有正態(tài)分布的良好統(tǒng)計(jì)特性,同時(shí)也有具有偏態(tài)分布的特征,適用性更廣泛,所以國(guó)內(nèi)外許多學(xué)者研究了偏正態(tài)分布問題.自Azzalini[3]首次定義了偏正態(tài)分布的概念,隨后關(guān)于它的性質(zhì)、參數(shù)估計(jì)、統(tǒng)計(jì)診斷、推廣以及多元偏正態(tài)分布已經(jīng)被系統(tǒng)深入地研究.本文中我們使用的是Sahu等[4]提出的多元偏正態(tài)分布的單變量形式,該偏態(tài)分布是基于偏橢圓分布變換而來的,相比Azzalini提出的偏正態(tài)分布該函數(shù)更具有吸引力,因?yàn)樵摲植紝?duì)于偏度參數(shù)的刻畫較簡(jiǎn)單,使用EM算法更容易實(shí)現(xiàn).在Sahu提出的偏正態(tài)分布模型中已有部分研究,比如Cancho等[5]在經(jīng)典的貝葉斯方法的基礎(chǔ)上,對(duì)偏正態(tài)非線性回歸模型進(jìn)行了深入的探討;Bolfarine等[6]提出了多元偏正態(tài)線性模型的四種診斷措施;Lachos等[7]在多元偏正態(tài)回歸模型基于極大似然估計(jì)的EM算法,研究了多元偏正態(tài)回歸模型的參數(shù)估計(jì);Arellano-Valle等[8]研究了偏正態(tài)混合線性模型;Arellano-Valle等[9]研究了其貝葉斯推斷.

目前的對(duì)于該偏正態(tài)分布中,并沒有對(duì)位置和均值建模的內(nèi)容,但考慮到位置和均值在偏態(tài)分布中的重要地位,所以本文詳細(xì)介紹了利用EM算法和梯度下降法對(duì)位置回歸模型和均值回歸模型的參數(shù)估計(jì),并通過模擬和實(shí)例結(jié)果表明本文提出的模型是可行的.

本文的目的是討論偏正態(tài)位置、均值回歸模型的參數(shù)估計(jì),全文結(jié)構(gòu)安排如下:第二部分介紹了偏正態(tài)分布的部分性質(zhì);第三部分分別介紹了偏正態(tài)分布下位置和均值回歸模型;第四部分利用梯度下降法和EM算法分別對(duì)位置和均值回歸模型的參數(shù)進(jìn)行了估計(jì);第五部分通過Monte Carlo模擬證實(shí)本文提出方法的有效性;第六部分通過實(shí)例分析并且和多元線性回歸模型比較,表明本文研究的模型和方法是科學(xué)合理的.

2.偏正態(tài)分布

根據(jù)Sahu(2003)等提出偏正態(tài)函數(shù),若隨機(jī)變量Y服從偏正態(tài)分布,那么它的概率密度函數(shù)(pdf)記做:

其中φ(·|a,b2)和Φ(·|a,b2)分別表示N(a,b2)的密度函數(shù)(pdf)和分布函數(shù)(cdf),記做Y~SN(μ,σ2,λ),其中μ為位置參數(shù),σ2為尺度參數(shù),λ為偏度參數(shù).當(dāng)λ<0時(shí),曲線較長(zhǎng)的尾部在左邊,稱作負(fù)偏分布;當(dāng)λ>0時(shí),曲線較長(zhǎng)的尾部在右邊,稱作正偏分布;當(dāng)λ=0時(shí),偏正態(tài)分布重新退化為對(duì)稱的正態(tài)分布.

I偏正態(tài)分布下的隨機(jī)表示

設(shè)X0~N(0,1),X1~N(μ,σ2),是兩個(gè)獨(dú)立隨機(jī)變量,則隨機(jī)變量Y~SN(μ,σ2,λ)的隨機(jī)表示為

從而得到偏正態(tài)分布的層次表示

即該偏正態(tài)分布可以分層為一個(gè)條件正態(tài)分布Y|(T=t)和一個(gè)半正態(tài)分布因此(Y,T)的聯(lián)合密度函數(shù)為

根據(jù)貝葉斯準(zhǔn)則有

3.位置和均值回歸模型

I位置回歸模型

由偏正態(tài)分布的概率密度函數(shù)(2.1)和位置回歸參數(shù)模型(3.1)可以得到

其中yi為第i個(gè)響應(yīng)變量,位置參數(shù)為μi,尺度參數(shù)為σ2,偏度參數(shù)為λ,xi=(xi1,xi2,···,xip)T為解釋變量,β=(β1,β2,···,βp)T為p×1維的位置回歸模型的未知參數(shù).

II均值回歸模型

其中α=(α1,α2,···,αp)T為p×1維的均值回歸模型的未知參數(shù).

因?yàn)橛袧撟兞康拇嬖冢岳闷胀O大似然估計(jì)方法對(duì)參數(shù)估計(jì)比較困難,故我們使用基于梯度下降法的EM算法來解決含有潛變量問題的參數(shù)估計(jì).接下來研究模型參數(shù)的極大似然估計(jì)的EM算法.

4.極大似然估計(jì)的EM算法和梯度下降法

自Dempster等[10]提出EM算法(Expectation Maximization Algorithm)來處理不完全數(shù)據(jù)以來,EM算法及其擴(kuò)展應(yīng)用已經(jīng)被廣泛的研究和應(yīng)用到各個(gè)領(lǐng)域.EM算法是一種常用的迭代算法,每一次迭代由兩部分組成:E-step,M-step.E-step是根據(jù)參數(shù)初始值或上一次迭代所得到的結(jié)果來計(jì)算出對(duì)數(shù)似然函數(shù)的期望值;M-step是通過E-step計(jì)算得到的對(duì)數(shù)似然函數(shù)的期望值,求出該似然函數(shù)的最大的參數(shù)值,記為新的參數(shù)值,用該參數(shù)值代替初始值或上一次迭代所得到的結(jié)果使得對(duì)數(shù)似然函數(shù)最大化.E-step和M-step兩步不斷交替計(jì)算,直到滿足收斂條件時(shí)停止迭代,從而得到的參數(shù)估計(jì)值更加的逼近真實(shí)的參數(shù)值.

下面給出EM算法在偏正態(tài)數(shù)據(jù)下位置回歸模型和均值回歸模型的參數(shù)估計(jì)中的具體計(jì)算步驟:

I位置回歸模型下極大似然估計(jì)的EM算法

由(3.2)式可得偏正態(tài)數(shù)據(jù)下位置回歸模型的似然函數(shù)為

令θ1=(βT,σ2,λ)T,則L(βT,σ2,λ)=L(θ1),兩邊取自然對(duì)數(shù),得到對(duì)數(shù)似然函數(shù)

設(shè)T為潛變量,利用位置回歸模型和偏正態(tài)分布的層次表達(dá)法得

其中c1為獨(dú)立于θ1的常數(shù).同時(shí),因?yàn)樵撍迫缓瘮?shù)是單峰可導(dǎo)的,則似然方程的解存在唯一,且為極大似然估計(jì),因而是強(qiáng)相合的.為了得到θ1的極大似然估計(jì),將(4.3)式極大化,但此時(shí)極大化得到的估計(jì)依賴于潛變量.因此,為了處理潛變量,引入EM算法,使用觀測(cè)數(shù)據(jù)yi求出完全數(shù)據(jù)下對(duì)數(shù)似然函數(shù)的條件期望.

E-step:利用k次迭代,得到估計(jì)

利用(2.5)和(2.6)式給出的條件期望,可以計(jì)算出(4.4)式中的條件期望E和有

M-step:兩步長(zhǎng)梯度法在構(gòu)造搜索方向時(shí),充分利用上次迭代點(diǎn)信息,使計(jì)算不易陷入局部最大值的陷阱,故結(jié)合梯度下降法[11]將對(duì)數(shù)似然函數(shù)極大化,獲取新的參數(shù)值,給出兩個(gè)初值設(shè)計(jì)以下迭代

其中

利用(4.7)式給出的目標(biāo)函數(shù),得到位置參數(shù)的Score函數(shù)為

利用梯度下降法將E-step和M-step反復(fù)迭代,直至算法收斂.

II均值回歸模型下極大似然估計(jì)的EM算法

令θ2=(αT,σ2,λ)T,則L(αT,σ2,λ)=L(θ2),兩邊取自然對(duì)數(shù),得到對(duì)數(shù)似然函數(shù)

利用均值回歸模型和偏正態(tài)分布的層次表達(dá)法得

用層次表達(dá)法得到完全數(shù)據(jù)下的對(duì)數(shù)似然函數(shù)為

其中c2為獨(dú)立于θ2的常數(shù).

E-step:利用k次迭代,得到估計(jì):

利用(2.5)和(2.6)式給出的條件期望,可以計(jì)算出(4.10)的條件期望和有

皮膚表面脂質(zhì)是由甘油三酯、蠟酯、角鯊烯、脂肪酸以及少量膽固醇、膽固醇酯和雙甘酯組成的非極性脂類混合物[14],其中角鯊烯具有高度的不飽和性,在UV誘導(dǎo)下,角鯊烯脂質(zhì)過氧化形成角鯊烯過氧化物(SQOOH)以及丙二醛(MDA)[15],增加羰基化反應(yīng)、糖基化反應(yīng),從而導(dǎo)致皮膚泛黃。

M-step:利用梯度下降法將對(duì)數(shù)似然函數(shù)極大化,獲取新的參數(shù)值,給出兩個(gè)初值設(shè)計(jì)以下迭代

其中

利用(4.14)式給出的目標(biāo)函數(shù),得到均值參數(shù)的Score函數(shù)為

利用梯度下降法將E-step和M-step反復(fù)迭代,直至算法收斂.

III極大似然估計(jì)的漸近性質(zhì)

同時(shí)考慮該極大似然估計(jì)的漸近正態(tài)性,取θ0為θ的真值,假定以下正則條件

(i)xi=(xi1,xi2,···,xip)T是固定的;

(ii)參數(shù)空間是緊的,真值θ0為參數(shù)空間的內(nèi)點(diǎn);

(iii)yi,i=1,2,···,n相互獨(dú)立,Y~SN(μ,σ2,λ),其中在位置回歸下的極大似然估計(jì)時(shí),;在均值回歸下的極大似然估計(jì)時(shí),.

在假定(i)-(iii)之下,似然方程L(θ)=0在L(1)(θ)=0在n→+∞時(shí)有相合解滿足且似然方程任一相合解必為θn的BAN估計(jì).

5.Monte Carlo模擬

I位置回歸模型下的Monte Carlo模擬

為評(píng)價(jià)上述位置回歸模型參數(shù)估計(jì)方法的有效性,使用該位置回歸模型參數(shù)估計(jì)方法對(duì)有限樣本進(jìn)行Monte Carlo模擬,并用均方誤差(MSE)、偏差(Bias)來評(píng)價(jià)該參數(shù)估計(jì)的精確度,其定義如下

其中θ1=(βT,σ2,λ),θ1(0)是參數(shù)θ1的真值.根據(jù)模型(3.1),考慮偏正態(tài)數(shù)據(jù)下位置參數(shù)的回歸模型.

根據(jù)模型(5.1)產(chǎn)生模擬數(shù)據(jù),其中解釋變量x的分量獨(dú)立產(chǎn)生于均勻分布U(-1,1),其余參數(shù)的真值設(shè)定為-2.

II均值回歸模型下的Monte Carlo模擬

為評(píng)價(jià)上述均值回歸模型參數(shù)估計(jì)方法的有效性,使用該位置均值模型參數(shù)估計(jì)方法對(duì)有限樣本進(jìn)行Monte Carlo模擬,并用均方誤差(MSE)、偏差(Bias)來評(píng)價(jià)該參數(shù)估計(jì)的精確度,其定義如下

其中θ2=(αT,σ2,λ),θ2(0)是參數(shù)θ2的真值.根據(jù)模型(3.3),考慮偏正態(tài)數(shù)據(jù)下均值參數(shù)的回歸模型.

分別取樣本量n=100,200,300,400,重復(fù)模擬1000次.模擬結(jié)果見表1,評(píng)價(jià)結(jié)果見表2、表3.

表1 位置、均值回歸模型的參數(shù)估計(jì)模擬結(jié)果

表2 位置回歸模型的參數(shù)估計(jì)評(píng)價(jià)結(jié)果

表3 均值回歸模型的參數(shù)估計(jì)評(píng)價(jià)結(jié)果

從上表可以得到,無論樣本是左偏還是右偏,即參數(shù)λ是負(fù)值還是正值,隨著樣本量n的增大,所有參數(shù)的估計(jì)值越來越接近真值,而且通過估計(jì)量的均方誤差(MSE)和偏差(Bias)的判斷也可以得到當(dāng)樣本量不斷增大,估計(jì)效果越好.以上結(jié)論表明,本文提出的偏正態(tài)數(shù)據(jù)下位置和均值回歸模型及所使用的EM算法對(duì)參數(shù)的極大似然估計(jì)取得了較理想的效果.

6.實(shí)例分析

根據(jù)2017年國(guó)際糖尿病聯(lián)名協(xié)會(huì)公布的一組數(shù)據(jù),目前全球有4.7億糖尿病患者,其中中國(guó)糖尿病患者高達(dá)1.14億,位居世界第一,所以對(duì)糖尿病患者數(shù)據(jù)的研究是必要的.本文選取UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫的一組糖尿病數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)包括了478名糖尿病患者的身體質(zhì)量指數(shù)BMI和其他相關(guān)指標(biāo),該數(shù)據(jù)中包含一個(gè)響應(yīng)變量Y-糖尿病患者BMI,7個(gè)解釋變量X,分別是懷孕次數(shù)、血糖(mmol/L)、血壓(mmHg)、皮質(zhì)厚度(mm)、胰島素(pmol/ml)、糖尿病遺傳函數(shù)、年齡.利用R軟件計(jì)算得y偏度為0.5529,峰度為3.0376,從峰度值和偏度值,可以知道,糖尿病患者的BMI數(shù)據(jù)具有明顯的偏斜,而正態(tài)分布的偏度值為0,峰度值為3,直方圖如下:

圖1 糖尿病患者BMI的直方圖

根據(jù)圖1和偏度系數(shù)說明糖尿病患者的身體質(zhì)量指數(shù)BMI數(shù)據(jù)近似的服從偏正態(tài)分布,所以可以利用該組數(shù)據(jù)做偏正態(tài)分布的位置和均值回歸模型的參數(shù)估計(jì),考慮Y與X之間的模型如下:

同時(shí),我們加入多元線性回歸模型做比較,多元線性回歸模型如下:

糖尿病患者BMI的位置、均值回歸模型參數(shù)估計(jì)和多元線性回歸參數(shù)估計(jì)結(jié)果:

表4 糖尿病患者BMI的位置、均值回歸模型參數(shù)估計(jì)和多元線性回歸參數(shù)估計(jì)結(jié)果

由于在同一組糖尿病患者BMI的數(shù)據(jù)中,尺度參數(shù)和偏度參數(shù)應(yīng)為一致,從表格中分析到,位置回歸模型和均值回歸模型的尺度參數(shù)σ2和偏度參數(shù)λ基本一致,但是多元線性回歸模型的尺度參數(shù)σ2與其他兩個(gè)模型差別較大,并且不存在偏度參數(shù)λ.這是由于使用多元線性回歸模型需要忽略數(shù)據(jù)的偏斜特征.從解釋變量的系數(shù)來看,多元線性回歸模型中的懷孕次數(shù)γ1、血糖γ2、血壓γ3、皮脂厚度γ4、年齡γ7都不顯著,并且系數(shù)值與其余兩個(gè)模型相差過大,胰島素γ5呈現(xiàn)正相關(guān),這都與實(shí)際情況不符.以上,我們可以判斷出該數(shù)據(jù)用多元線性回歸模型做參數(shù)估計(jì)導(dǎo)致估計(jì)效果不合理甚至錯(cuò)誤.這是由于這組數(shù)據(jù)中并不是嚴(yán)格對(duì)稱的,具有一定的偏斜,但多元線性回歸模型針對(duì)的是對(duì)稱分布數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推.所以在數(shù)據(jù)呈現(xiàn)偏正態(tài)情形下,不應(yīng)該再選用多元線性回歸模型做參數(shù)估計(jì),可以選擇本文提出的偏正態(tài)數(shù)據(jù)下的位置回歸模型和均值回歸模型做數(shù)據(jù)分析.

在均值和位置回歸模型中,解釋變量中血糖X2、皮脂厚度X4、糖尿病遺傳函數(shù)X6呈現(xiàn)正相關(guān)且系數(shù)較大,這與實(shí)際情況相符合.血糖升高是判斷是否患糖尿病重要指標(biāo),肥胖是二型糖尿病的主要誘因,并且如果父母患糖尿病那么子女患糖尿病的風(fēng)險(xiǎn)比正常人要高.解釋變量中胰島素X5呈負(fù)相關(guān),這與患有糖尿病的患者缺少胰島素實(shí)際情況相符合.

7.結(jié)論

Monte Carlo模擬表明了本文提出的EM算法對(duì)位置和均值回歸模型的未知參數(shù)進(jìn)行了較好的估計(jì),與現(xiàn)有的模型和常用估計(jì)方法相比較,本文提出的偏正態(tài)數(shù)據(jù)下位置和均值回歸模型具有更好的運(yùn)用性,更適合實(shí)際生活中的偏態(tài)數(shù)據(jù)的研究.除此以外,在實(shí)例分析中,對(duì)糖尿病患者BMI數(shù)據(jù)的應(yīng)用研究也表明了本文提出的模型和方法能更準(zhǔn)確分析解釋數(shù)據(jù),因此表明本文提出的模型和方法是可行的.

猜你喜歡
糖尿病模型
一半模型
糖尿病知識(shí)問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識(shí)問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識(shí)問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識(shí)問答
中老年保健(2021年9期)2021-08-24 03:51:04
糖尿病知識(shí)問答
中老年保健(2021年7期)2021-08-22 07:42:16
糖尿病知識(shí)問答
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 中文字幕在线免费看| 国产精品专区第一页在线观看| 国内精品一区二区在线观看| 亚洲欧美精品在线| 日韩精品无码免费一区二区三区| 亚洲精品无码人妻无码| 国产毛片高清一级国语| 一区二区无码在线视频| 特级aaaaaaaaa毛片免费视频| 久久精品亚洲中文字幕乱码| 国产精品刺激对白在线| 美女国产在线| 免费国产高清精品一区在线| 亚洲国产天堂久久综合| 一边摸一边做爽的视频17国产| 国产无码精品在线| 久久香蕉国产线| 性色生活片在线观看| 亚洲伊人久久精品影院| 波多野结衣在线se| 欧美亚洲综合免费精品高清在线观看| 一级毛片a女人刺激视频免费| 国产福利小视频高清在线观看| 欧美一区二区三区欧美日韩亚洲| 国产a在视频线精品视频下载| 91成人在线观看视频| 爽爽影院十八禁在线观看| av无码久久精品| 国产成人三级| 就去色综合| www.99精品视频在线播放| 97超碰精品成人国产| 国产精品v欧美| 精品视频免费在线| 亚洲精品天堂自在久久77| 狠狠v日韩v欧美v| 免费国产高清精品一区在线| 真人免费一级毛片一区二区| 成年人国产视频| 一级毛片免费高清视频| 91精品免费高清在线| 国产毛片一区| 98超碰在线观看| 日韩a级片视频| 成人综合网址| 六月婷婷激情综合| 国产大全韩国亚洲一区二区三区| 久久精品人人做人人爽| julia中文字幕久久亚洲| 精品一区二区三区无码视频无码| 香蕉久久国产超碰青草| 免费a级毛片视频| 无码aaa视频| 99re精彩视频| 亚洲一区波多野结衣二区三区| 71pao成人国产永久免费视频| 国产成人区在线观看视频| 亚洲第一成年网| 无码福利日韩神码福利片| 又粗又硬又大又爽免费视频播放| 中文字幕av一区二区三区欲色| 狠狠色综合久久狠狠色综合| 亚洲欧美一区二区三区麻豆| 熟妇人妻无乱码中文字幕真矢织江| 幺女国产一级毛片| 亚洲91精品视频| 久久永久免费人妻精品| 日韩第九页| 亚洲精品成人7777在线观看| 九九视频免费在线观看| 国产男女免费视频| 日韩第九页| 97国产在线观看| 夜夜拍夜夜爽| 国产网站一区二区三区| 欧美三级自拍| 国产成人91精品| 色综合日本| 国产日本一区二区三区| 国产呦精品一区二区三区下载| 国产性生大片免费观看性欧美| 欧美色图第一页|