999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

回歸建模的基礎與要領(Ⅲ)
——變量狀態與相互間關系

2019-01-16 11:41:18胡良平
四川精神衛生 2018年6期
關鍵詞:分析模型

胡良平

(1.軍事科學院研究生院,北京 100850;2.世界中醫藥學會聯合會臨床科研統計學專業委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)

1 概 述

回歸分析是研究因變量如何依賴自變量變化而變化的規律的重要統計分析方法之一,然而,回歸分析的基本要素涉及兩個方面,其一,變量狀態及相互間關系;其二,樣品(測定變量取值的對象)狀態及相互間關系。因篇幅所限,本文僅討論前述的“第一個要素”。

2 變量狀態

2.1 因變量狀態

一般來說,可將因變量分為四種狀態,即計量的、計數的、有序的(也被稱為等級的)和定性的;事實上,在實際應用中,還有一種狀態,即“相異性”或“相似性”大小的度量,被稱為“非度量型數據”[1]。例如,度量100種汽車彼此兩兩之間的相似程度,可以定義一些“數字”來表示任何兩輛汽車之間的相似程度,但它們可能僅代表一種“相似程度”上的“順序關系”,并不代表“數量大小”上的“順序關系”;再比如:現有50種不同風味的菜肴,讓10位鑒賞家品嘗,每位鑒賞家給每種菜肴評一個分,這個“分”就被稱為“偏好得分”。各鑒賞家所評出的“偏好得分”之間是不可比的。顯然,“非度量型變量”不適合用作回歸分析中的“因變量”,但可用于“非度量型多維尺度分析”[1]或“結合分析”[2]之中。

2.2 自變量狀態

自變量狀態也有“計量的、計數的、有序的和定性的”四種,但從回歸模型構建與求解的“最初理論和方法”中可隱約體察到:統計學的先驅者們默認自變量都是“計量的”。不知從何時開始,統計學上接受了“定性的自變量”,并將“二值定性自變量”賦予兩個不等的數值(通常分別取0與1),而將具有k水平的多值名義變量改造成彼此有一定聯系的(k-1)個“啞變量”(因為它們都以同一個“水平”為基準)。嚴格地說,這(k-1)個啞變量應當同時進入或剔除回歸模型,因為每一個啞變量都只利用了全部數據集中一部分“樣品或觀測”。具體來說,就是基準水平組的樣品和其對比組的樣品。

3 自變量間相互關系

3.1 自變量間相互獨立

經典統計學的回歸分析要求:自變量間應相互獨立。然而,在解決實際問題時,存在兩方面的困難:第一,如何方便快捷地證明給定資料中的自變量間是相互獨立的;第二,若基于專業知識和/或統計學知識,得知某些自變量間并非相互獨立,如何合理處置?

3.2 自變量間有線性關系

3.2.1 自變量間有線性關系及共線性診斷

如何發現自變量間存在線性關系呢?這在統計學上被稱為“共線性診斷”。很多通用統計軟件都有這方面的功能,例如:SAS軟件的REG過程中,可用“條件數和方差分量”和/或“方差膨脹因子或容許度”[2]來實現共線性診斷。

3.2.2 如何消除共線性的影響

一般來說,當自變量間存在多重共線性時,先通過自變量篩選,可以淘汰出一些自變量,再對保留在回歸模型中的全部自變量進行共線性診斷。若此時自變量間仍存在共線性,可采取以下兩種方法消除共線性的影響:其一,采用主成分回歸分析法,即先對全部自變量進行主成分分析,再以全部主成分變量(它們之間互相獨立)為“新自變量”,創建因變量Y依賴新自變量的回歸模型;其二,直接采用嶺回歸分析法構建多重線性回歸模型。采用前述兩種方法對同一個資料構建多重線性回歸模型,發現嶺回歸分析優于主成分回歸分析。因為主成分回歸分析不能克服某些回歸系數的正負號違反專業知識的弊端,而嶺回歸分析很好地解決了這個問題[3-4]。

3.2.3 自變量間有非線性關系

到目前為止,在進行多重回歸分析時,建模者很少考慮“自變量間有非線性關系”的問題。由基本常識可知,既然自變量間有“共線性關系”,那就可能存在“共非線性關系”。只是從統計學角度來看這種情況非常難以駕馭,故迄今為止,似乎尚無現成的統計模型能處理此問題。這也足以說明統計學遠未達到盡善盡美的程度。

4 自變量與因變量間的關系

4.1 自變量與因變量間無任何數量關系

在對資料進行回歸建模之前,人們賦予資料一個“隱含假定”:自變量與因變量間存在數量聯系。至于這種聯系的密切程度是很弱、少許、中等、較強還是很強,取決于不同的自變量及因變量在全部觀測對象上的取值或表現,需要借助統計學上的假設檢驗來作出推斷。然而,在實際問題中,確有一些自變量與因變量間沒有任何關系,此時,經過假設檢驗或許還能得出:這些自變量對預測因變量的值具有統計學意義!如何才能發現這種“無中生有”的錯誤結論?

在SAS/STAT 9.3中有一個“試驗性過程”叫做“ADAPTIVEREG”,它的含義是“適應性回歸分析過程”。該過程的“初衷”是能根據自變量與因變量的“數量表現”,靈活且有針對性地度量出各自變量對因變量影響的“重要性”,從而發現那些與因變量無關的“自變量”。然而,令人失望的是:人為設定一些與因變量無關的自變量,采用前述提及的“ADAPTIVEREG”過程建模,仍然找出了幾個“重要的自變量”。SAS程序和計算結果如下:

data artificial;

drop i;

arrayX{10};

doi=1 to 400;

doj=1 to 10;

X{j}=ranuni(1);

end;

Y=40*exp(8*((x1-0.5)**2+(x2-0.5)**2))/

(exp(8*((x1-0.2)**2+(x2-0.7)**2))+

exp(8*((x1-0.7)**2+(x2-0.2)**2)))+rannor(1);

output;

end;

run;

proc corr data=artificial;

vary;

withx3-x10;

run;

proc adaptivereg data=artificial;

modely=x3-x10;

run;

【SAS程序說明】

在SAS數據步中,創建了10個自變量x1~x10,將它們放入一個數組“X{ }”中,它們的取值為服從均勻分布的“隨機數”;創建了一個因變量y,它是“x1”與“x2”的曲線函數,其函數的表達式見下面的式(1):

(1)

共有400個觀測值,即樣本含量為400。也就是說,y僅與“x1”和“x2”有曲線關系,而與“x3~x10”無關。

在第1個SAS過程步中,進行y與“x3~x10”之間的Pearson相關分析;在第2個SAS過程步中,由“model語句”可知,試圖創建y依賴“x3~x10”的多重線性回歸模型。

【SAS主要輸出結果】

Pearson相關系數,N=400 Prob>|r| under H0: Rho=0xyx30.004030.9360x40.079570.1121x50.021070.6744x6-0.001010.9839x7-0.015010.7648x80.063330.2063x90.020170.6876x10-0.031560.5291

“x3~x10”后面均有兩行計算結果,上行代表“Pearson相關系數”、下行代表“對應的P值”。以上結果表明,y與“x3~x10”中的任何一個之間的Pearson相關系數都很小,假設檢驗的結果均無統計學意義,也就是說,y與“x3~x10”之間的任何一個都是互相獨立的。

變量重要性變量基數重要性(%)x36100.00x4260.87x7242.66x8116.58

此結果表明:在8個與因變量無關的自變量中,找出了4個比較重要的自變量,其中,x3與x4對因變量y影響的重要性分別為100.00%與60.87%。顯然,這個結論是錯誤的!若采用SAS/STAT中的“REG過程”并分別借助逐步法、后退法和前進法“篩選自變量”,其SAS過程步程序如下:

proc reg data=artificial;

modely=x3-x10/selection=stepwise sle=0.9 sls=0.05;

run;

proc reg data=artificial;

modely=x3-x10/selection=backward sls=0.05;

run;

proc reg data=artificial;

modely=x3-x10/selection=forward sle=0.05;

run;

【SAS輸出結果】

上面三個過程步運行的結果相同,均沒有一個自變量被保留在回歸模型中。這個結果反映了真實的情況。

然而,當人為假定模型中不包含截距項(在前面三個過程步的“model語句”的“/”之后加上一個選項“NOINT”)時,三個過程步運行的結果相同,其最終結果如下:

方差分析源自由度平方和均方F值Pr>F模型45985.050001496.26250127.41<0.0001誤差3964650.41446 11.74347未校正合計40010635變量參數估計值標準誤差II型SSF 值Pr>Fx42.402450.51390256.6570721.86<0.0001x51.779450.50770144.2604712.28 0.0005x81.845100.54490134.6513511.47 0.0008x91.335680.5214177.062896.56 0.0108

據此,可寫出4重線性回歸模型如下:

該4重線性回歸模型的“R2=0.5627”,模型的假設檢驗結果為:F=127.41、P<0.0001,說明此模型具有統計學意義。

顯然,這個結果在統計學上是“相當好的”;然而,它確實嚴重違背了真實情況!

由此可知:當研究者對所研究變量之間的“真實情況”一無所知時,必須依據“基本常識”和“專業知識”作出有一定依據的“假定”,運用統計學的各種技術方法構建多重回歸模型,再回到實踐中去檢驗回歸模型的實用價值。

4.2 自變量與因變量間有間接數量關系

在實際問題中,自變量與因變量間有間接數量關系的情形是最常見的。例如:若以正常成年人“心像面積”為因變量,以其“身高、體重、體重指數、胸圍”為自變量,則后者對前者的影響是“間接的”,而且具有一定的“數量關系”。再例如:若以正常成年人“身體健康指數(假定其存在)”為因變量,以其“血糖生化指標(如空腹血糖、餐后2小時血糖、空腹胰島素、餐后2小時胰島素、糖化血紅蛋白、胰島素抵抗指數、胰島素敏感指數等)”“血脂生化指標(甘油三脂、總膽固醇、低密度脂蛋白膽固醇、高密度脂蛋白膽固醇、載脂蛋白α、載脂蛋白β等)”“肝功能指標(門冬氨酸氨基轉移酶、谷丙冬氨酸氨基轉移酶、谷草/谷丙、γ-谷氨酰轉肽酶、血清總蛋白、白蛋白、球蛋白、白球比、總膽紅素、直接膽紅素、間接膽紅素等)”“腎功能指標(肌酐、尿素氮、尿酸等)”“炎癥因子指標(TNF-α、IL-6、C反應蛋白、MCP-1等)”“脂肪因子指標(瘦素、脂聯素、游離脂肪酸等)”“內毒素”“腸泌肽指標(胰高血糖素樣肽-1和葡萄糖依賴性促胰島素多肽)”“代謝組學檢測指標(胰高血糖素樣肽-1、YY肽等)”“DNA甲基化檢測指標”和“各種基因檢測指標”為自變量,則后者對前者的影響是“間接的”,而且具有一定的“數量關系”。

類似上面的例子,在人體身心、自然界、人與自然之間,只要找出“因變量”,就有大量的“自變量”與其有間接的數量關系。

4.3 自變量與因變量間有直接數量關系

在現實問題中,自變量與因變量間有直接數量關系的情況相對較少。一個最常見的例子如下:若以“藥物種類”“劑量大小”“作用時間”和“給藥途徑”等作為自變量,而以“生物體作出的反應”為“因變量”,則自變量與因變量間存在直接數量關系;再比如,在農業試驗研究中,若以“作物品種”“耕種方式”“土壤成分”“灌溉方式”“降雨量多少”等作為“自變量”,以“作物產量或品質”作為因變量,則自變量與因變量間也有直接數量關系。

5 討論與小結

在研究因變量是否依賴多個自變量變化而變化的規律時,統計學教科書上通常都“理直氣壯”地引導使用者直接構建“多重線性回歸模型”。由基本常識和專業知識可知,在實際問題中,可能某些自變量完全獨立于因變量,也可能某些自變量與因變量間存在著某種復雜的“曲線關系”,更多情況下,人們遺漏了很多“間接或直接”影響因變量的自變量(這正是很多試驗設計質量不高的科研項目存在的“嚴重瑕疵”)。所以,人們最習慣使用的“多重線性回歸分析方法”,只是對變量間關系的一種“理想化、簡單化”處理方法,其結果“僅供參考”。

比較穩妥的做法是:第一,要力爭科研設計無懈可擊(至少要做到:對因變量可能有影響的自變量不會被遺漏);第二,有標準操作規程并按其實施科學研究;第三,有實時精準的質量控制策略并得到嚴格落實;第四,有經得起推敲且系統全面的“統計分析計劃”,單從“統計建?!狈矫鎭碚f,應先對資料進行“探索性分析”,以便對某些變量采取合適的變量變換、引入必要的“派生變量”[3-4]、采取多種可能的“統計模型”擬合資料,從構建的多個高質量回歸模型中,優中選優;然后,將足夠大樣本量的“測試數據集(未參與回歸建模計算)”帶入求得的“最優”回歸模型,考察其“精準程度”。僅當“精準程度”達到專業要求時,才可以使用已構建的回歸模型去解決所研究的實際問題。

猜你喜歡
分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 尤物国产在线| 任我操在线视频| 亚洲区一区| 国产毛片一区| 欧美精品二区| 日本影院一区| 三上悠亚在线精品二区| 熟女成人国产精品视频| 久久伊伊香蕉综合精品| 欧美在线国产| 毛片免费高清免费| 天天做天天爱天天爽综合区| 亚洲天堂日本| 国产va在线观看免费| 五月天在线网站| 青青极品在线| 国产日韩精品欧美一区喷| 最新精品国偷自产在线| 日韩国产黄色网站| 亚洲人成网站色7799在线播放| 十八禁美女裸体网站| 午夜福利在线观看入口| igao国产精品| 国产91特黄特色A级毛片| 午夜日本永久乱码免费播放片| 狠狠色综合久久狠狠色综合| 欧美日韩北条麻妃一区二区| 亚洲美女视频一区| 亚洲欧美日本国产综合在线 | 亚洲区第一页| 激情综合五月网| 国产成人精品午夜视频'| 久久动漫精品| 久久久精品无码一区二区三区| 免费国产福利| a毛片在线播放| 91小视频在线| 亚洲人成影院午夜网站| 伊人国产无码高清视频| 亚洲V日韩V无码一区二区| 亚洲国产一区在线观看| 国产精品久久久久无码网站| 国产swag在线观看| 亚洲欧美综合在线观看| 日本一区高清| 欧美精品一区在线看| 国产尤物在线播放| 97久久精品人人| 大陆国产精品视频| 天天躁夜夜躁狠狠躁图片| 国内精品小视频福利网址| 国产国产人成免费视频77777| 日韩免费成人| 国产在线观看第二页| 成人综合在线观看| 日韩a级毛片| 国产精品国产三级国产专业不| 久久久久国产精品免费免费不卡| 大陆精大陆国产国语精品1024| 精品国产成人av免费| 国产精品综合色区在线观看| 中文字幕在线一区二区在线| 四虎国产精品永久在线网址| 在线观看国产小视频| 91在线日韩在线播放| 亚洲天堂777| AV不卡在线永久免费观看| 午夜精品一区二区蜜桃| 亚洲国产一区在线观看| 永久免费精品视频| 国产精品久久精品| 91人妻日韩人妻无码专区精品| 伊人久久综在合线亚洲2019| 超级碰免费视频91| 日韩不卡免费视频| 精品国产免费观看一区| 在线色国产| 9999在线视频| 久久精品嫩草研究院| 免费看a毛片| 国产在线小视频| 老汉色老汉首页a亚洲|