999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多元統計方法是否需要對變量進行加權
——以判別分析和聚類分析為例

2021-03-03 02:35:12李子寧
內蒙古統計 2021年6期
關鍵詞:重要性方法

○ 文/ 李子寧

文章以判別分析和聚類分析為例,在理論上證明了對變量加權是否會對結果產生影響,并進行了實證分析。研究結果表明,是否對變量加權不影響判別分析結果,但影響聚類分析結果。這一結論可進一步拓展,即凡是以馬氏距離為基礎的方法不需要對變量進行加權,而以歐氏距離為基礎的方法如果對變量進行加權可以提高分析結果的準確度。

機器學習是一門新興的交叉學科,它既包括一些傳統的多元統計方法,如聚類分析、判別分析、邏輯回歸、因子分析等,也包括一些人工智能方法,如K近鄰法、決策樹、人工神經網絡、支持向量機等。在這些方法中,也許K近鄰法是最簡單的方法,它的基本思想是以K個最近鄰居在因變量取值的平均數作為新樣品的預測值。它又派生出基于變量重要性的加權K近鄰和基于觀測重要性的加權K近鄰。由于其它統計方法都不涉及鄰居,因此基于觀測重要性的加權方法不具有外推性。那么基于變量重要性的加權方法是否具有外推性呢?或者說,我們常用的判別分析、聚類分析等需不需要對變量進行加權呢?文章將對此問題進行理論和實證分析。

一、基于變量重要性加權的基本原理:以K近鄰法為例

(一)變量重要性的確定方法

變量的重要性可以從三個方面進行考察,一是從變量本身考察,二是從解釋變量與被預測變量的相關性角度考察,三是從預測誤差角度考察[1]。

從變量自身來考察,變異程度最大的變量重要性更強,如果一個變量是常數,沒有什么變異,則這個變量對預測是沒有意義的。對數值型變量來說,衡量變異性的常用指標是方差、標準差和變異系數,由于方差和標準差受計量單位的影響,在衡量變量重要性時并不適用,通常采用變異系數,即變異系數越大的變量越重要。對于類別變量,如果各個類別值的取值比例相當,則這個變量越重要;如果某個類別的取值比例越大,則這個變量越不重要。以二分類變量為例,如果兩個類別的取值比例均為0.5,此時這個類別變量的方差取最大值0.25;而如果一個類別所占比例為0.9,另一個類別所占比例為0.1,此時這個類別變量的方差僅為0.09。

從解釋變量與被預測變量的相關性角度來考察,又可以分成三種情況。第一種情況是解釋變量與被預測變量均為類別變量。衡量類別變量間相關與否的統計量為卡方統計量,卡方統計量越大,類別變量間的相關程度就越大,因此卡方越大的變量或p值越小的變量越重要。第二種情況是解釋變量與被解釋變量均為連續變量。連續變量相關與否的統計量為相關系數,相關系數越大,變量間的相關性越強;當然前提是相關系數必須是顯著的,這可以通過t統計量進行檢驗。第三種情況是解釋變量和被預測變量分屬不同類別,具體包括兩類:解釋變量是類別變量,被預測變量是連續變量;解釋變量是連續變量,被預測變量是類別變量。無論是兩種情況中的哪一種,均采用方差分析的方法,即計算F統計量,F統計量越大,表明變量之間相關性越強。

從預測誤差角度來考察,通常與建模策略有關。建模策略有兩種,一是 “從一般到具體”建模策略,二是 “從具體到一般”建模策略。若采用“從一般到具體”建模策略,首先將全部變量加入模型,然后分別去掉一個解釋變量,建立K個K-1元模型,在這K個K-1元模型中,哪個模型的預測誤差最大,說明該模型所不包含的那個變量重要性越大。若采用“從具體到一般”建模策略,則可直接比較K個一元模型,哪個模型的擬合程度越好(即誤差越小),即說明哪個變量的重要性越大。一般認為,“從一般到具體”建模策略更好,因為“從具體到一般”建模策略可能會造成遺漏變量問題。

(二)變量權重的確定方法

根據變量重要性的確定方法,令第i個解釋變量的權重為wi,它是解釋變量重要性的函數,可定義為:

其中FIi為解釋變量重要性,從機器學習角度又被稱為特征重要性,它以輸入變量對預測誤差的影響定義。假定有K個輸入變量,x1,x2,…,xk,剔除第i個變量,計算輸入變量為x1,x2,…,xi-1,xi+1,…,xk下,K近鄰法的錯判概率,記作ei。若第i個變量對預測有重要作用,剔除該變量后的預測誤差將比較大。因此第i個變量的重要性定義為因此不論從哪個角度來考察,變量越重要,在計算距離時其權重越大。

由于K近鄰法采用歐氏距離測度近鄰觀測,則加權的歐氏距離為:

(三)使用K近鄰法進行預測

對于二分類預測問題,如果有超過半數的近鄰類別值為1,則預測值為1類,否則預測值為0類。對于多分類預測問題,預測值為眾數。對于回歸預測問題,預測值是K個近鄰在被預測變量上的平均值。

二、判別分析是否需要對變量進行加權

判別分析是指在已知研究對象分成若干組的情況下,判斷新的樣品應歸屬的組別。在判別分析中,最直觀的判別方法就是距離判別,即計算新樣品到各組的距離,新樣品距離哪組最近,就被判為哪一組。

(一)兩組距離判別

設組π1和π2的均值分別為μ1和μ2,協方差矩陣分別為∑1和∑2,x是一個新樣品,現判斷它來自哪一組。

若不對變量進行加權,計算x到兩個組的距離d2(x,π1)和d2(x,π2),并按如下的判別規則進行判斷[1]:

1. ∑1=∑2=∑時的判別。若對變量進行加權,設wi為第i個判別變量的權重,則加權后的判別向量為x*=wx,均值向量為wμ,方差協方差矩陣為w∑w′。

經過加權的平方馬氏距離為:

由 于d(x*,π1)=d(x,π1) ,d(x*,π2)=d(x,π2)。所以在兩組距離判別且假定方差陣相等時,對變量加權并不影響判別分析的結果。

因此在兩組距離判別且方差陣不相等時,對變量加權也不影響判別分析的結果。

(二)多組距離判別

設有k個組π1,π2,…,πk,它們的均值分別為μ1μ2,…,μk,協方差矩陣分別是∑1,∑2,…,∑k,x到總體πi的加權平方馬氏距離為:

由于d2(x*,πi) =d2(x,πi) ,所以在多組距離判別下,對變量加權與否不影響判別結果。

三、聚類分析是否需要對變量進行加權

聚類分析是一種無監督學習方法,沒有目標變量,因此聚類分析中一般不采用馬氏距離,而采用歐氏距離。但歐氏距離與各變量的量綱有關,沒有考慮變量間的相關性,也沒有考慮各變量方差的不同[3]。因此對變量是否加權會影響聚類結果。

當不對變量進行加權時,兩個樣品之間的平方歐氏距離為:

當對變量進行加權時,兩個樣品之間的平方歐氏距離為:

通常d2(x,y) ≠d(x*,y*),因此兩種情況下的聚類結果一般不會相同。

因此,變量標準化之后的平方歐氏距離等價于標準化前的平方馬氏距離。所以在進行聚類分析時,如果選擇對變量進行標準化,是否對變量進行加權對聚類分析結果沒有影響。

四、實證分析

(一)對加權和不加權情況下判別分析的驗證

文章以費希爾判別分析的經典例子來驗證對變量加權與否的影響。費希爾于1936年發表的鳶尾花數據包括3種鳶尾花:剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花,每種各抽取一個容量為50的樣本,測量了花萼長、花萼寬、花瓣長、花瓣寬4個變量。

無論采用何種判別方法,都可能會產生誤判。誤判比例的計算通常有四種方法,一是直接用樣本計算判別函數,同時計算誤判比例,這種方法給出的誤判比例通常較低;二是旁置法,即拿出樣本的一部分(通常為70%)作為訓練樣本集構造判別函數,剩余的部分作為測試樣本集計算誤判比例;三是十折交叉驗證法,即將樣本分成十部分,每次取其中的九部分作為訓練樣本集構造判別函數,剩余的一部分作為測試樣本集計算誤判比例,十折交叉驗證要構造十個判別函數;四是刀切法,即每次拿出一個觀測作為測試樣本,其余的觀測作為訓練樣本集構造判別函數。刀切法避免了樣本數據在構造判別函數的同時又被用來對該判別函數進行評價,也幾乎避免了構造判別函數時樣本信息的損失。

文章采用第一種和第四種計算誤判比例的方法。其中表1為未對變量進行加權的距離判別結果,表2為按預測誤差加權的距離判別結果。

表1 未對變量加權的距離判別結果

表2 對變量加權的距離判別結果

表1和表2中,無論直接采用判別函數驗證,還是采用刀切法驗證,是否對變量進行加權的結果完全相同。

(二)對加權和不加權情況下聚類分析的驗證

我們仍然使用費希爾的數據,其中編號1-50屬剛毛鳶尾花,編號51-100屬變色鳶尾花,編號101-150屬弗吉尼亞鳶尾花。聚類變量為花萼長、花萼寬、花瓣長、花瓣寬4個變量,聚類方法采用組間連接法,聚類數目為3類。當未對變量進行加權時,編號1-50仍被分到第一組,編號51-100仍被分到第2組,但編 號100-150中只 有110、112、118、120、122、127、130、131、135、138、140、144被分到第三組,其余38個被錯分到了第二組。當對變量進行加權時,前50個觀測仍被分到第一組,編號51-99被分到第二組,但編號100被分到了第三組;編號101-150中只有14個被錯誤分到了第二組。因此對變量進行加權的聚類分析,其聚類效果好于不對變量進行加權的聚類分析。另外,在變量加權和不加權兩種情況下,如果在聚類分析時選擇對變量進行標準化,則結果完全相同。

五、結論與拓展

從理論和實證分析來看,凡是采用馬氏距離的方法,都不需要對變量進行加權。凡是采用歐氏距離的方法,如果不對變量進行標準化,則是否加權影響分析結果;若對變量進行標準化,歐氏距離等同于馬氏距離,是否加權對分析結果沒影響。

這一結論可以進一步拓展。比如典型判別,其實質是二階段判別,第一階段降維,第二階段采用降維后的主成分進行距離判別。因此典型判別本質上仍是距離判別,由于距離判別采用馬氏距離,是否對變量進行加權并不影響典型判別的結果。對于K近鄰法,如果采用馬氏距離,則不需要對變量進行加權,也就沒有所謂的基于變量加權的K近鄰法;但目前統計軟件都是基于歐氏距離或街區距離,且默認對變量進行標準化,此時對變量是否加權不影響結果;如果不對變量進行標準化,則基于變量加權的K近鄰法和普通的K近鄰法在分析結果上是有差異的。

對于因子分析和主成分分析,其基本原理是對方差矩陣或相關矩陣進行分解。統計軟件一般默認基于相關矩陣進行分析[4],此時是否對變量進行加權不影響結果;但若基于協方差矩陣進行分析,是否對變量加權會影響分析結果。

猜你喜歡
重要性方法
土木工程中建筑節能的重要性簡述
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
學習方法
論七分飽之重要性
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产黄色爱视频| 色综合久久综合网| 亚洲色精品国产一区二区三区| 国产网友愉拍精品视频| 亚洲综合九九| 久久频这里精品99香蕉久网址| 中日韩一区二区三区中文免费视频| 六月婷婷综合| 性视频久久| 日韩精品毛片| 国产aⅴ无码专区亚洲av综合网| 女同久久精品国产99国| 成人在线观看一区| 国产亚洲欧美在线中文bt天堂| 久久夜色撩人精品国产| 精品自窥自偷在线看| 欧美啪啪一区| 99在线观看国产| 欧美日韩一区二区三区四区在线观看 | 久久99精品久久久大学生| 欧美日韩国产高清一区二区三区| 亚洲天堂首页| 国产精品视频观看裸模| 国产高潮流白浆视频| 久久精品这里只有精99品| 久久精品视频亚洲| www.youjizz.com久久| 国产精品成人观看视频国产| 亚洲国产成人精品青青草原| 一级黄色网站在线免费看| 国产电话自拍伊人| 台湾AV国片精品女同性| 午夜福利视频一区| 伊人大杳蕉中文无码| 欧美日韩精品在线播放| 精品夜恋影院亚洲欧洲| 久热这里只有精品6| 综1合AV在线播放| 国产免费a级片| 亚洲综合精品第一页| 噜噜噜久久| 免费国产好深啊好涨好硬视频| 2024av在线无码中文最新| 国内精品小视频在线| 亚洲男人的天堂网| а∨天堂一区中文字幕| 亚洲精品自产拍在线观看APP| 国产无码精品在线| 亚洲欧洲日本在线| 一本大道无码日韩精品影视| 欧美第二区| 亚洲人成网址| 久久精品亚洲热综合一区二区| 亚洲av无码片一区二区三区| av尤物免费在线观看| 精品国产aⅴ一区二区三区| 污视频日本| 国产成人永久免费视频| 四虎国产在线观看| 日韩国产一区二区三区无码| 综合网久久| 99re精彩视频| 亚洲天堂精品在线| 四虎永久在线| 99久久精品久久久久久婷婷| 国产欧美日韩另类精彩视频| 亚洲欧美国产视频| 亚洲第一页在线观看| jijzzizz老师出水喷水喷出| 国产91精选在线观看| 高清视频一区| 黄色片中文字幕| 香蕉综合在线视频91| 国产日本欧美亚洲精品视| 91网站国产| 亚洲精品无码专区在线观看 | 999国产精品永久免费视频精品久久 | 午夜色综合| 伊人久久久大香线蕉综合直播| 亚洲成在人线av品善网好看| 久久久亚洲国产美女国产盗摄| 国产爽爽视频|