999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

NCA降維和貝葉斯優化調參對分類模型的改進

2019-08-14 11:41:20王衛星
計算機應用與軟件 2019年8期
關鍵詞:分類優化模型

李 斌 王衛星

(河南科技大學應用工程學院現代教育技術中心 河南 三門峽 472000)

0 引 言

目前對高校貧困生進行判定的方法大都利用數據挖掘技術定量和定性結合。文獻[1]通過能夠面向多值屬性的關聯規則Apriori算法的改進提高了數據挖掘效率,為高校貧困生認定工作提供了有利依據;文獻[2-4]對數據預處理并使用C4.5算法,將知識表示成樹的形式,采用錯誤預測率進行修剪,分別歸納出決策樹,分析并選出其中較優結果,原理簡單且計算快速準確;文獻[5]基于加權約束的決策樹認定方法提高了貧困生認定效率;文獻[6]結合Logistic回歸、Native Bayes和k近鄰三種分類預測模型綜合比較認為k近鄰模型能更好地判別出學生是否是貧困生;文獻[7]在相同的數據集中證明隨機森林算法分類正確率較高。

上述學者針對貧困生判定的研究主要側重于個別分類算法,對算法的計算成本、性能優化缺乏深入分析,評價方式比較單一化。本文認為高校貧困生識別可以在做好反復訓練和評估模型的基礎上,集成多個分類算法,運用NCA對特征參數降維以提升計算性能;引入成本懲罰函數并利用貝葉斯超參數調優對分類模型進行進一步優化,以提升分類模型的預測準確率。

1 分類算法的對比選擇

分類算法旨在構建分類預測的模型,是人工智能、模式識別和數據挖掘領域中重要的數據處理方法[8]。

1.1 分類算法簡述

1.1.1決策樹CART

CART(Classification and Regression tree)分類回歸樹使用基尼指數(Gini),采用二元切分法選擇特征進行訓練數據切割:

決策樹算法的優點是計算復雜度不高,輸出結果易于理解,對中間值的缺失不敏感,缺點是易會產生過擬合問題[9-10]。

1.1.2非線性SVM

SVM支持向量機是將低維空間的輸入數據投放到一個更高維的特征空間,用線性決策邊界分割在低維空間難以區分的正例和負例。在非線性問題上,用內積φ(xi)·φ(xj)代替最優分類面中的點積。

最大化目標函數為:

約束條件:

相應的分類器函數轉化為:

SVM的優點是泛化錯誤率低,計算開銷不大,結果易解釋;缺點是對主要適用于處理二分類問題,參數調節和核函數的選擇敏感,但經過構造可以將多分類問題轉化為二分類問題[11]。

1.1.3k-最近鄰算法

k-最近鄰給每個屬性相等的權重進行基于距離的鄰近比較。常用的鄰近距離是歐幾里德距離,兩個點或樣本X1=(x11,x12,…,x1n)和X2=(x21,x22,…,x2n)的歐幾里德距離為:

(6)

k-最近鄰分類算法的優點是無數據輸入假定、噪聲數據影響不大、精度略高;缺點是計算空間復雜度高。

1.1.4貝葉斯方法

貝葉斯是基于貝葉斯定理與特征條件獨立假設的分類方法,在數據集D中令A1,A2,…,A|A|為用離散值表示的屬性集合,令C為具有|C|個不同值的類別屬性,假設所有屬性都是條件獨立于類別C=cj,數學表示為:

P=(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)=P(A1=ai|C=cj)

從訓練數據中可以直接得到先驗概率P(C=cj)和條件概率P(A1=ai),貝葉斯的分類公式為:

貝葉斯法的優點即使數據較少也可高效處理多類別問題;缺點是對于數據輸入假設條件較為敏感。

1.1.5BP神經網絡

神經網絡是由一個輸入層、若干個隱含層和一個輸出層組成的多層網絡,各層之間的連接方式通過權重值調節。若模型確定訓練誤差的理想輸出是tk,實際輸出是zk,c代表輸出向量的長度,ω代表網絡的所有權值,η是學習速率,那么總誤差表示為:

(8)

基于梯度下降的誤差反向傳播算法BP神經網絡是沿著減小誤差的方向來調整權值:

BP算法對網絡拓撲及初始權重敏感,泛化性能往往不能得到保證,容易陷入局部最小[12-14]。

綜上所述,將幾種典型的機器分類算法的對比總結如表1所示。

表1 幾種分類算法分析比較

續表1

1.2 分類算法的選擇

在機器學習領域里,一方面高度靈活的模型由于擬合了噪聲數據的細微變化易造成過擬合,另一方面簡單的模型可能又需有更多的假設條件。在模型速度、準確性和復雜性之間的權衡本已不易,算法的選擇還取決于要處理的數據的大小和類型以及如何運用從數據中獲得的洞察力,因此不存在一種萬能的算法可以完美解決所有問題。

在對高校貧困生預測判定建模時,需要做好反復訓練和評估模型的準備。既可運行所有算法進行比較,也可從特定分類任務的經驗最佳擬合算法開始。對每個訓練的分類器,要保留驗證數據或反復使用交叉驗證對精確度進行評估,最終嘗試集成多類分類算法克服訓練數據的過擬合。

2 算法模型的改進優化

分類模型的改進優化意味著進一步提高其準確性和預測能力,避免模型無法區分數據和噪聲時過擬合。本文在對分類模型經反復評估初步確定后,對模型的改進優化手段主要采取鄰域向量分析NCA特征降維和貝葉斯超參數調優。

2.1 NCA特征降維

特征降維是向模型添加變量或移除不能改進模型性能的變量,以在數據建模中提供最佳預測能力[15]。特征降維不但可以降低計算成本和存儲要求,還能使預測結果更加精確。

NCA是一種距離測度學習算法。該算法隨機選擇近鄰,通過優化留一法(Leave-one-out, LOO)的交叉檢驗結果來求得馬氏距離中的變換矩陣。在這個過程中完成降維,最后在低維空間對數據完成分類。

數據集X={x1,x2,…,xn}在RD空間內分別具有類標簽c1,c2,…,cn,限定馬氏距離變換矩陣Q=ATA,兩個樣本點之間的馬氏距離定義為:

i,j=1,2,…,n

(10)

樣本點xi隨機選擇一個xj近鄰并繼承其類標簽cj的概率Pij,概率Pij在變化空間中使用歐式距離定義如下:

因為每個數據點都可以選擇為近鄰,因此輸入數據可以繼承所有的類標簽,樣本點xi正確分類的概率為:

(12)

NCA搜索變換矩陣A,目標函數可以理解為要使得正確分類的點數最大化期望,也就等同于最小化類間距離:

(13)

這個無約束優化問題通過共軛梯度法或隨機梯度法求出A,使用微分的變換矩陣:

式中:xij=xi-xj,當A是d×D的非方陣時,經過NCA距離測度學習可以將樣本降到RD空間[16-17]。

實際應用中,由于共軛梯度法通過多次迭代才能得到目標函數最優解,占用內存的同時耗時較大,因此使用等價于共軛梯度的擬牛頓法基礎上的L-BFGS(Limited-memory BFGS)算法進行計算,其中BFGS是四個提出這種擬牛頓法的四個人名的首字母。L-BFGS算法的核心是不再存儲完整的矩陣,而是存儲計算過程中的向量序列,且只利用最新的向量序列,以大幅降低運算成本。

2.2 超參數調優

識別能提供最佳模型的參數集的過程可稱為超參數調優。兩個常用的參數調優方法是網格搜索和貝葉斯優化。雖然網格搜索能徹底搜索參數值組合的有限集,但耗時太長并易遇到維度災難。

貝葉斯參數優化充分利用被測試點忽略的前一個點的信息[18]。它根據先驗分布假設一個搜集函數,使用每次新采樣點去測試目標函數的信息來更新目標函數的先驗分布。然后測試由后驗分布給出的全局最值最可能出現的位置點。貝葉斯優化雖需執行更多的迭代計算以確定下一個采樣點,但可以較少的評估就找到復雜非凸函數的最小值,主要分三個步驟:

(1) 選擇一個先驗函數來表達關于被優化函數的假設。本文選擇使用的高斯過程是一個隨機變量的集合,任意有限個隨機變量都滿足一個聯合高斯分布[9]。若X表示訓練集{x1,x2,…,xt},f表示未知函數值集合{f(x1),f(x2),…,f(xt)},Σ表示k(x,x′)構成的協方差矩陣Ⅱ,θ表示超參數,當存在觀測噪聲且假設噪聲ε滿足獨立同分布的高斯分布p(ε)=N(0,σ2),可以得到邊際似然分布為:

(15)

式中:y表示觀測值集合{y1,y2,…,yt}。

然后選擇采集函數用來從后驗模型構造一個效用函數,來確定下一個采樣點[20-22]。采集函數可以在具有低建模目標函數的點上對采樣進行平衡,并對尚未建模區域進行搜索。

貝葉斯超參數調優的算法步驟如算法1所示。

算法1貝葉斯優化算法

Bayesian optimization:選取n個采樣點作為先驗,假設它們服從高斯分布

1: forn=1,2,…,n,do

2: 根據最大化采集函數α選取下一個采集點xn+1

3: 查詢目標函數以獲得yn+1

4: 整合數據集Dn+1={Dn,(xn+1,yn+1)}

5: 更新概率模型

6: end for

為提高找到最優參數值的機率,并使超參數調優更加高效,使用MATLAB中的貝葉斯優化工具執行超參數調優,同時引入成本函數對錯誤分類進行懲罰。

3 應用實證

高校貧困學生的貧困成因多集中在家庭經濟情況、生活水平、家庭勞動力狀況、在校消費能力水平、消費習慣、學業水平、學習主動力等方面[23]。

本文通過某高校2016-2017年度校園應用服務中積累的數據。首先選擇訓練數據進行分類學習,反復訓練和評估分類模型后選擇合適的分類算法。然后采用NCA特征降維和貝葉斯參數調優對模型進行優化,對某高校的貧困生的精準判定實現預測和評判。

3.1 選擇訓練數據和算法驗證

樣本數據會以各種形式和大小出現,如高校貧困生的真實數據集可能較混亂、不完整且采用格式各異。對高校各個業務子系統中得到的原始數據進行預處理需采用專業數據處理工具和不同的預處理方法。

將從高校各個應用系統中抽取出的數據進行標簽標記、清理無效數據、分類匯總后得到完整的樣本數據共9 909組。這些組樣本數據初步特征值共有21種,其中部分特征來源于學生調查問卷等,并對部分數據進行了離散化處理,如表2所示。

表2 樣本特征值列表

續表2

在MATLAB中將經過初步清噪脫敏后的數據導入,對數據樣本采用k折交叉驗證,k值取5,每次以k-1份作為訓練集,1份作為驗證集。得到驗證集性能后,將5次結果平均作為模型的性能指標,以最大化使用模型訓練的數據量,得到泛化更好的模型。MATLAB中多個分類器的性能比較和分類初始結果如圖1所示。

圖1 多個分類算法的初始比較圖

從圖1中可以看出,訓練樣本明顯地被分為common、poorer和poorest三類灰度程度不同的顏色,其中的“×”為噪聲數據。實證對比算法模型結果,高校貧困生預測最初顯示二次支持向量機(SVM)表現良好,然后是線性支持向量機和決策樹算法。不同分類器的時間消耗和準確率性能比較如表3所示。

表3 不同分類算法的初始性能比較

3.2 運用NCA進行特征降維

在處理高校貧困生涉及的數據集包含大量特征和有限的觀察值時,運用NCA特征選擇技術降維,具體步驟如下:

Step1將訓練數據分成5份,使用CVpartition進行交叉驗證,賦值λ并創建一個數組陣列來存儲損失函數值。

Step2使用每部分中的訓練集,為每個值訓練NCA模型。使用NCA模型計算每部分中相應測試集的分類損失,記錄損失值。

Step3重復所有部分訓練值和λ值,計算得出每個λ值的每個部分的平均損失。繪制平均損失值與λ值之間的關系,找到與最小平均損失對應的最佳λ值。

Step4使用最佳λ值擬合NCA模型,使用計算效率更好的L-BFGS算法去求解目標函數,標準化預測值繪制特征權重。

圖2顯示了在MATLAB中使用鄰域分量分析NCA識別的特征權重結果,圓圈表示對應特征的特征權重。可以看出特征指標1(num_consump)、2(sum_consump)、3(var_consump)、9(income_family)、18(score_mutual)、12(cost_living)、6(weight_average_core)、8(elecNum)、14(indebt)、17(disease_family)、19(tuition_defer)的特征權重值高于相對閾值0.374 6。利用MATLAB中自帶的NCA降維揭示了在貧困生特征中大約一半的特征對模型沒有重要作用。因此,我們可以減少特征數量,從21個減至11個。

圖2 使用鄰域分量分析NCA識別最相關的特征結果

按照NCA降維后的特征選擇,重復前述分類算法,比較不同算法降維后的各項性能參數如表4所示。

表4 不同分類算法NCA降維后性能比較

從表4的幾種分類算法的性能變化值可以明顯看出,NCA降維后,整體預測速度和計算時間變化明顯,特別是線性判別算法因為特征數的大幅減少而性能大幅提升,決策樹分類算法表現優異。

使用單獨的分類算法往往會過度擬合訓練數據,為了克服這種傾向,可以嘗試集成多個分類算法,典型的比如Boosted Trees和Bagged Trees。測試表明這兩種集成分類算法在降維后的準確率仍可以達到99.3%。從上述算法對比中也可以看出,某些算法初始表現很好,改進后表現一般,有的反之。所以可以后退到特征提取階段去尋找其他特征并降維,在機器學習工作流程的不同階段之間反復實驗和對比,尋找最佳模型。

3.3 引入成本函數的超參數調優

在高校貧困生預測分類模型中,單單根據總體精確度分析性能很容易產生誤導,比如未能準確預測實際貧困相比錯誤地將正常情況學生誤判為貧困要造成更大的不公平。圖3所示的初步模型分類結果混淆矩陣,將3%的貧困生誤報為正常學生,而將8%的普通學生分類為貧困和極度貧困。這將造成部分學生的評判結果失真,不需補助的學生得到補助,而急需補助的學生卻失去應有的補助。

圖3 初步模型的混淆矩陣

為了改進分類器,引入成本函數對誤分類進行懲罰,補償數據中較少的“異?!庇^察,并使分類器偏向于較少的錯誤分類異常噪聲,將較高的錯誤分類成本分配給“異?!鳖?。同時利用貝葉斯優化方法對模型參數進行超參數調優。由于Trees的表現優于SVM,本文以生成樹為效果目標,步驟如下:

Step1因為是common、poorer和poorest多分類,首先使用AdaBoostM1和Trees模型5倍交叉驗證分類,指定每個Trees最多被分割5次。然后對“common”的誤分類分配一個高成本值20以進行懲罰,即引入置信度的AdaBoostM2模型進行對比。

Step2在MATLAB中選用Bayseopt工具箱[24],使用fitcensemble找到使交叉驗證損失最小化5倍的超參數,設置隨機種子值并使用“expected-improvement-plus”采集函數確定下一個要評估的點,并在置信區域內進行探索。為了重復并可視化,將它們傳遞到OptimizeHyperparameters名稱-值對中,需要優化的參數默認為KernelScale和BoxConstraint。

Step3傳遞參數作為優化超參數的值后命令行中會出現迭代顯示,超參數調優結果如圖4所示,目標函數為回歸的log(1+交叉驗證損失)和分類的誤分類率。進行迭代以優化超參數、最小化分類器的交叉驗證損失,使用經過優化超參數訓練的模型預測驗證集的類標簽,可以看出經過迭代后泛化能力擬合。圖4中的稍小圓點表明目標點,稍大圓點標明采集函數值最大的位置并以此作為下一個采集點。最佳估計可行點是根據最新模型估計均值最低的采集點,最佳觀測可行點是目標函數評價返回值最低的采集點。

圖4 超參數調優迭代過程和結果

表5說明了采用集成分類AdaBoostM2經過貝葉斯超參數調優后最佳估計可行點和最佳觀測可行點的比較結果。可以看出準確率由93.45%提升到了97.49%,函數計算時間成本約降低了14 s,優化效果明顯。

表5 超參數調優后最佳估計可行點和最佳觀測可行點比較

Step4利用MATLAB中的混淆矩陣生成函數Confusion Matrix和熱圖生成函數Heatmap將經過訓練的模型預測驗證集的類標簽,生成優化后的多分類混淆矩陣并可視化,如圖5所示。

圖5 模型優化后的多分類標簽混淆矩陣

從優化后的多分類標簽混淆矩陣可以看出,經過NCA降維后引入成本函數懲罰并用貝葉斯超參數優化后的模型將初步模型8%的普通學生分類為貧困和極度貧困誤報率減少到5%,模型的準確率明顯提升,達到了優化效果。

4 結 語

高校貧困生預測判定建模運行了多種算法訓練分類器,單獨的分類算法會過度擬合訓練數據,而且沒有一種算法是萬能最優,反復訓練試錯才是選擇最佳算法的前提。對比算法模型結果,二次支持向量機(SVM)、線性支持向量機和決策樹算法表現略優。使用NCA方法降維后,整體預測速度和計算時間變化明顯,決策樹分類算法表現優異。集成分類算法Boosted Trees和Bagged是提升泛化能力的合理有效選擇。

在初始模型上保留驗證數據,使用AdaBoostM1和Trees模型k折交叉驗證反復評估,與引入成本函數權重值調整的AdaBoostM2模型經貝葉斯超參數調優后對比。高校貧困生預測判定AdaBoostM2模型的準確率提升了近4%,計算時間成本降低了14 s,誤判率由初始的8%改進到5%,說明優化改進后的算法模型的泛化能力得到了一定的改進。

猜你喜歡
分類優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
分類算一算
一道優化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
主站蜘蛛池模板: 国产美女无遮挡免费视频| 综合网天天| 99热国产在线精品99| 婷婷伊人五月| 91在线激情在线观看| 国产精品浪潮Av| 国产一级裸网站| 极品av一区二区| 国产一区免费在线观看| 欧美日韩国产成人高清视频| 美女无遮挡拍拍拍免费视频| 亚洲无码91视频| AV无码一区二区三区四区| 欧美日韩国产在线播放| 九九热视频精品在线| 国产区在线观看视频| 久久亚洲精少妇毛片午夜无码| 国产视频入口| 九九热精品视频在线| 亚洲黄色成人| 日韩欧美中文亚洲高清在线| 一本无码在线观看| 欧美一区二区三区香蕉视| 91久久国产成人免费观看| 免费啪啪网址| 日本一区中文字幕最新在线| 亚洲第一区在线| 真人免费一级毛片一区二区| 欧美国产综合色视频| 九九精品在线观看| 最近最新中文字幕在线第一页| 欧美日韩中文国产| 中文无码精品a∨在线观看| 亚洲无码日韩一区| 伊人激情久久综合中文字幕| 成人精品午夜福利在线播放 | 精品久久国产综合精麻豆| 97视频免费在线观看| 91精品在线视频观看| 国产女人18毛片水真多1| 精品国产自在现线看久久| 偷拍久久网| 99这里只有精品6| 国产精品一老牛影视频| 老汉色老汉首页a亚洲| 亚洲中文精品人人永久免费| 黄色污网站在线观看| 青青草原国产免费av观看| 欧美.成人.综合在线| 国产一二视频| 国产精品尹人在线观看| 欧美精品高清| 欧美激情视频一区二区三区免费| 综合五月天网| 免费啪啪网址| 久久亚洲国产一区二区| 99re这里只有国产中文精品国产精品| 久久综合伊人77777| 九九九精品视频| 久久久久人妻精品一区三寸蜜桃| 美女一区二区在线观看| 免费福利视频网站| 天天躁夜夜躁狠狠躁躁88| 91偷拍一区| 在线亚洲精品自拍| 国产欧美在线观看视频| 欧美一区二区丝袜高跟鞋| 爱色欧美亚洲综合图区| 91精品国产一区自在线拍| 色久综合在线| 欧美精品v日韩精品v国产精品| 成人免费黄色小视频| 国产二级毛片| 五月激情婷婷综合| 2020精品极品国产色在线观看| 久久久91人妻无码精品蜜桃HD| 国产香蕉一区二区在线网站| 色天堂无毒不卡| 亚洲黄色激情网站| 成人va亚洲va欧美天堂| 国产精品香蕉在线| 成人无码一区二区三区视频在线观看|