999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于相似度的半監(jiān)督學(xué)習(xí)工業(yè)數(shù)據(jù)分類算法

2021-11-10 09:09:42孫栓柱楊晨琛
關(guān)鍵詞:分類監(jiān)督模型

孫栓柱,陳 廣,高 陽,孫 彬,李 逗,楊晨琛

(1.南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù),南京 210023;2.江蘇方天電力技術(shù)有限公司,南京 211102)

數(shù)據(jù)分類問題是數(shù)據(jù)挖掘領(lǐng)域的典型問題,一個(gè)表現(xiàn)良好的分類模型,往往離不開充分的有監(jiān)督數(shù)據(jù)的支持。然而在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中,受限于數(shù)據(jù)標(biāo)記的難度以及正負(fù)樣本分布比例等一系列問題,含標(biāo)記的有監(jiān)督數(shù)據(jù)往往十分有限,并且這有限的標(biāo)記據(jù)還會(huì)存在類別標(biāo)簽分布不平衡的情況。所以對(duì)于此類數(shù)據(jù),基于其數(shù)據(jù)特點(diǎn),如果將傳統(tǒng)的分類算法應(yīng)用于此類任務(wù)之中,往往會(huì)過擬合于標(biāo)記數(shù)據(jù)中的多數(shù)類,難以識(shí)別出少數(shù)類,從而無法取得讓人滿意的效果。

針對(duì)一組給定的數(shù)據(jù)Data={(X1,Y1),(X2,Y2),…,(Xn,Yn)},從而預(yù)測(cè)一個(gè)離散值的任務(wù)被稱為“分類”,依照輸出分類目標(biāo)類別的不同,分類任務(wù)可以被分為“二分類”與“多分類”。數(shù)據(jù)分類任務(wù)的目標(biāo)便是在于建立輸入空間X到輸出空間Y之間的映射f:X?Y。

數(shù)據(jù)分類任務(wù)往往需要有監(jiān)督數(shù)據(jù)的支撐,有監(jiān)督數(shù)據(jù)質(zhì)量的高低很大程度上影響著模型分類的效果。對(duì)于大多數(shù)常見的公開數(shù)據(jù)集,一般擁有著大量的數(shù)據(jù)標(biāo)記樣本,且樣本在類別上的相對(duì)分布比較均勻。然而在現(xiàn)實(shí)的某一應(yīng)用場(chǎng)景之中,數(shù)據(jù)的質(zhì)量與數(shù)量往往是機(jī)器學(xué)習(xí)任務(wù)所要面臨的第一個(gè)難題,這很大程度上制約了模型的效果。

現(xiàn)實(shí)場(chǎng)景下分類任務(wù)的的數(shù)據(jù)一般包含以下難題:

(1)數(shù)據(jù)的有監(jiān)督信息有限。現(xiàn)實(shí)場(chǎng)景中的機(jī)器學(xué)習(xí)任務(wù),很可能積攢了十分豐富的歷史數(shù)據(jù),然而這些數(shù)據(jù)中包含標(biāo)記的數(shù)據(jù)十分有限,所以從有監(jiān)督學(xué)習(xí)的角度來看,大量數(shù)據(jù)無法構(gòu)造監(jiān)督信息,從而造成模型僅能從有限的數(shù)據(jù)中學(xué)習(xí)特征。

(2)數(shù)據(jù)的類別分布不平衡。在某一領(lǐng)域的數(shù)據(jù)之中,數(shù)據(jù)在類別上的分布可能存在著不平衡的問題。在這樣的數(shù)據(jù)集中,不同標(biāo)簽下的數(shù)據(jù)量之間不成正比,與此同時(shí)在類別間數(shù)據(jù)量的比例上,以一個(gè)二分類任務(wù)而言,負(fù)正樣本之間的比例可能高達(dá)999∶1,這樣的數(shù)據(jù)往往難以實(shí)現(xiàn)對(duì)占比較少的數(shù)據(jù)類別進(jìn)行識(shí)別。

(3)數(shù)據(jù)的標(biāo)記內(nèi)容具有強(qiáng)領(lǐng)域性。現(xiàn)實(shí)中的數(shù)據(jù)標(biāo)注任務(wù)很可能需要領(lǐng)域性很強(qiáng)的專業(yè)知識(shí),貓狗圖片數(shù)據(jù)的標(biāo)注對(duì)于絕大多數(shù)人而言都可勝任,但是利用X 光片判斷病患是否患有癌癥,卻只有受訓(xùn)多年的腫瘤內(nèi)科醫(yī)生才能勝任。此類數(shù)據(jù)標(biāo)注的強(qiáng)領(lǐng)域性,制約了該類任務(wù)只能在小樣本的數(shù)據(jù)上展開工作,從而限制了模型分類的效果。

本文主要討論一種基于相似度的半監(jiān)督分類算法,主要針對(duì)有監(jiān)督標(biāo)記數(shù)據(jù)有限,標(biāo)記數(shù)據(jù)類別不均衡以及標(biāo)記內(nèi)容領(lǐng)域性強(qiáng)的場(chǎng)景。通過計(jì)算無標(biāo)記數(shù)據(jù)與有標(biāo)記數(shù)據(jù)相似度的方式擴(kuò)充少數(shù)類集合,利用半監(jiān)督學(xué)習(xí)的方式提高模型對(duì)于少數(shù)類的分類識(shí)別效果。

1 相關(guān)研究現(xiàn)狀

1.1 不平衡學(xué)習(xí)

對(duì)于部分的數(shù)據(jù)而言,數(shù)據(jù)分布在數(shù)據(jù)的類別上往往不是均衡的,對(duì)于那些類別嚴(yán)重失衡的問題常被定義為不平衡學(xué)習(xí)[1]問題。不平衡學(xué)習(xí)是指數(shù)據(jù)集合在類別分布上的不平衡。以分類任務(wù)為例,數(shù)據(jù)中某一類別的數(shù)據(jù)占總數(shù)據(jù)中的比例遠(yuǎn)遠(yuǎn)高于其他類別[2],對(duì)于這樣的數(shù)據(jù),占比較高的類別被稱為多數(shù)類,占比較低的被稱為少數(shù)類。不平衡數(shù)據(jù)分類任務(wù)廣泛地存在與生產(chǎn)與生活中,這種比例失衡的程度很可能達(dá)到1 000∶1,甚至10 000 000∶1。例如,某些罕見疾病的病例數(shù)量遠(yuǎn)遠(yuǎn)小于其他疾病,電廠環(huán)保數(shù)據(jù)監(jiān)測(cè)傳感器異常點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)小于正常點(diǎn)的數(shù)量,地震油氣勘探領(lǐng)域有油氣的地震數(shù)據(jù)遠(yuǎn)遠(yuǎn)小于無油氣地震數(shù)據(jù)的數(shù)量。

針對(duì)不平衡學(xué)習(xí)分類任務(wù)的特點(diǎn),主要從以下兩個(gè)方進(jìn)行解決:(1)通過調(diào)整數(shù)據(jù)分布的方法進(jìn)行優(yōu)化;(2)通過改進(jìn)模型算法的方式進(jìn)行優(yōu)化。

通過改變數(shù)據(jù)分布的優(yōu)化方法,主要是通過數(shù)據(jù)采樣的方式,利用一定的手段對(duì)數(shù)據(jù)類別比例進(jìn)行調(diào)整,這樣將在一定程度上緩解數(shù)據(jù)不平衡的問題,使得數(shù)據(jù)的分布趨向于平衡狀態(tài),數(shù)據(jù)采樣一般分為2 種方法:(1)對(duì)不平衡數(shù)據(jù)集中的少數(shù)類Smin進(jìn)行重采樣;(2)對(duì)多數(shù)類Smax中的樣本欠采樣[3]。前者主要目的在于增加Smin的樣本,一般采用復(fù)制Smin的方式,但是這在一定程度上造成了Smin的樣本冗余。后者一般采用移除某些Smax數(shù)據(jù)的方式,其主要目的在于降低Smax的比例,但是這種方式很有可能會(huì)在移除數(shù)據(jù)的過程中造成某些數(shù)據(jù)信息的丟失。

在數(shù)據(jù)分布調(diào)整上,有Chawla 等提出的一種通過創(chuàng)造合成Smin樣本來實(shí)現(xiàn)對(duì)少數(shù)類過采樣的方法,稱之為SMOTE(Synthetic minority over?sampling technique)[4]方法,其主要思想是于每一個(gè)樣本xi∈Smin計(jì)算xi與Smin中其他樣本之間的歐氏距離,并返回xi的k個(gè)最近值。隨后根據(jù)全體樣本集合S的樣本不平衡情況,從少數(shù)類集合中挑取2 個(gè)相鄰的樣本x及x?,并利用xnew=x+rand(0,1)(x?-x) 的計(jì)算方式構(gòu)造新數(shù)據(jù)。在SMOTE 方法的基礎(chǔ)上,Chawla 等將Boosting 方法結(jié)合起來,提出了一種SMOTEBoost[5]方法,通過將SMOTE 方法應(yīng)用于每一個(gè)Boosting 過程中,對(duì)少數(shù)類Smin中構(gòu)造新的樣本,間接改變了樣本分布的不均衡。SMOTE 算法從本質(zhì)上來看是一種過采樣的方法,它克服了過采樣的一些缺點(diǎn),通過數(shù)據(jù)增強(qiáng)的方法增加了原始數(shù)據(jù)。除此之外,改進(jìn)的算法還包括Borderline?SMOTE 算法[6]與ADASYN 算法[7]。

在算法模型上,Domingos 等提出了一種基于代價(jià)敏感的學(xué)習(xí)算法[8],對(duì)于一個(gè)不平衡數(shù)據(jù)集,其不同的類別i與j,Cost(i,j)表示類別i劃分為類別j模型所返回的損失。針對(duì)少數(shù)類別Min,與 多 數(shù) 類 別 Max。 一 般 情 況 下Cost(Max,Min) >Cost(Min,Max),因?yàn)樯贁?shù)類的樣本數(shù)量較少,少數(shù)類誤分類所導(dǎo)致的代價(jià)往往要高于多數(shù)類的誤分類。代價(jià)敏感型學(xué)習(xí)的關(guān)鍵是應(yīng)用代價(jià)敏感矩陣[9?10],其核心思想是針對(duì)數(shù)據(jù)分布的特點(diǎn)以及一些先驗(yàn)知識(shí),對(duì)于不同的分類結(jié)果,返回不同的損失,加強(qiáng)模型對(duì)于少數(shù)類的學(xué)習(xí)效果。

1.2 半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)[11?13]的核心思想在于充分利用有限的有標(biāo)記數(shù)據(jù),結(jié)合大量的無標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練,從而緩解有標(biāo)記數(shù)據(jù)樣本不充分導(dǎo)致的模型效果表現(xiàn)較差的問題。自20 世紀(jì)90 年代起,在自然語言處理與計(jì)算機(jī)視覺需求的驅(qū)使下,半監(jiān)督學(xué)習(xí)取得了長(zhǎng)足的發(fā)展,半監(jiān)督學(xué)習(xí)的思想發(fā)端于Merz 等[14]。半監(jiān)督分類學(xué)習(xí)中,Blum 和Mitchell 從基于差異的視角,提出協(xié)同訓(xùn)練方法[15],針對(duì)有標(biāo)記的數(shù)據(jù)從不同的視圖,構(gòu)造不同的屬性集,隨后利用這些集合進(jìn)行訓(xùn)練,從而得出不同的模型。然后利用上述模型對(duì)大量的無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)測(cè),并將置信度較高的結(jié)果交叉輸入到其他模型之中,反復(fù)迭代訓(xùn)練,直到滿足條件。該方法表明當(dāng)訓(xùn)練數(shù)據(jù)的視圖充分冗余時(shí),無標(biāo)記數(shù)據(jù)在不同學(xué)習(xí)器上的一致性能達(dá)到最大化,可以有效地降低誤分類。從判別式方法的角度,半監(jiān)督學(xué)習(xí)利用最大間隔算法[16]訓(xùn)練模型,從而學(xué)習(xí)得出無標(biāo)記數(shù)據(jù)與有標(biāo)記數(shù)據(jù)之間的劃分邊界。基于圖的半監(jiān)督分類方法主要通過基于流形假設(shè)[17]原理,構(gòu)建數(shù)據(jù)集中樣例之間的圖關(guān)系,隨后基于圖之間的關(guān)系實(shí)現(xiàn)標(biāo)記數(shù)據(jù)的有監(jiān)督信息向無監(jiān)督數(shù)據(jù)的傳播。首先基于圖的方法會(huì)選擇合適的距離計(jì)算樣例之間的距離,如歐氏距離、切比雪夫距離和馬氏距離等。隨后根據(jù)前述計(jì)算所得的距離選擇合適的連接方式,構(gòu)造樣例之間的連接圖。在圖構(gòu)造完成的基礎(chǔ)上利用核函數(shù)計(jì)算連接邊的權(quán)值,并利用這個(gè)權(quán)值衡量?jī)蓚€(gè)連接點(diǎn)之間的相似度。

2 半監(jiān)督相似度量工業(yè)數(shù)據(jù)分類算法

2.1 問題分析

對(duì)于一個(gè)分類任務(wù)而言,以二分類任務(wù)為例,一個(gè)分類效果良好的分類器往往需要充分利用向好的正負(fù)樣本進(jìn)行學(xué)習(xí),從而學(xué)習(xí)出正負(fù)類別中的特征θ。但是基于前文所述,在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中,經(jīng)常存在數(shù)據(jù)標(biāo)注難度大、數(shù)據(jù)樣本分布不均衡以及標(biāo)記信息有限等諸多問題,以上問題所導(dǎo)致的直接影響便是用于學(xué)習(xí)的標(biāo)記樣本其分布上存在著不均衡。

基于樣本類別分布不均衡的數(shù)據(jù)所訓(xùn)練得到的分類器,往往會(huì)過擬合于不均衡數(shù)據(jù)集中的多數(shù)類Smax,從而難以識(shí)別少數(shù)類。這種情況下僅從準(zhǔn)確率的視角衡量模型的效果便不夠客觀,因?yàn)閿?shù)據(jù)集中多數(shù)類樣本充分,可供學(xué)習(xí)的數(shù)據(jù)眾多,分類器便能夠充分學(xué)習(xí)出多數(shù)類中的特征θmax。但是這樣的分類器在本質(zhì)上過擬合于多數(shù)類Smax,分類器幾乎無法識(shí)別出所有的少數(shù)類Smin。在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中,對(duì)于不平衡數(shù)據(jù)而言,相比識(shí)別常見的多數(shù)類,識(shí)別出不平衡數(shù)據(jù)中的少數(shù)類Smin往往更具有價(jià)值。

本文所要處理的分類任務(wù)來自于某一工業(yè)領(lǐng)域,在某一區(qū)域范圍之內(nèi)均勻散布了幾十萬個(gè)傳感器,其中絕大部分?jǐn)?shù)據(jù)是無標(biāo)記數(shù)據(jù)。有標(biāo)記的數(shù)據(jù)劃分為兩類結(jié)果,無顯示數(shù)據(jù)N與有顯示數(shù)據(jù)P,以及半監(jiān)督數(shù)據(jù)P',其中有顯示數(shù)據(jù)P為主要的識(shí)別目標(biāo),D為半監(jiān)督數(shù)據(jù)的篩選范圍,如圖1所示。基于其業(yè)務(wù)特點(diǎn),其所有的標(biāo)記數(shù)據(jù)中,有顯示數(shù)據(jù)P遠(yuǎn)遠(yuǎn)小于無顯示數(shù)據(jù)N,而且數(shù)據(jù)的標(biāo)簽信息的獲取,需要專業(yè)的工作人員現(xiàn)場(chǎng)在每一個(gè)傳感器安置點(diǎn)進(jìn)行施工采樣,驗(yàn)證傳感器放置點(diǎn)的現(xiàn)場(chǎng)狀況,才可以判斷該監(jiān)測(cè)點(diǎn)的標(biāo)記為有顯示點(diǎn)N,還是無顯示點(diǎn)P,所以數(shù)據(jù)的標(biāo)記信息十分有限,僅僅幾百條。該工業(yè)領(lǐng)域的業(yè)務(wù)人員表示,有顯示數(shù)據(jù)與無顯示數(shù)據(jù)往往是以范圍的形式存在,但是在有、無顯示的范圍內(nèi)僅僅以幾個(gè)傳感器的特征尤為明顯,并基于這些少數(shù)的傳感器進(jìn)行標(biāo)記正負(fù)情況。

此工業(yè)數(shù)據(jù)分類任務(wù)存在以下難題:(1)樣本數(shù)據(jù)眾多,但含有標(biāo)記信息樣本較少;(2)標(biāo)記數(shù)據(jù)中正負(fù)樣本比例差距大;(3)數(shù)據(jù)標(biāo)記難度大。

本文提出一種基于相似度度量的半監(jiān)督分類算法。其主要的方式是,圍繞任務(wù)目標(biāo)數(shù)據(jù)集中的少數(shù)類Smin中的樣本,針對(duì)其中的每一個(gè)少數(shù)類正例樣本smin,在smin周圍限定的一個(gè)區(qū)域,該區(qū)域范圍內(nèi)包的無標(biāo)記數(shù)據(jù)集合為D={,,…},對(duì)與區(qū)域內(nèi)的某一個(gè)樣本,其并不存在標(biāo)簽,隨后對(duì)D內(nèi)的所有數(shù)據(jù)進(jìn)聚類。其核心思想是針對(duì)任務(wù)目標(biāo)數(shù)據(jù)中樣本數(shù)量比例差距較大的特點(diǎn),緩解分類器在訓(xùn)練過程中過擬合于占比較大類別的數(shù)據(jù)所導(dǎo)致的問題。

針對(duì)上述任務(wù)描述,在同業(yè)務(wù)人員的交流中得知,標(biāo)記為正例的數(shù)據(jù)其周圍的數(shù)據(jù)大概率也為正類,相同類別的數(shù)據(jù)之間的相似性較高,隨后從聚類結(jié)果中挑選與區(qū)域D內(nèi)正例標(biāo)記數(shù)據(jù)P最為相似的類別集合P',將P'其作為可信正例集合,并以此擴(kuò)充正例樣本,緩解數(shù)據(jù)標(biāo)記集合中樣本分布不均衡的情況,最后利用擴(kuò)充集合中的數(shù)據(jù)進(jìn)行模型訓(xùn)練,并得出分類器。

2.2 基于K?means 聚類相似度擴(kuò)展正例集合

基于前文所述,有顯示數(shù)據(jù)P為數(shù)據(jù)集合中的少數(shù)類,由于標(biāo)記數(shù)據(jù)的難度較大,所以訓(xùn)練集中少數(shù)的有顯示數(shù)據(jù)P={p1,p2,…,pn},無法充分反映少數(shù)類數(shù)據(jù)特征在全局狀態(tài)下對(duì)于全體少數(shù)類集合P的分布。因此很有必要針對(duì)P進(jìn)行擴(kuò)充。

本文使用K?means[18]聚類算法對(duì)可信正類數(shù)據(jù)P周圍的無標(biāo)記數(shù)據(jù)集合D進(jìn)行聚類,依賴半監(jiān)督學(xué)習(xí)中的平滑假設(shè)[19]與聚類假設(shè)[20]。所謂的平滑假設(shè)即位于數(shù)據(jù)稠密的區(qū)域中,距離相近的樣例,大概率擁有相同的類標(biāo)簽。所謂的聚類假設(shè),即處于相同類簇樣例下的樣例,具有相同類標(biāo)簽。

存在兩個(gè)問題需要明確:

(1)如何制定一套機(jī)制,以確定K?means 算法中k的取值。對(duì)于一個(gè)有監(jiān)督分類任務(wù)而言,數(shù)據(jù)需要被劃分的類別是明確的。如圖2 所示,對(duì)于需要施加K?means 算法的數(shù)據(jù)集合D={},其標(biāo)簽集合也為L(zhǎng)abel = {P,N},類別為2。如果直接設(shè)置k的取值為2,那么數(shù)據(jù)集合D將會(huì)很粗略地被劃分為兩個(gè)類別,基于聚類假設(shè)的原理,會(huì)將一個(gè)數(shù)量較大的類簇劃歸為少數(shù)類,這種粗糙的少數(shù)類數(shù)據(jù)擴(kuò)充方式,無疑會(huì)增加少數(shù)類數(shù)據(jù)中的噪聲,以此數(shù)據(jù)進(jìn)行模型訓(xùn)練將會(huì)得到一個(gè)表現(xiàn)較差的分類器。

針對(duì)以上問題,本文提出了一種基于K?means聚類的相似度收斂算法。通過設(shè)置一組逐漸遞增的k值,隨著k值的遞增加,K?means 聚類得到的類別逐步精細(xì),當(dāng)k個(gè)類別中與標(biāo)記數(shù)據(jù)P的距離開始收斂的時(shí)候,停止k值的遞增,并將該類別作為可信正例集合,其整體流程如圖3 所示。

圖3 半監(jiān)督數(shù)據(jù)擴(kuò)充流程圖Fig.3 Flow chart of semi-supervised data expansion method

以圖4 為例,其為某一標(biāo)記節(jié)點(diǎn)周圍,距離其最近的K?means 聚類數(shù)據(jù)分布變化圖,其中,k表示K?means 聚類算法中k的取值,num 表示K?means聚類結(jié)果中距離標(biāo)記節(jié)點(diǎn)最近集合中數(shù)據(jù)的數(shù)量,d表示該集合中距離標(biāo)記節(jié)點(diǎn)的平均距離。可以看到距離最近的數(shù)據(jù)始終圍繞在可信節(jié)點(diǎn)的周圍。圖5 展示了隨著K?means 中k值變化過程中,距離標(biāo)記節(jié)點(diǎn)最近的聚類的可信樣本數(shù)量變化情況,以及與標(biāo)記節(jié)點(diǎn)的距離變化情況,可以看到距離與數(shù)量都是逐步下降并最終收斂。

圖4 可信數(shù)據(jù)P 點(diǎn)K-means 聚類變化圖Fig.4 K-means cluster change graph of trusted data point P

圖5 聚類數(shù)目以及距離變化圖Fig.5 Cluster number and distance change graph

可以看到,利用上述方法可以得到穩(wěn)定的且距離不平衡數(shù)據(jù)中少數(shù)類Smin最近的數(shù)據(jù)集合,這些原本沒有標(biāo)記的數(shù)據(jù)將作為半監(jiān)督學(xué)習(xí)中的訓(xùn)練數(shù)據(jù)。

算法1 基于K?means 聚類的相似度收斂算法

2.3 利用多種分類算法進(jìn)行數(shù)據(jù)分類

為了有效驗(yàn)證利用K?means 聚類,并以此取得最相似數(shù)據(jù),從而進(jìn)行驗(yàn)證并比較半監(jiān)督分類學(xué)習(xí)的算法效果。本文利用多種分類算法進(jìn)行驗(yàn)證,包括一系列淺層模型與深度模型。其中淺層模型包含以下算法:KNN(K?nearest neighbor)決策樹、SVM(Support vector machine)和LR(Logistic re?gression)分類器。深度學(xué)習(xí)分類器包括:全連接神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)評(píng)價(jià)

為了有效地評(píng)價(jià)模型的分類效果,本文主要應(yīng)用到了準(zhǔn)確率(Accuracy)、召回率(Recall)以及標(biāo)準(zhǔn)的F1度量,式(2~4)中其他變量含義為:TP 表示數(shù)據(jù)自身為正例并被識(shí)別為正例;FN 表示數(shù)據(jù)自身為正例但是被識(shí)別為負(fù)例;FP 表示數(shù)據(jù)自身為負(fù)例但被識(shí)別為正例;TN 表示數(shù)據(jù)自身為負(fù)例并被識(shí)別為負(fù)例;Precision 表示精確率。其中準(zhǔn)確率主要衡量分類器的預(yù)測(cè)結(jié)果中有多少是分類正確的。但是基于不平衡數(shù)據(jù)集中樣本不均衡的問題,僅僅使用準(zhǔn)確率無法客觀的評(píng)價(jià)模型的效果,所以模型還會(huì)參考召回率這一指標(biāo),以衡量對(duì)于少數(shù)類的分類效果。最后利用F1值綜合評(píng)價(jià)分類器的效果。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

本文所應(yīng)用到的數(shù)據(jù)集來自于某一工業(yè)領(lǐng)域,共包含傳感器采集的數(shù)據(jù)221 121 條,每一條數(shù)據(jù)包含30 個(gè)特征,其中包含標(biāo)記的數(shù)據(jù)僅有480 條,標(biāo)記數(shù)據(jù)中正例數(shù)據(jù)31 條,其余皆為負(fù)例。在此標(biāo)記數(shù)據(jù)的基礎(chǔ)上,利用前文所述的方法,圍繞著正例標(biāo)記數(shù)據(jù)構(gòu)造可信正例數(shù)據(jù)157 條。以上為本實(shí)驗(yàn)所應(yīng)用到的數(shù)據(jù)集。

3.3 實(shí)驗(yàn)結(jié)果及分析

在實(shí)驗(yàn)過程中,采用如下方式進(jìn)行實(shí)驗(yàn),其中對(duì)于標(biāo)記數(shù)據(jù)集,將其中的80% 作為訓(xùn)練集,20%作為測(cè)試集。對(duì)于可信數(shù)據(jù)集,則只將其添加到訓(xùn)練集中,構(gòu)造半監(jiān)督訓(xùn)練集。實(shí)驗(yàn)過程中將分別利用訓(xùn)練集與半監(jiān)督訓(xùn)練集進(jìn)行模型訓(xùn)練,得出普通的分類器與半監(jiān)督分類器。然后利用測(cè)試集評(píng)價(jià)上述兩組分類器的效果。為準(zhǔn)確衡量本文算法的效果,利用了多個(gè)分類器來評(píng)判算法的效果。

從表1 可以看出,傳統(tǒng)方法的準(zhǔn)確率明顯高于半監(jiān)督方法,但是傳統(tǒng)方法中除決策樹模型之外,其他模型的召回率與F1值均為0,這表明基于傳統(tǒng)方法訓(xùn)練得出的分類器基本上過擬合于不平衡數(shù)據(jù)集中的多數(shù)類,并且模型不具有少數(shù)類分類的能力,而不平衡數(shù)據(jù)集中的少數(shù)類,往往是該類型分類任務(wù)重關(guān)注的重點(diǎn)。對(duì)比于半監(jiān)督方法,模型的召回率與F1值均有所提高,這表明半監(jiān)督方法相對(duì)于傳統(tǒng)模型,在對(duì)于數(shù)據(jù)集中的少數(shù)類而言其識(shí)別率有所提高。

表1 傳統(tǒng)與本文半監(jiān)督方法對(duì)比Table 1 Comparison of traditional and semi?supervised method

4 結(jié)論

本文提出了一種基于半監(jiān)督學(xué)習(xí)的工業(yè)數(shù)據(jù)分類算法,該方法針對(duì)需某類傳感器數(shù)據(jù)分類任務(wù),在其標(biāo)記信息少、標(biāo)記難度大以及正負(fù)樣本分類不均衡的情況下,創(chuàng)新地提出利用K?means 聚類算法,將圍繞少數(shù)類標(biāo)記數(shù)據(jù)中的數(shù)據(jù)進(jìn)行無監(jiān)督聚類,基于聚類數(shù)據(jù)與少數(shù)類標(biāo)記數(shù)據(jù)的相似度度量,構(gòu)造一批可信正例半監(jiān)督數(shù)據(jù),并將其用于模型訓(xùn)練,從而得到半監(jiān)督分類器,經(jīng)多種分類模型進(jìn)行半監(jiān)督訓(xùn)練測(cè)試驗(yàn)證,雖然模型的準(zhǔn)確率受到了一定的影響,但是模型在召回率與F1值的表現(xiàn)上明顯優(yōu)于傳統(tǒng)的方法,這表明本文方法有效地識(shí)別出了不平衡工業(yè)傳感器數(shù)據(jù)數(shù)據(jù)集中重點(diǎn)需要識(shí)別出的少數(shù)類,在真實(shí)的生產(chǎn)與應(yīng)用環(huán)境中具有一定的應(yīng)用價(jià)值。

猜你喜歡
分類監(jiān)督模型
一半模型
分類算一算
重要模型『一線三等角』
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
監(jiān)督見成效 舊貌換新顏
夯實(shí)監(jiān)督之基
主站蜘蛛池模板: 综合久久五月天| 波多野结衣无码视频在线观看| 精品国产网站| 欧美国产日本高清不卡| 国产女人18毛片水真多1| 91麻豆国产在线| 亚洲精品欧美重口| 精品国产免费观看一区| 亚洲av片在线免费观看| 九一九色国产| 国产亚洲欧美日韩在线观看一区二区| 亚洲天堂高清| 成人午夜久久| 亚洲无线视频| 亚洲中文字幕久久精品无码一区| 暴力调教一区二区三区| 亚洲欧美在线看片AI| 亚洲av成人无码网站在线观看| 高清不卡一区二区三区香蕉| 国产精品美女自慰喷水| 91色在线视频| 天天综合天天综合| 国产靠逼视频| 国产麻豆永久视频| 精品人妻一区无码视频| 极品私人尤物在线精品首页| 国产精品福利导航| 欧美精品伊人久久| 亚洲视频二| 一级毛片不卡片免费观看| 四虎永久免费网站| 精品国产福利在线| 欧美日韩在线国产| 国产在线专区| 国产原创自拍不卡第一页| 国产成年无码AⅤ片在线| 狠狠五月天中文字幕| 色成人亚洲| 麻豆精品在线| 欧美亚洲国产精品第一页| 国产精品久久久久久搜索 | 国产性生大片免费观看性欧美| 欧美a在线| 成人欧美日韩| 亚洲无码37.| 亚洲精品人成网线在线| 噜噜噜综合亚洲| 手机在线国产精品| 亚洲无限乱码一二三四区| 无码免费视频| 国产成人区在线观看视频| 精品欧美日韩国产日漫一区不卡| 国产精品国产主播在线观看| 国产亚洲男人的天堂在线观看| 国产成人亚洲无吗淙合青草| 国产亚洲高清在线精品99| 成人综合在线观看| 一级毛片免费不卡在线视频| 男女精品视频| 国产国拍精品视频免费看| 亚洲九九视频| 91美女视频在线| 欧美精品黑人粗大| 高潮毛片无遮挡高清视频播放| 色综合天天综合| 日本在线欧美在线| 亚洲AV无码不卡无码| 国产剧情国内精品原创| 久久亚洲AⅤ无码精品午夜麻豆| 国产精品成| 成人第一页| 99热最新网址| 国产在线自揄拍揄视频网站| 在线日本国产成人免费的| AⅤ色综合久久天堂AV色综合| 久久夜夜视频| 欧美一级片在线| 99九九成人免费视频精品| 麻豆精选在线| 久热精品免费| 亚洲最大情网站在线观看| 国产成人亚洲综合A∨在线播放|