胡俊承
(桂林醫(yī)學(xué)院,桂林 541001)
分類是根據(jù)需求對(duì)數(shù)據(jù)進(jìn)行最有效使用的分組過程。數(shù)據(jù)分類可分為兩個(gè)步驟,學(xué)習(xí)過程和分類過程。有效的分類技術(shù)可以幫助人們非常輕松地檢索到需要的數(shù)據(jù),本文將以龐大的病例數(shù)據(jù)分類為例。不同的疾病可采取不同的治療方法,治療方法取決于病人自身的健康標(biāo)準(zhǔn)。處理如此繁復(fù)的病例數(shù)據(jù)需要巨大的工作量,分層學(xué)習(xí)方法在處理這些數(shù)據(jù)時(shí)表現(xiàn)可圈可點(diǎn),在過去的研究當(dāng)中有所體現(xiàn)。L.Cai and T.Hofmann[1]提出將支持向量機(jī)(SVM)標(biāo)準(zhǔn)分類與分層方法相結(jié)合,提高支持向量機(jī)分類精度,減少支持向量機(jī)測試的計(jì)算量。T.Gao and D.Kollar[2]探討了層次聚類在高維生物醫(yī)學(xué)光譜分類中的有效性。
然而分層學(xué)習(xí)的性能很大程度上取決于特征選擇的質(zhì)量。特征子集選擇按照評(píng)價(jià)標(biāo)準(zhǔn)和方法的不同可分為四種類型,分別為過濾式(Filter)[3]、封裝式(Wrapper)、混用式(Hybrid)和嵌入式(Embeded)。利用過多的特征進(jìn)行分類會(huì)導(dǎo)致性能瓶頸,因此正確謹(jǐn)慎地選擇特征子集顯得尤為重要。本文設(shè)計(jì)了一種基于高相關(guān)性特征選擇技術(shù)的過濾式特征選擇方法,可以更正確有效地結(jié)合分層學(xué)習(xí)識(shí)別較好的特征子集,提高對(duì)病例數(shù)據(jù)中宮頸癌信息分類的性能。
在對(duì)高維病歷進(jìn)行分類時(shí),采用分層學(xué)習(xí)的方法可以得到較好的分類結(jié)果。該分類器以特征作為輸入,從宮頸癌數(shù)據(jù)集中檢索各種類別的記錄,包括患者信息和宮頸癌疾病的治療信息。對(duì)于分類高維病歷,分層學(xué)習(xí)算法體現(xiàn)出更好的性能。在此實(shí)驗(yàn)中,分類器將從病例數(shù)據(jù)檢索出的特征作為輸入。首先評(píng)估患者治療類別之間的類別間相關(guān)性,評(píng)估過程可以以一下方程式定義

這里我們設(shè)計(jì)一個(gè)高相關(guān)特征集選擇(HCFS)算法以及步驟。使用這一算法可以幫助系統(tǒng)選擇更合適的特征,這一算法可與已有的分層學(xué)習(xí)算法相結(jié)合,使得數(shù)據(jù)分類性能得到提升。圖1大致描述了HCFS算法的工作原理。
其輸入為病例數(shù)據(jù)集(D)以及特征和類標(biāo)簽(f1,f2,f3……c1,……cn),輸出為特征子集(s)。該算法首先設(shè)置相關(guān)閾值(t),該閾值是通過查找特征和類標(biāo)簽之間的關(guān)聯(lián)來估計(jì)的。尋找特征之間相關(guān)性(fi,fj),特征與類之間相關(guān)性(fi,cj),相關(guān)值(v)。然后將屬性或特征表示為節(jié)點(diǎn),將估計(jì)的相關(guān)值作為邊緣權(quán)重(e1,e2,……,en),在此基礎(chǔ)上形成決策樹。
通過將相關(guān)值與初始設(shè)定的預(yù)定義閾值進(jìn)行比較,對(duì)構(gòu)建的樹進(jìn)行劃分。如果計(jì)算出的相關(guān)值(v)<閾值(t),則該特定邊緣將被排除。
在此過程之后,將生成特性集群(稱為簇),從這組特征中可以確定簇頭。該算法從宮頸癌數(shù)據(jù)集中檢索出高質(zhì)量的特征簇,并將這些特征輸入到分層學(xué)習(xí)方法中運(yùn)算,以獲得更好的分類性能。

圖1 HCFS算法的工作原理
在表1中,實(shí)驗(yàn)對(duì)兩種不同的分類方法進(jìn)行精確性的比較。實(shí)驗(yàn)采用宮頸癌的治療數(shù)據(jù)作為數(shù)據(jù)集,對(duì)比結(jié)合HCFS的分層學(xué)習(xí)算法與單一的分層學(xué)習(xí)算法,可以明顯得看出在不同的病人分類中,結(jié)合了HCFS的分層學(xué)習(xí)算法的精確度都有明顯地提升。

表1 結(jié)合HCFS的分層學(xué)習(xí)算法與分層學(xué)習(xí)算法的精確度對(duì)比
已有的分層學(xué)習(xí)算法雖然在分類上效率較高,但是性能受制于所選的特征。HCFS算法可為分層學(xué)習(xí)算法確定質(zhì)量更可靠的特征子集,使得分類性能有所提高,尤其是應(yīng)用在大規(guī)模數(shù)據(jù)分析中。本文設(shè)計(jì)了一種基于分層學(xué)習(xí)技術(shù)結(jié)合HCFS的算法,應(yīng)用在病例宮頸癌數(shù)據(jù)的分類問題。實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果驗(yàn)證了本文算法的有效性,并使得分類性能得到提高。