摘要:在模式識(shí)別領(lǐng)域內(nèi),隨著科技的不斷發(fā)展,數(shù)據(jù)壓縮技術(shù)的不斷成熟,海量信息特征的時(shí)代也隨之到來(lái)。這些信息特征中卻包含著大量的冗余信息特征,極大地影響了對(duì)分類模型的架構(gòu)及其分類性能。因此,極大地需要在模式識(shí)別中采用特征選擇技術(shù),選擇出對(duì)分類判別分析有用的信息特征。
關(guān)鍵詞:模式識(shí)別;冗余信息特征;特征選擇
一、 前言
隨著科學(xué)技術(shù)的不斷發(fā)展,信息時(shí)代也隨之而來(lái)。在面對(duì)海量而且又復(fù)雜的樣本數(shù)據(jù)信息時(shí),人類不得不去對(duì)相關(guān)的信息進(jìn)行處理。然而實(shí)際上,在信息處理的過(guò)程中有一個(gè)極其重要的形式,就是生命體對(duì)客體或者說(shuō)是所處的環(huán)境的識(shí)別,我們把環(huán)境或者客體之類的統(tǒng)稱為模式。模式識(shí)別(Pattern recognition)則是通過(guò)利用各種數(shù)學(xué)工具、技術(shù)方法來(lái)對(duì)事物進(jìn)行表示,從而對(duì)事物進(jìn)行描述、辨別、解釋以及分類的一個(gè)信息處理過(guò)程。模式識(shí)別包括很多,有語(yǔ)音模式識(shí)別、光學(xué)字符識(shí)別以及聲學(xué)信息識(shí)別等很多方面。由于具有海量的數(shù)據(jù)信息,而這些數(shù)據(jù)信息中,有很多信息都是“多余的”。所謂的多余是指這些信息包括很多冗余的信息或是對(duì)研究目的地辨別、分類無(wú)關(guān)的一些信息特征,所以我們?cè)谛畔⑻幚淼倪^(guò)程中,需要對(duì)這些信息進(jìn)行加工處理,這里我們就要用到特征選擇技術(shù)。特征選擇(feature selection)又叫屬性選擇(attribute selection)是指從原始的信息特征中選擇出一些最有效的信息特征以便能夠降低特征的維度的過(guò)程,其也是模式識(shí)別體系的基本流程中的一個(gè)關(guān)鍵技術(shù)所在。經(jīng)過(guò)特征選擇技術(shù),我們可以降低特征的維度,去除那些復(fù)雜信息中所包含的冗余特征(redundant features)和不相關(guān)的特征(unrelated features),還可以降低計(jì)算過(guò)程中的復(fù)雜性以及分類模型的復(fù)雜性,改善分類判別性能。因此,特征選擇技術(shù)對(duì)于模式識(shí)別來(lái)說(shuō)是一個(gè)極其重要也是必不可少的關(guān)鍵步驟。
二、 特征選擇技術(shù)的評(píng)價(jià)函數(shù)
在模式識(shí)別系統(tǒng)中,我們需要對(duì)特征子集進(jìn)行評(píng)價(jià)從而判斷所選擇的特征子集是否有效,是否能夠改善最終的分類判別的分類精度,這里就需要用到相應(yīng)的評(píng)價(jià)函數(shù)。在經(jīng)過(guò)不同的評(píng)價(jià)函數(shù)所選擇出的特征子集的最優(yōu)性或是次優(yōu)性也是不同的。依據(jù)特征評(píng)價(jià)函數(shù)與學(xué)習(xí)方法之間的關(guān)系,我們可以將評(píng)價(jià)函數(shù)分為獨(dú)立的評(píng)價(jià)函數(shù)以及非獨(dú)立的評(píng)價(jià)函數(shù)。
獨(dú)立的評(píng)價(jià)函數(shù),顧名思義,它是和學(xué)習(xí)方法無(wú)關(guān)的,它只是依據(jù)訓(xùn)練樣本本身所具有的信息特征來(lái)對(duì)特征子集的判別分類性能進(jìn)行評(píng)價(jià)。一般而言,在模式識(shí)別過(guò)程中,我們經(jīng)常用到的獨(dú)立的評(píng)價(jià)函數(shù)包括信息評(píng)價(jià)函數(shù)(信息熵、信息增益等,若某個(gè)信息特征A的信息增益要高于信息特征B的信息增益,則我們可以優(yōu)先選擇信息特征A)、距離評(píng)價(jià)函數(shù)(其中常用到的距離準(zhǔn)則有歐氏距離、馬氏距離、余弦距離等)、以及相關(guān)性評(píng)價(jià)函數(shù)(其中常用到相關(guān)系數(shù)來(lái)衡量某一特征與類別之間的相關(guān)程度)。非獨(dú)立評(píng)價(jià)函數(shù),它與學(xué)習(xí)方法是密切相關(guān)的,其是根據(jù)學(xué)習(xí)方法的分類性能來(lái)對(duì)所有的特征集合進(jìn)行的評(píng)價(jià)(其中常用到的非獨(dú)立函數(shù)就是正確分類率)。
三、 特征選擇技術(shù)的分類
在模式識(shí)別系統(tǒng)中,在對(duì)所提取的特征進(jìn)行選擇時(shí),我們有不同的選擇方法。依據(jù)評(píng)價(jià)函數(shù)與學(xué)習(xí)方法之間的關(guān)系,我們可以將特征選擇技術(shù)分為濾波式(filters)、封裝式(wrappers)、混合式(hybrid)以及嵌入式(embedded)特征選擇方法。
濾波式特征選擇技術(shù)是與分類算法相獨(dú)立的,它也和分類算法中所涉及到的參數(shù)以及分類過(guò)程中的分類性能時(shí)完全無(wú)關(guān)的。一般而言,濾波式特征選擇技術(shù)經(jīng)常采用獨(dú)立的評(píng)價(jià)函數(shù)。因此,當(dāng)我們改變?cè)u(píng)價(jià)函數(shù)的時(shí)候,我們就可以得到各種各樣的濾波式特征選擇方法。濾波式特征選擇方法具備通用性的特性,正是由于它的通用性,我們才可以憑借這種方法來(lái)解決各種各樣的有關(guān)特征選擇的問(wèn)題。但是這類方法也有其缺點(diǎn),即由于與分類算法是相互獨(dú)立的,所以通過(guò)該類方法所選擇出的特征子集的分類性能一般都要劣于其他的分類方法。
封裝式特征選擇技術(shù)與濾波式特征選擇技術(shù)不同,其所采用的評(píng)價(jià)函數(shù)是非獨(dú)立的評(píng)價(jià)函數(shù),它是通過(guò)利用特征集合的分類性能來(lái)得到最優(yōu)的特征子集或者是次優(yōu)的特征子集。其中,對(duì)特征子集評(píng)價(jià)的評(píng)價(jià)函數(shù)是與學(xué)習(xí)方法緊密相關(guān)的。該類方法是將特征選擇的過(guò)程與學(xué)習(xí)方法結(jié)合起來(lái),從而尋求對(duì)判別分類性能最好的特征子集。與濾波式特征選擇技術(shù)類似,我們通過(guò)改變學(xué)習(xí)的算法,也可以得到各種各樣的封裝式特征選擇技術(shù)方法。但是該算法也有其缺點(diǎn),即復(fù)雜程度高,運(yùn)算量極大。
對(duì)于混合式特征選擇方法而言,其充分地利用了濾波式及封裝式各自的優(yōu)點(diǎn),來(lái)提供一種特征選擇思路。在特征選擇的過(guò)程中,該類方法同時(shí)地使用了獨(dú)立的評(píng)價(jià)函數(shù)以及學(xué)習(xí)算法來(lái)對(duì)特征子集進(jìn)行評(píng)價(jià),其步驟是首先通過(guò)獨(dú)立的評(píng)價(jià)函數(shù)來(lái)選擇出一系列的最優(yōu)特征集合,再通過(guò)使用學(xué)習(xí)算法來(lái)對(duì)這些候選的特征集合一一分析處理,從而挑選出最終的最優(yōu)特征集合。
對(duì)于嵌入式特征選擇方法而言,它是充分考慮了學(xué)習(xí)算法固有的一些結(jié)構(gòu),這類方法的思想就是將特征選擇技術(shù)嵌入到學(xué)習(xí)算法中,從而架構(gòu)出一系列的嵌入式特征選擇方法。比如說(shuō),經(jīng)典的決策樹算法(decision tree algorithm),該算法是一種預(yù)測(cè)模型,是一種樹形結(jié)構(gòu),算法中的基元—節(jié)點(diǎn)有著選擇的作用,通過(guò)每個(gè)節(jié)點(diǎn),我們可以選擇出那些對(duì)分類判別能力好的信息特征。
四、 結(jié)語(yǔ)
特征選擇技術(shù)方法多種多樣,具體問(wèn)題可具體分析,也可以根據(jù)自己的需求,結(jié)合本身的條件來(lái)選擇出適合的分類方法。
參考文獻(xiàn):
[1]楊宏暉,戴健,孫進(jìn)才,等.用于水聲目標(biāo)識(shí)別的自適應(yīng)免疫特征選擇算法[J].西安交通大學(xué)學(xué)報(bào),2011,45(12):28-32.
[2]李玲,劉華文,徐曉丹,等.基于信息增益的多標(biāo)簽特征選擇算法[J].計(jì)算機(jī)科學(xué),2015,42(7):52-56.
[3]王力波,王耀力,常青.生物信息學(xué)中的特征選擇[J].太原理工大學(xué)學(xué)報(bào),2017,48(3):458-468.
作者簡(jiǎn)介:
李星星,江西省南昌市,江西科技師范大學(xué)。