徐萍
摘要:近些年來,在信息的搜索以及對(duì)數(shù)據(jù)進(jìn)行挖掘的研究等領(lǐng)域中,文本自動(dòng)分類技術(shù)是這個(gè)領(lǐng)域最新、最關(guān)鍵的技術(shù),并且在互聯(lián)網(wǎng)紛繁復(fù)雜的信息處理方面以及機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)上,文本分類技術(shù)處理面臨種種挑戰(zhàn),在算法、模型以及對(duì)產(chǎn)品的評(píng)測(cè)進(jìn)行一系列的研究工作,該文總結(jié)了當(dāng)前在機(jī)器學(xué)習(xí)基礎(chǔ)上的關(guān)鍵問題,例如:Web頁的分類方法,分類的多層性,算法的擴(kuò)展特性,標(biāo)注的瓶頸,文本分類技術(shù)的分散性以及線性。該文綜合考慮了以上因素,對(duì)其進(jìn)行科學(xué)合理的分析,并對(duì)基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的研發(fā)與改進(jìn)方法提出幾點(diǎn)建議與措施,希望可以起到借鑒作用。
關(guān)鍵詞:機(jī)器學(xué)習(xí);文本分類;結(jié)束研究;進(jìn)展
中圖分類號(hào):TP3? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)30-0109-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
在如今這個(gè)信息時(shí)代,互聯(lián)網(wǎng)上每天都有海量的不同信息涌入人們腦海當(dāng)中。針對(duì)這些基于信息內(nèi)容的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘工作以及對(duì)這些海量信息檢索能力都是目前的熱門研究領(lǐng)域。這些領(lǐng)域之中,文本分類技術(shù)是其中最為重要的一種技術(shù),文本分類方法就是針對(duì)固定的類別基礎(chǔ)上通過文字來對(duì)其進(jìn)行識(shí)別。文本分類技術(shù)處理主要是理解自然的語言并對(duì)其進(jìn)行有效處理,對(duì)信息進(jìn)行管理以及組織,并對(duì)文字的內(nèi)容進(jìn)行過濾,分離出無效信息。因此,對(duì)基于機(jī)器學(xué)習(xí)的文字分類技術(shù)的研究就尤為重要。對(duì)不同文本分類方法進(jìn)行總結(jié)并試圖探討優(yōu)化當(dāng)前文本分類技術(shù)的方法。基于機(jī)器學(xué)習(xí)的文字分類技術(shù)由三個(gè)部分組合而成:分類的最終實(shí)現(xiàn)效果,對(duì)實(shí)現(xiàn)的效果進(jìn)行可視化演示以及對(duì)不同文本的呈現(xiàn)與顯示。
1對(duì)于基于機(jī)器學(xué)習(xí)的文本分類技術(shù)基礎(chǔ)研究工作
近些年來,我們對(duì)于機(jī)器學(xué)習(xí)的文本分類研究轉(zhuǎn)化為對(duì)BOW的研究,并且對(duì)于不同算法的記錄與統(tǒng)計(jì),以及不同文本的分類情況進(jìn)行預(yù)測(cè)。該項(xiàng)研究已經(jīng)隨著時(shí)代進(jìn)展逐漸成為目前文本分類研究的基本工作。由統(tǒng)計(jì)學(xué)以及基于語言學(xué)的文本分類研究的方法進(jìn)行文字分類結(jié)果的預(yù)測(cè)也已經(jīng)得到了廣泛的科學(xué)進(jìn)步,與以上研究領(lǐng)域相關(guān)的技術(shù)也廣泛地在基于機(jī)器學(xué)習(xí)的文本分類技術(shù)中進(jìn)行運(yùn)用,本文將在文本分類研究領(lǐng)域?qū)<覍W(xué)者的研究基礎(chǔ)上進(jìn)行進(jìn)一步研究與探討。
1)對(duì)于文本進(jìn)行表示
VSM依舊是目前研究的主要的方法,采用何種語意的單元來作為項(xiàng)及的計(jì)算數(shù)量權(quán)重的基本問題有兩個(gè),一是絕大部分的文字識(shí)別對(duì)象都是采用詞這個(gè)單元來作為基本計(jì)算單位,以文字項(xiàng)的不同頻率來作為文字分類基本運(yùn)算的不同權(quán)重。Debole曾表示將監(jiān)督這一環(huán)節(jié)作為文字分類的權(quán)重這一概念,從而充分發(fā)揮項(xiàng)的能夠顯著來進(jìn)行權(quán)重的平衡發(fā)展。
而除了VSM以外,還有一種模型在相關(guān)人士之間也十分流行,那就是針對(duì)項(xiàng)的概率分布以及在二維的視圖之上表示。文本分類研究專家Bigi等專家紛紛表示任意選取一個(gè)a文本以及b類的文本都可以被看成一個(gè)包括全部項(xiàng)的概率分布情況P(a,b),i=1…,這種分布方式叫作將分布進(jìn)行特殊的概率表示,這種特殊的分布方法在一些情況中有著不錯(cuò)的表現(xiàn)。
另外還存在著一種語義的單元之間的相互聯(lián)系,一些文字分類技術(shù)渴望利用自然的語言處理技術(shù)來進(jìn)行基于機(jī)器學(xué)習(xí)的文字分類工作。而這種技術(shù)往往被BOW所忘記,所以,在這種新型的文字分類方法中,詞語的意思以及短語之中的項(xiàng)都被運(yùn)用到不同的分類方法之中進(jìn)行文字分類工作。但是這種新型的文字分類處理方法還不太成熟,這是因?yàn)檫@種新型的文字分類方法會(huì)導(dǎo)致分類器的運(yùn)行速度遭到很大的影響,并且這些新型的文字分類表示方法相對(duì)于傳統(tǒng)的文字分類表示技術(shù)并沒有很顯著的提升,而且沒有絕對(duì)的優(yōu)勢(shì)的產(chǎn)生。截止到現(xiàn)在,不屬于VSM的方法的合理程度以及在理論上以及實(shí)踐上的實(shí)際拓展應(yīng)用上還仍然需要進(jìn)一步的驗(yàn)證才能放心使用,目前這種方式的文字分類方法還比較的單一,并沒有在相關(guān)領(lǐng)域進(jìn)行進(jìn)一步的實(shí)際應(yīng)用[1]。
2)將空間的維度進(jìn)行降低
對(duì)于空間維度降低的相關(guān)研究主要集中在幾個(gè)方面:將維度降低后的模型的實(shí)際算法與另一種算法進(jìn)行比較,對(duì)特征數(shù)集的分類效果關(guān)系進(jìn)行討論以及維度降低的幅度大小進(jìn)行控制。對(duì)于空間維度降低的模型與之相對(duì)應(yīng)的實(shí)際算法相關(guān)研究,到目前為止還仍然處于較為傳統(tǒng)的階段。(1)對(duì)于項(xiàng)以及其分類種別的相關(guān)研究通常采用概率統(tǒng)計(jì)的方法進(jìn)行。(2)對(duì)于分布上相似程度較高的文本分類方法,應(yīng)該采用信息熵的視角來進(jìn)行探討,比如通過研究全局的信息來探討不同分類方法的可行性。(3)對(duì)于隱藏的特別含義的分析路徑研究,我們通常采用不相同的分析方法來設(shè)法得到線性的映射,這種映射可以通過對(duì)矩陣的不同角度進(jìn)行分析,并對(duì)文本分類矩陣進(jìn)行化簡(jiǎn)工作,盡可能地使其變得簡(jiǎn)潔。數(shù)據(jù)維度的降低也會(huì)對(duì)研究結(jié)果產(chǎn)生影響,所以在研究過程中必須對(duì)其加以注意。在實(shí)驗(yàn)過程中,特征數(shù)目的增加通常會(huì)使分類器的理想效果產(chǎn)生不好的影響。在前人的研究文獻(xiàn)中,他們發(fā)現(xiàn):對(duì)于空間在正常范圍內(nèi)的維度降低可能會(huì)導(dǎo)致分類器特征數(shù)量的增加而隨之增加。產(chǎn)生的結(jié)果可能會(huì)迅速得到提升并且十分平穩(wěn)。但是如果在實(shí)際測(cè)試過程中,特征的數(shù)量增長(zhǎng)速度過于迅速,也可能會(huì)影響分類器的最終結(jié)果,并且會(huì)使分類器的性能有很大的降低。該項(xiàng)研究說明:將空間的維度進(jìn)行降低在可以高效處理開銷的同時(shí)也可能會(huì)降低效果器的實(shí)際使用效果。在結(jié)果上面來看的話,BNS以及IG等一系列測(cè)量工具進(jìn)行統(tǒng)計(jì)以及組合時(shí)具有一定程度的優(yōu)勢(shì),但是針對(duì)不同的分類器會(huì)更樂于選擇不相同的空間降低維度的方法。通常情況下使用的特征值會(huì)對(duì)不同的算法選擇效果上有著不同的反應(yīng)[2]。
3)評(píng)估的方法
在理論研究之中,Li和Yang兩位學(xué)者都覺得對(duì)于訓(xùn)練數(shù)據(jù)導(dǎo)致的一些不同誤差以及這些誤差的復(fù)雜程度會(huì)使分類器的不同能力都通通顯露出來。對(duì)平時(shí)研究中經(jīng)常使用的不同分類的方法進(jìn)行系統(tǒng)化分析。這兩位學(xué)者將分類器得到最理想效果的條件以及受其同質(zhì)化的損失的函數(shù)進(jìn)行分類,分為訓(xùn)練當(dāng)中的損失以及所構(gòu)建的模型的復(fù)雜程度這兩個(gè)門類。
2基于機(jī)器學(xué)習(xí)的文本研究方法的主要挑戰(zhàn)以及當(dāng)前取得的有效進(jìn)展
就目前而言,對(duì)于機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的研究已經(jīng)相對(duì)比較成熟,而基于機(jī)器學(xué)習(xí)的文本分類研究經(jīng)過20年來的不斷發(fā)展,解決了之前無法解決的一系列問題。在掌握數(shù)據(jù)量比較稀少的時(shí)候,分類器的標(biāo)注量反而比較平均。但是目前還是有許多問題無法得到合理的解決。近些年來基于機(jī)器學(xué)習(xí)的文本分類研究領(lǐng)域主要面臨的挑戰(zhàn)有以下幾點(diǎn):(1)分類器的日常使用會(huì)被一些分類體系而影響,不同的類別適合不同的分類體系,要根據(jù)文本信息的體系而進(jìn)行專門的識(shí)別工作。(2)在建立分類器之后得到的數(shù)據(jù)樣本相對(duì)于尚未獲得的數(shù)據(jù)數(shù)量過于稀少,導(dǎo)致產(chǎn)生的結(jié)果不能達(dá)到理想的效果。(3)在對(duì)于各個(gè)種類的分析時(shí)會(huì)遇到很多困難,比如遇到瓶頸問題是因?yàn)椴煌奈谋緮?shù)據(jù)更新的頻次太高,導(dǎo)致無法對(duì)其進(jìn)行科學(xué)合理的分析。以上三個(gè)問題需要我們對(duì)文本分類技術(shù)進(jìn)行進(jìn)一步的探索。
1)針對(duì)數(shù)據(jù)集的偏斜問題的研究
隨著機(jī)器學(xué)習(xí)的文本分類方法的不斷研究,我們發(fā)現(xiàn)收集的數(shù)據(jù)分布情況通常是偏斜,或者說是沒有均勻分布。不同種類的差距有可能是數(shù)量級(jí)之間的差距。這是造成數(shù)據(jù)集分布不均衡的一大重要原因。
有效解決這一問題的合理措施有以下幾點(diǎn):(1)進(jìn)行重新取樣,可以進(jìn)行對(duì)大類的信息進(jìn)行選擇性忽視,或者是可以對(duì)小類信息的錯(cuò)誤代價(jià)采取進(jìn)一步提高的策略。(2)采用最新型的分類方法和戰(zhàn)略,比如傳統(tǒng)的單類SVM會(huì)把原點(diǎn)來當(dāng)作整個(gè)研究的中心點(diǎn),而如果將其分離,會(huì)使之前難以解決的問題轉(zhuǎn)化為被不同的數(shù)據(jù)分布所影響的問題。(3)運(yùn)用更加優(yōu)秀的效果評(píng)估方法來進(jìn)行評(píng)測(cè),比如ROC曲線,這種曲線在收集的數(shù)據(jù)偏斜情況下仍然能夠進(jìn)行正常的評(píng)估。并且相對(duì)于其他曲線,在基于機(jī)器學(xué)習(xí)的文本分類方法中,ROC曲線還具有更易被機(jī)器進(jìn)行抓取與識(shí)別的優(yōu)勢(shì)[3]。
2)標(biāo)注的瓶頸
在學(xué)習(xí)算法的過程當(dāng)中必須要借助大量的樣本來進(jìn)行標(biāo)注,但是當(dāng)前已經(jīng)標(biāo)注的樣本不能提供足夠的有效信息,而且在研究過程中可以獲取的樣本相對(duì)于未知的數(shù)據(jù)還是太少,這就制約了基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的研究進(jìn)程。因此,如何用少量的已經(jīng)標(biāo)注的樣本來進(jìn)行研究是目前需要解決的關(guān)于標(biāo)注瓶頸的問題。首先,要將預(yù)期的期望進(jìn)行最大化應(yīng)用,盡可能利用少量的樣本進(jìn)行標(biāo)注,這種方法可以深度優(yōu)化文本分類效果,綜合提高文本分類的效率。另外一種解決方案是采用直推的方式,將分類器優(yōu)先對(duì)少量的樣本進(jìn)行推測(cè),挑選重點(diǎn)的有特征的信息數(shù)據(jù)進(jìn)行分類識(shí)別工作,從而起到優(yōu)化改進(jìn)分類器的效果,相對(duì)于傳統(tǒng)的標(biāo)注分類方式,采用直推方法來對(duì)基于機(jī)器學(xué)習(xí)的文本進(jìn)行分類識(shí)別能夠使識(shí)別效率大幅提升。以上兩種方法在對(duì)于標(biāo)注的瓶頸優(yōu)化解決上能夠起到了較大的幫助[4]。
3)對(duì)Web進(jìn)行合理分類
通常所說的文本分類方法都是將文本自身進(jìn)行分類,但是在互聯(lián)網(wǎng)視角上,尤其是Web頁面的分類,其中所含有的有用的信息將會(huì)對(duì)文本進(jìn)行體現(xiàn),從而可以側(cè)面測(cè)試并解決分類器的決策問題。在當(dāng)前研究中,要怎樣合理的展現(xiàn)這些結(jié)構(gòu)性的不同樣本信息來滿足統(tǒng)計(jì)仍然是目前機(jī)器學(xué)習(xí)的文本分類研究領(lǐng)域尚未定論的問題。
4)多層分類
一般來講,我們所研究的問題都是相對(duì)獨(dú)立的,學(xué)者們普遍認(rèn)為這些問題之間并沒有聯(lián)系。但是在研究的種類比較多的時(shí)候,比如利用目前互聯(lián)網(wǎng)時(shí)代下豐富的Web信息來進(jìn)行綜合管理研究上,我們必須使用多層次的信息分類方法。多層分類是指對(duì)所研究的樣本數(shù)據(jù)進(jìn)行多個(gè)層次的研究探討,在面對(duì)難以解決的必須通過大量數(shù)據(jù)才能解決的問題時(shí)通常有較好的表現(xiàn)。所以在基于機(jī)器學(xué)習(xí)的文本分類方法中,采用多層分類這種方式處理文本信息是一種較為理想的分類方式。
3結(jié)束語
本文對(duì)機(jī)器學(xué)習(xí)的文本分類技術(shù)基礎(chǔ)進(jìn)行研究并討論其優(yōu)化方法,對(duì)基于機(jī)器學(xué)習(xí)的文本研究方法面臨的主要挑戰(zhàn)進(jìn)行總結(jié),并對(duì)當(dāng)前取得的有效進(jìn)展進(jìn)行總結(jié)。重點(diǎn)討論了最近幾年面對(duì)的文本分類難題以及對(duì)文本分類相關(guān)學(xué)者的最新研究?jī)?nèi)容進(jìn)行總結(jié)。基于機(jī)器學(xué)習(xí)的文本分類技術(shù)在不同領(lǐng)域都有著廣泛的應(yīng)用,但伴隨著時(shí)代的進(jìn)步,人們的不同特殊需求也開始顯露,人們不再局限于以前傳統(tǒng)思想的束縛,越來越多的新型需求開始顯現(xiàn)出來,這些新型需求也對(duì)當(dāng)前的文字分類技術(shù)提出了挑戰(zhàn)。文本分類技術(shù)還有許多問題仍然值得進(jìn)一步研究,希望本文探討出的幾點(diǎn)結(jié)論能夠起到借鑒作用。
參考文獻(xiàn):
[1] 周晶,沈雋城.基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)技術(shù)對(duì)文本分類的研究[J].信息通信,2020,33(6):5-6.
[2] 王爽.基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類方法研究[D].成都:電子科技大學(xué),2020.
[3] 白亞莉.基于機(jī)器學(xué)習(xí)的新聞文本分類技術(shù)[C]//2019中國(guó)信息通信大會(huì)(CICC 2019)論文集.成都,2019:397-403.
[4] 韋靈,倪志平.基于自然語言處理和機(jī)器學(xué)習(xí)的文本分類及其運(yùn)用[J].科技視界,2019(27):88-89.
【通聯(lián)編輯:代影】