基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展

2021-11-28 00:58:08徐萍

電腦知識(shí)與技術(shù) 2021年30期

徐萍

摘要：近些年來，在信息的搜索以及對(duì)數(shù)據(jù)進(jìn)行挖掘的研究等領(lǐng)域中，文本自動(dòng)分類技術(shù)是這個(gè)領(lǐng)域最新、最關(guān)鍵的技術(shù)，并且在互聯(lián)網(wǎng)紛繁復(fù)雜的信息處理方面以及機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)上，文本分類技術(shù)處理面臨種種挑戰(zhàn)，在算法、模型以及對(duì)產(chǎn)品的評(píng)測(cè)進(jìn)行一系列的研究工作，該文總結(jié)了當(dāng)前在機(jī)器學(xué)習(xí)基礎(chǔ)上的關(guān)鍵問題，例如：Web頁的分類方法，分類的多層性，算法的擴(kuò)展特性，標(biāo)注的瓶頸，文本分類技術(shù)的分散性以及線性。該文綜合考慮了以上因素，對(duì)其進(jìn)行科學(xué)合理的分析，并對(duì)基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的研發(fā)與改進(jìn)方法提出幾點(diǎn)建議與措施，希望可以起到借鑒作用。

關(guān)鍵詞：機(jī)器學(xué)習(xí);文本分類;結(jié)束研究;進(jìn)展

中圖分類號(hào)：TP3? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）30-0109-02

開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

在如今這個(gè)信息時(shí)代，互聯(lián)網(wǎng)上每天都有海量的不同信息涌入人們腦海當(dāng)中。針對(duì)這些基于信息內(nèi)容的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘工作以及對(duì)這些海量信息檢索能力都是目前的熱門研究領(lǐng)域。這些領(lǐng)域之中，文本分類技術(shù)是其中最為重要的一種技術(shù)，文本分類方法就是針對(duì)固定的類別基礎(chǔ)上通過文字來對(duì)其進(jìn)行識(shí)別。文本分類技術(shù)處理主要是理解自然的語言并對(duì)其進(jìn)行有效處理，對(duì)信息進(jìn)行管理以及組織，并對(duì)文字的內(nèi)容進(jìn)行過濾，分離出無效信息。因此，對(duì)基于機(jī)器學(xué)習(xí)的文字分類技術(shù)的研究就尤為重要。對(duì)不同文本分類方法進(jìn)行總結(jié)并試圖探討優(yōu)化當(dāng)前文本分類技術(shù)的方法。基于機(jī)器學(xué)習(xí)的文字分類技術(shù)由三個(gè)部分組合而成：分類的最終實(shí)現(xiàn)效果，對(duì)實(shí)現(xiàn)的效果進(jìn)行可視化演示以及對(duì)不同文本的呈現(xiàn)與顯示。

1對(duì)于基于機(jī)器學(xué)習(xí)的文本分類技術(shù)基礎(chǔ)研究工作

近些年來，我們對(duì)于機(jī)器學(xué)習(xí)的文本分類研究轉(zhuǎn)化為對(duì)BOW的研究，并且對(duì)于不同算法的記錄與統(tǒng)計(jì)，以及不同文本的分類情況進(jìn)行預(yù)測(cè)。該項(xiàng)研究已經(jīng)隨著時(shí)代進(jìn)展逐漸成為目前文本分類研究的基本工作。由統(tǒng)計(jì)學(xué)以及基于語言學(xué)的文本分類研究的方法進(jìn)行文字分類結(jié)果的預(yù)測(cè)也已經(jīng)得到了廣泛的科學(xué)進(jìn)步，與以上研究領(lǐng)域相關(guān)的技術(shù)也廣泛地在基于機(jī)器學(xué)習(xí)的文本分類技術(shù)中進(jìn)行運(yùn)用，本文將在文本分類研究領(lǐng)域?qū)＜覍W(xué)者的研究基礎(chǔ)上進(jìn)行進(jìn)一步研究與探討。

1）對(duì)于文本進(jìn)行表示

VSM依舊是目前研究的主要的方法，采用何種語意的單元來作為項(xiàng)及的計(jì)算數(shù)量權(quán)重的基本問題有兩個(gè)，一是絕大部分的文字識(shí)別對(duì)象都是采用詞這個(gè)單元來作為基本計(jì)算單位，以文字項(xiàng)的不同頻率來作為文字分類基本運(yùn)算的不同權(quán)重。Debole曾表示將監(jiān)督這一環(huán)節(jié)作為文字分類的權(quán)重這一概念，從而充分發(fā)揮項(xiàng)的能夠顯著來進(jìn)行權(quán)重的平衡發(fā)展。

而除了VSM以外，還有一種模型在相關(guān)人士之間也十分流行，那就是針對(duì)項(xiàng)的概率分布以及在二維的視圖之上表示。文本分類研究專家Bigi等專家紛紛表示任意選取一個(gè)a文本以及b類的文本都可以被看成一個(gè)包括全部項(xiàng)的概率分布情況P（a，b），i=1…，這種分布方式叫作將分布進(jìn)行特殊的概率表示，這種特殊的分布方法在一些情況中有著不錯(cuò)的表現(xiàn)。

另外還存在著一種語義的單元之間的相互聯(lián)系，一些文字分類技術(shù)渴望利用自然的語言處理技術(shù)來進(jìn)行基于機(jī)器學(xué)習(xí)的文字分類工作。而這種技術(shù)往往被BOW所忘記，所以，在這種新型的文字分類方法中，詞語的意思以及短語之中的項(xiàng)都被運(yùn)用到不同的分類方法之中進(jìn)行文字分類工作。但是這種新型的文字分類處理方法還不太成熟，這是因?yàn)檫@種新型的文字分類方法會(huì)導(dǎo)致分類器的運(yùn)行速度遭到很大的影響，并且這些新型的文字分類表示方法相對(duì)于傳統(tǒng)的文字分類表示技術(shù)并沒有很顯著的提升，而且沒有絕對(duì)的優(yōu)勢(shì)的產(chǎn)生。截止到現(xiàn)在，不屬于VSM的方法的合理程度以及在理論上以及實(shí)踐上的實(shí)際拓展應(yīng)用上還仍然需要進(jìn)一步的驗(yàn)證才能放心使用，目前這種方式的文字分類方法還比較的單一，并沒有在相關(guān)領(lǐng)域進(jìn)行進(jìn)一步的實(shí)際應(yīng)用[1]。

2）將空間的維度進(jìn)行降低

對(duì)于空間維度降低的相關(guān)研究主要集中在幾個(gè)方面：將維度降低后的模型的實(shí)際算法與另一種算法進(jìn)行比較，對(duì)特征數(shù)集的分類效果關(guān)系進(jìn)行討論以及維度降低的幅度大小進(jìn)行控制。對(duì)于空間維度降低的模型與之相對(duì)應(yīng)的實(shí)際算法相關(guān)研究，到目前為止還仍然處于較為傳統(tǒng)的階段。（1）對(duì)于項(xiàng)以及其分類種別的相關(guān)研究通常采用概率統(tǒng)計(jì)的方法進(jìn)行。（2）對(duì)于分布上相似程度較高的文本分類方法，應(yīng)該采用信息熵的視角來進(jìn)行探討，比如通過研究全局的信息來探討不同分類方法的可行性。（3）對(duì)于隱藏的特別含義的分析路徑研究，我們通常采用不相同的分析方法來設(shè)法得到線性的映射，這種映射可以通過對(duì)矩陣的不同角度進(jìn)行分析，并對(duì)文本分類矩陣進(jìn)行化簡(jiǎn)工作，盡可能地使其變得簡(jiǎn)潔。數(shù)據(jù)維度的降低也會(huì)對(duì)研究結(jié)果產(chǎn)生影響，所以在研究過程中必須對(duì)其加以注意。在實(shí)驗(yàn)過程中，特征數(shù)目的增加通常會(huì)使分類器的理想效果產(chǎn)生不好的影響。在前人的研究文獻(xiàn)中，他們發(fā)現(xiàn)：對(duì)于空間在正常范圍內(nèi)的維度降低可能會(huì)導(dǎo)致分類器特征數(shù)量的增加而隨之增加。產(chǎn)生的結(jié)果可能會(huì)迅速得到提升并且十分平穩(wěn)。但是如果在實(shí)際測(cè)試過程中，特征的數(shù)量增長(zhǎng)速度過于迅速，也可能會(huì)影響分類器的最終結(jié)果，并且會(huì)使分類器的性能有很大的降低。該項(xiàng)研究說明：將空間的維度進(jìn)行降低在可以高效處理開銷的同時(shí)也可能會(huì)降低效果器的實(shí)際使用效果。在結(jié)果上面來看的話，BNS以及IG等一系列測(cè)量工具進(jìn)行統(tǒng)計(jì)以及組合時(shí)具有一定程度的優(yōu)勢(shì)，但是針對(duì)不同的分類器會(huì)更樂于選擇不相同的空間降低維度的方法。通常情況下使用的特征值會(huì)對(duì)不同的算法選擇效果上有著不同的反應(yīng)[2]。

3）評(píng)估的方法

在理論研究之中，Li和Yang兩位學(xué)者都覺得對(duì)于訓(xùn)練數(shù)據(jù)導(dǎo)致的一些不同誤差以及這些誤差的復(fù)雜程度會(huì)使分類器的不同能力都通通顯露出來。對(duì)平時(shí)研究中經(jīng)常使用的不同分類的方法進(jìn)行系統(tǒng)化分析。這兩位學(xué)者將分類器得到最理想效果的條件以及受其同質(zhì)化的損失的函數(shù)進(jìn)行分類，分為訓(xùn)練當(dāng)中的損失以及所構(gòu)建的模型的復(fù)雜程度這兩個(gè)門類。

2基于機(jī)器學(xué)習(xí)的文本研究方法的主要挑戰(zhàn)以及當(dāng)前取得的有效進(jìn)展

就目前而言，對(duì)于機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的研究已經(jīng)相對(duì)比較成熟，而基于機(jī)器學(xué)習(xí)的文本分類研究經(jīng)過20年來的不斷發(fā)展，解決了之前無法解決的一系列問題。在掌握數(shù)據(jù)量比較稀少的時(shí)候，分類器的標(biāo)注量反而比較平均。但是目前還是有許多問題無法得到合理的解決。近些年來基于機(jī)器學(xué)習(xí)的文本分類研究領(lǐng)域主要面臨的挑戰(zhàn)有以下幾點(diǎn)：（1）分類器的日常使用會(huì)被一些分類體系而影響，不同的類別適合不同的分類體系，要根據(jù)文本信息的體系而進(jìn)行專門的識(shí)別工作。（2）在建立分類器之后得到的數(shù)據(jù)樣本相對(duì)于尚未獲得的數(shù)據(jù)數(shù)量過于稀少，導(dǎo)致產(chǎn)生的結(jié)果不能達(dá)到理想的效果。（3）在對(duì)于各個(gè)種類的分析時(shí)會(huì)遇到很多困難，比如遇到瓶頸問題是因?yàn)椴煌奈谋緮?shù)據(jù)更新的頻次太高，導(dǎo)致無法對(duì)其進(jìn)行科學(xué)合理的分析。以上三個(gè)問題需要我們對(duì)文本分類技術(shù)進(jìn)行進(jìn)一步的探索。

1）針對(duì)數(shù)據(jù)集的偏斜問題的研究

隨著機(jī)器學(xué)習(xí)的文本分類方法的不斷研究，我們發(fā)現(xiàn)收集的數(shù)據(jù)分布情況通常是偏斜，或者說是沒有均勻分布。不同種類的差距有可能是數(shù)量級(jí)之間的差距。這是造成數(shù)據(jù)集分布不均衡的一大重要原因。

有效解決這一問題的合理措施有以下幾點(diǎn)：（1）進(jìn)行重新取樣，可以進(jìn)行對(duì)大類的信息進(jìn)行選擇性忽視，或者是可以對(duì)小類信息的錯(cuò)誤代價(jià)采取進(jìn)一步提高的策略。（2）采用最新型的分類方法和戰(zhàn)略，比如傳統(tǒng)的單類SVM會(huì)把原點(diǎn)來當(dāng)作整個(gè)研究的中心點(diǎn)，而如果將其分離，會(huì)使之前難以解決的問題轉(zhuǎn)化為被不同的數(shù)據(jù)分布所影響的問題。（3）運(yùn)用更加優(yōu)秀的效果評(píng)估方法來進(jìn)行評(píng)測(cè)，比如ROC曲線，這種曲線在收集的數(shù)據(jù)偏斜情況下仍然能夠進(jìn)行正常的評(píng)估。并且相對(duì)于其他曲線，在基于機(jī)器學(xué)習(xí)的文本分類方法中，ROC曲線還具有更易被機(jī)器進(jìn)行抓取與識(shí)別的優(yōu)勢(shì)[3]。

2）標(biāo)注的瓶頸

在學(xué)習(xí)算法的過程當(dāng)中必須要借助大量的樣本來進(jìn)行標(biāo)注，但是當(dāng)前已經(jīng)標(biāo)注的樣本不能提供足夠的有效信息，而且在研究過程中可以獲取的樣本相對(duì)于未知的數(shù)據(jù)還是太少，這就制約了基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的研究進(jìn)程。因此，如何用少量的已經(jīng)標(biāo)注的樣本來進(jìn)行研究是目前需要解決的關(guān)于標(biāo)注瓶頸的問題。首先，要將預(yù)期的期望進(jìn)行最大化應(yīng)用，盡可能利用少量的樣本進(jìn)行標(biāo)注，這種方法可以深度優(yōu)化文本分類效果，綜合提高文本分類的效率。另外一種解決方案是采用直推的方式，將分類器優(yōu)先對(duì)少量的樣本進(jìn)行推測(cè)，挑選重點(diǎn)的有特征的信息數(shù)據(jù)進(jìn)行分類識(shí)別工作，從而起到優(yōu)化改進(jìn)分類器的效果，相對(duì)于傳統(tǒng)的標(biāo)注分類方式，采用直推方法來對(duì)基于機(jī)器學(xué)習(xí)的文本進(jìn)行分類識(shí)別能夠使識(shí)別效率大幅提升。以上兩種方法在對(duì)于標(biāo)注的瓶頸優(yōu)化解決上能夠起到了較大的幫助[4]。

3）對(duì)Web進(jìn)行合理分類

通常所說的文本分類方法都是將文本自身進(jìn)行分類，但是在互聯(lián)網(wǎng)視角上，尤其是Web頁面的分類，其中所含有的有用的信息將會(huì)對(duì)文本進(jìn)行體現(xiàn)，從而可以側(cè)面測(cè)試并解決分類器的決策問題。在當(dāng)前研究中，要怎樣合理的展現(xiàn)這些結(jié)構(gòu)性的不同樣本信息來滿足統(tǒng)計(jì)仍然是目前機(jī)器學(xué)習(xí)的文本分類研究領(lǐng)域尚未定論的問題。

4）多層分類

一般來講，我們所研究的問題都是相對(duì)獨(dú)立的，學(xué)者們普遍認(rèn)為這些問題之間并沒有聯(lián)系。但是在研究的種類比較多的時(shí)候，比如利用目前互聯(lián)網(wǎng)時(shí)代下豐富的Web信息來進(jìn)行綜合管理研究上，我們必須使用多層次的信息分類方法。多層分類是指對(duì)所研究的樣本數(shù)據(jù)進(jìn)行多個(gè)層次的研究探討，在面對(duì)難以解決的必須通過大量數(shù)據(jù)才能解決的問題時(shí)通常有較好的表現(xiàn)。所以在基于機(jī)器學(xué)習(xí)的文本分類方法中，采用多層分類這種方式處理文本信息是一種較為理想的分類方式。

3結(jié)束語

本文對(duì)機(jī)器學(xué)習(xí)的文本分類技術(shù)基礎(chǔ)進(jìn)行研究并討論其優(yōu)化方法，對(duì)基于機(jī)器學(xué)習(xí)的文本研究方法面臨的主要挑戰(zhàn)進(jìn)行總結(jié)，并對(duì)當(dāng)前取得的有效進(jìn)展進(jìn)行總結(jié)。重點(diǎn)討論了最近幾年面對(duì)的文本分類難題以及對(duì)文本分類相關(guān)學(xué)者的最新研究?jī)?nèi)容進(jìn)行總結(jié)。基于機(jī)器學(xué)習(xí)的文本分類技術(shù)在不同領(lǐng)域都有著廣泛的應(yīng)用，但伴隨著時(shí)代的進(jìn)步，人們的不同特殊需求也開始顯露，人們不再局限于以前傳統(tǒng)思想的束縛，越來越多的新型需求開始顯現(xiàn)出來，這些新型需求也對(duì)當(dāng)前的文字分類技術(shù)提出了挑戰(zhàn)。文本分類技術(shù)還有許多問題仍然值得進(jìn)一步研究，希望本文探討出的幾點(diǎn)結(jié)論能夠起到借鑒作用。

參考文獻(xiàn)：

[1] 周晶，沈雋城.基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)技術(shù)對(duì)文本分類的研究[J].信息通信，2020，33（6）：5-6.

[2] 王爽.基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類方法研究[D].成都：電子科技大學(xué)，2020.

[3] 白亞莉.基于機(jī)器學(xué)習(xí)的新聞文本分類技術(shù)[C]//2019中國(guó)信息通信大會(huì)（CICC 2019）論文集.成都，2019：397-403.

[4] 韋靈，倪志平.基于自然語言處理和機(jī)器學(xué)習(xí)的文本分類及其運(yùn)用[J].科技視界，2019（27）：88-89.

【通聯(lián)編輯：代影】