999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展

2021-11-28 00:58:08徐萍
電腦知識(shí)與技術(shù) 2021年30期
關(guān)鍵詞:機(jī)器學(xué)習(xí)進(jìn)展

徐萍

摘要:近些年來,在信息的搜索以及對(duì)數(shù)據(jù)進(jìn)行挖掘的研究等領(lǐng)域中,文本自動(dòng)分類技術(shù)是這個(gè)領(lǐng)域最新、最關(guān)鍵的技術(shù),并且在互聯(lián)網(wǎng)紛繁復(fù)雜的信息處理方面以及機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)上,文本分類技術(shù)處理面臨種種挑戰(zhàn),在算法、模型以及對(duì)產(chǎn)品的評(píng)測(cè)進(jìn)行一系列的研究工作,該文總結(jié)了當(dāng)前在機(jī)器學(xué)習(xí)基礎(chǔ)上的關(guān)鍵問題,例如:Web頁的分類方法,分類的多層性,算法的擴(kuò)展特性,標(biāo)注的瓶頸,文本分類技術(shù)的分散性以及線性。該文綜合考慮了以上因素,對(duì)其進(jìn)行科學(xué)合理的分析,并對(duì)基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的研發(fā)與改進(jìn)方法提出幾點(diǎn)建議與措施,希望可以起到借鑒作用。

關(guān)鍵詞:機(jī)器學(xué)習(xí);文本分類;結(jié)束研究;進(jìn)展

中圖分類號(hào):TP3? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)30-0109-02

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

在如今這個(gè)信息時(shí)代,互聯(lián)網(wǎng)上每天都有海量的不同信息涌入人們腦海當(dāng)中。針對(duì)這些基于信息內(nèi)容的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘工作以及對(duì)這些海量信息檢索能力都是目前的熱門研究領(lǐng)域。這些領(lǐng)域之中,文本分類技術(shù)是其中最為重要的一種技術(shù),文本分類方法就是針對(duì)固定的類別基礎(chǔ)上通過文字來對(duì)其進(jìn)行識(shí)別。文本分類技術(shù)處理主要是理解自然的語言并對(duì)其進(jìn)行有效處理,對(duì)信息進(jìn)行管理以及組織,并對(duì)文字的內(nèi)容進(jìn)行過濾,分離出無效信息。因此,對(duì)基于機(jī)器學(xué)習(xí)的文字分類技術(shù)的研究就尤為重要。對(duì)不同文本分類方法進(jìn)行總結(jié)并試圖探討優(yōu)化當(dāng)前文本分類技術(shù)的方法。基于機(jī)器學(xué)習(xí)的文字分類技術(shù)由三個(gè)部分組合而成:分類的最終實(shí)現(xiàn)效果,對(duì)實(shí)現(xiàn)的效果進(jìn)行可視化演示以及對(duì)不同文本的呈現(xiàn)與顯示。

1對(duì)于基于機(jī)器學(xué)習(xí)的文本分類技術(shù)基礎(chǔ)研究工作

近些年來,我們對(duì)于機(jī)器學(xué)習(xí)的文本分類研究轉(zhuǎn)化為對(duì)BOW的研究,并且對(duì)于不同算法的記錄與統(tǒng)計(jì),以及不同文本的分類情況進(jìn)行預(yù)測(cè)。該項(xiàng)研究已經(jīng)隨著時(shí)代進(jìn)展逐漸成為目前文本分類研究的基本工作。由統(tǒng)計(jì)學(xué)以及基于語言學(xué)的文本分類研究的方法進(jìn)行文字分類結(jié)果的預(yù)測(cè)也已經(jīng)得到了廣泛的科學(xué)進(jìn)步,與以上研究領(lǐng)域相關(guān)的技術(shù)也廣泛地在基于機(jī)器學(xué)習(xí)的文本分類技術(shù)中進(jìn)行運(yùn)用,本文將在文本分類研究領(lǐng)域?qū)<覍W(xué)者的研究基礎(chǔ)上進(jìn)行進(jìn)一步研究與探討。

1)對(duì)于文本進(jìn)行表示

VSM依舊是目前研究的主要的方法,采用何種語意的單元來作為項(xiàng)及的計(jì)算數(shù)量權(quán)重的基本問題有兩個(gè),一是絕大部分的文字識(shí)別對(duì)象都是采用詞這個(gè)單元來作為基本計(jì)算單位,以文字項(xiàng)的不同頻率來作為文字分類基本運(yùn)算的不同權(quán)重。Debole曾表示將監(jiān)督這一環(huán)節(jié)作為文字分類的權(quán)重這一概念,從而充分發(fā)揮項(xiàng)的能夠顯著來進(jìn)行權(quán)重的平衡發(fā)展。

而除了VSM以外,還有一種模型在相關(guān)人士之間也十分流行,那就是針對(duì)項(xiàng)的概率分布以及在二維的視圖之上表示。文本分類研究專家Bigi等專家紛紛表示任意選取一個(gè)a文本以及b類的文本都可以被看成一個(gè)包括全部項(xiàng)的概率分布情況P(a,b),i=1…,這種分布方式叫作將分布進(jìn)行特殊的概率表示,這種特殊的分布方法在一些情況中有著不錯(cuò)的表現(xiàn)。

另外還存在著一種語義的單元之間的相互聯(lián)系,一些文字分類技術(shù)渴望利用自然的語言處理技術(shù)來進(jìn)行基于機(jī)器學(xué)習(xí)的文字分類工作。而這種技術(shù)往往被BOW所忘記,所以,在這種新型的文字分類方法中,詞語的意思以及短語之中的項(xiàng)都被運(yùn)用到不同的分類方法之中進(jìn)行文字分類工作。但是這種新型的文字分類處理方法還不太成熟,這是因?yàn)檫@種新型的文字分類方法會(huì)導(dǎo)致分類器的運(yùn)行速度遭到很大的影響,并且這些新型的文字分類表示方法相對(duì)于傳統(tǒng)的文字分類表示技術(shù)并沒有很顯著的提升,而且沒有絕對(duì)的優(yōu)勢(shì)的產(chǎn)生。截止到現(xiàn)在,不屬于VSM的方法的合理程度以及在理論上以及實(shí)踐上的實(shí)際拓展應(yīng)用上還仍然需要進(jìn)一步的驗(yàn)證才能放心使用,目前這種方式的文字分類方法還比較的單一,并沒有在相關(guān)領(lǐng)域進(jìn)行進(jìn)一步的實(shí)際應(yīng)用[1]。

2)將空間的維度進(jìn)行降低

對(duì)于空間維度降低的相關(guān)研究主要集中在幾個(gè)方面:將維度降低后的模型的實(shí)際算法與另一種算法進(jìn)行比較,對(duì)特征數(shù)集的分類效果關(guān)系進(jìn)行討論以及維度降低的幅度大小進(jìn)行控制。對(duì)于空間維度降低的模型與之相對(duì)應(yīng)的實(shí)際算法相關(guān)研究,到目前為止還仍然處于較為傳統(tǒng)的階段。(1)對(duì)于項(xiàng)以及其分類種別的相關(guān)研究通常采用概率統(tǒng)計(jì)的方法進(jìn)行。(2)對(duì)于分布上相似程度較高的文本分類方法,應(yīng)該采用信息熵的視角來進(jìn)行探討,比如通過研究全局的信息來探討不同分類方法的可行性。(3)對(duì)于隱藏的特別含義的分析路徑研究,我們通常采用不相同的分析方法來設(shè)法得到線性的映射,這種映射可以通過對(duì)矩陣的不同角度進(jìn)行分析,并對(duì)文本分類矩陣進(jìn)行化簡(jiǎn)工作,盡可能地使其變得簡(jiǎn)潔。數(shù)據(jù)維度的降低也會(huì)對(duì)研究結(jié)果產(chǎn)生影響,所以在研究過程中必須對(duì)其加以注意。在實(shí)驗(yàn)過程中,特征數(shù)目的增加通常會(huì)使分類器的理想效果產(chǎn)生不好的影響。在前人的研究文獻(xiàn)中,他們發(fā)現(xiàn):對(duì)于空間在正常范圍內(nèi)的維度降低可能會(huì)導(dǎo)致分類器特征數(shù)量的增加而隨之增加。產(chǎn)生的結(jié)果可能會(huì)迅速得到提升并且十分平穩(wěn)。但是如果在實(shí)際測(cè)試過程中,特征的數(shù)量增長(zhǎng)速度過于迅速,也可能會(huì)影響分類器的最終結(jié)果,并且會(huì)使分類器的性能有很大的降低。該項(xiàng)研究說明:將空間的維度進(jìn)行降低在可以高效處理開銷的同時(shí)也可能會(huì)降低效果器的實(shí)際使用效果。在結(jié)果上面來看的話,BNS以及IG等一系列測(cè)量工具進(jìn)行統(tǒng)計(jì)以及組合時(shí)具有一定程度的優(yōu)勢(shì),但是針對(duì)不同的分類器會(huì)更樂于選擇不相同的空間降低維度的方法。通常情況下使用的特征值會(huì)對(duì)不同的算法選擇效果上有著不同的反應(yīng)[2]。

3)評(píng)估的方法

在理論研究之中,Li和Yang兩位學(xué)者都覺得對(duì)于訓(xùn)練數(shù)據(jù)導(dǎo)致的一些不同誤差以及這些誤差的復(fù)雜程度會(huì)使分類器的不同能力都通通顯露出來。對(duì)平時(shí)研究中經(jīng)常使用的不同分類的方法進(jìn)行系統(tǒng)化分析。這兩位學(xué)者將分類器得到最理想效果的條件以及受其同質(zhì)化的損失的函數(shù)進(jìn)行分類,分為訓(xùn)練當(dāng)中的損失以及所構(gòu)建的模型的復(fù)雜程度這兩個(gè)門類。

2基于機(jī)器學(xué)習(xí)的文本研究方法的主要挑戰(zhàn)以及當(dāng)前取得的有效進(jìn)展

就目前而言,對(duì)于機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的研究已經(jīng)相對(duì)比較成熟,而基于機(jī)器學(xué)習(xí)的文本分類研究經(jīng)過20年來的不斷發(fā)展,解決了之前無法解決的一系列問題。在掌握數(shù)據(jù)量比較稀少的時(shí)候,分類器的標(biāo)注量反而比較平均。但是目前還是有許多問題無法得到合理的解決。近些年來基于機(jī)器學(xué)習(xí)的文本分類研究領(lǐng)域主要面臨的挑戰(zhàn)有以下幾點(diǎn):(1)分類器的日常使用會(huì)被一些分類體系而影響,不同的類別適合不同的分類體系,要根據(jù)文本信息的體系而進(jìn)行專門的識(shí)別工作。(2)在建立分類器之后得到的數(shù)據(jù)樣本相對(duì)于尚未獲得的數(shù)據(jù)數(shù)量過于稀少,導(dǎo)致產(chǎn)生的結(jié)果不能達(dá)到理想的效果。(3)在對(duì)于各個(gè)種類的分析時(shí)會(huì)遇到很多困難,比如遇到瓶頸問題是因?yàn)椴煌奈谋緮?shù)據(jù)更新的頻次太高,導(dǎo)致無法對(duì)其進(jìn)行科學(xué)合理的分析。以上三個(gè)問題需要我們對(duì)文本分類技術(shù)進(jìn)行進(jìn)一步的探索。

1)針對(duì)數(shù)據(jù)集的偏斜問題的研究

隨著機(jī)器學(xué)習(xí)的文本分類方法的不斷研究,我們發(fā)現(xiàn)收集的數(shù)據(jù)分布情況通常是偏斜,或者說是沒有均勻分布。不同種類的差距有可能是數(shù)量級(jí)之間的差距。這是造成數(shù)據(jù)集分布不均衡的一大重要原因。

有效解決這一問題的合理措施有以下幾點(diǎn):(1)進(jìn)行重新取樣,可以進(jìn)行對(duì)大類的信息進(jìn)行選擇性忽視,或者是可以對(duì)小類信息的錯(cuò)誤代價(jià)采取進(jìn)一步提高的策略。(2)采用最新型的分類方法和戰(zhàn)略,比如傳統(tǒng)的單類SVM會(huì)把原點(diǎn)來當(dāng)作整個(gè)研究的中心點(diǎn),而如果將其分離,會(huì)使之前難以解決的問題轉(zhuǎn)化為被不同的數(shù)據(jù)分布所影響的問題。(3)運(yùn)用更加優(yōu)秀的效果評(píng)估方法來進(jìn)行評(píng)測(cè),比如ROC曲線,這種曲線在收集的數(shù)據(jù)偏斜情況下仍然能夠進(jìn)行正常的評(píng)估。并且相對(duì)于其他曲線,在基于機(jī)器學(xué)習(xí)的文本分類方法中,ROC曲線還具有更易被機(jī)器進(jìn)行抓取與識(shí)別的優(yōu)勢(shì)[3]。

2)標(biāo)注的瓶頸

在學(xué)習(xí)算法的過程當(dāng)中必須要借助大量的樣本來進(jìn)行標(biāo)注,但是當(dāng)前已經(jīng)標(biāo)注的樣本不能提供足夠的有效信息,而且在研究過程中可以獲取的樣本相對(duì)于未知的數(shù)據(jù)還是太少,這就制約了基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的研究進(jìn)程。因此,如何用少量的已經(jīng)標(biāo)注的樣本來進(jìn)行研究是目前需要解決的關(guān)于標(biāo)注瓶頸的問題。首先,要將預(yù)期的期望進(jìn)行最大化應(yīng)用,盡可能利用少量的樣本進(jìn)行標(biāo)注,這種方法可以深度優(yōu)化文本分類效果,綜合提高文本分類的效率。另外一種解決方案是采用直推的方式,將分類器優(yōu)先對(duì)少量的樣本進(jìn)行推測(cè),挑選重點(diǎn)的有特征的信息數(shù)據(jù)進(jìn)行分類識(shí)別工作,從而起到優(yōu)化改進(jìn)分類器的效果,相對(duì)于傳統(tǒng)的標(biāo)注分類方式,采用直推方法來對(duì)基于機(jī)器學(xué)習(xí)的文本進(jìn)行分類識(shí)別能夠使識(shí)別效率大幅提升。以上兩種方法在對(duì)于標(biāo)注的瓶頸優(yōu)化解決上能夠起到了較大的幫助[4]。

3)對(duì)Web進(jìn)行合理分類

通常所說的文本分類方法都是將文本自身進(jìn)行分類,但是在互聯(lián)網(wǎng)視角上,尤其是Web頁面的分類,其中所含有的有用的信息將會(huì)對(duì)文本進(jìn)行體現(xiàn),從而可以側(cè)面測(cè)試并解決分類器的決策問題。在當(dāng)前研究中,要怎樣合理的展現(xiàn)這些結(jié)構(gòu)性的不同樣本信息來滿足統(tǒng)計(jì)仍然是目前機(jī)器學(xué)習(xí)的文本分類研究領(lǐng)域尚未定論的問題。

4)多層分類

一般來講,我們所研究的問題都是相對(duì)獨(dú)立的,學(xué)者們普遍認(rèn)為這些問題之間并沒有聯(lián)系。但是在研究的種類比較多的時(shí)候,比如利用目前互聯(lián)網(wǎng)時(shí)代下豐富的Web信息來進(jìn)行綜合管理研究上,我們必須使用多層次的信息分類方法。多層分類是指對(duì)所研究的樣本數(shù)據(jù)進(jìn)行多個(gè)層次的研究探討,在面對(duì)難以解決的必須通過大量數(shù)據(jù)才能解決的問題時(shí)通常有較好的表現(xiàn)。所以在基于機(jī)器學(xué)習(xí)的文本分類方法中,采用多層分類這種方式處理文本信息是一種較為理想的分類方式。

3結(jié)束語

本文對(duì)機(jī)器學(xué)習(xí)的文本分類技術(shù)基礎(chǔ)進(jìn)行研究并討論其優(yōu)化方法,對(duì)基于機(jī)器學(xué)習(xí)的文本研究方法面臨的主要挑戰(zhàn)進(jìn)行總結(jié),并對(duì)當(dāng)前取得的有效進(jìn)展進(jìn)行總結(jié)。重點(diǎn)討論了最近幾年面對(duì)的文本分類難題以及對(duì)文本分類相關(guān)學(xué)者的最新研究?jī)?nèi)容進(jìn)行總結(jié)。基于機(jī)器學(xué)習(xí)的文本分類技術(shù)在不同領(lǐng)域都有著廣泛的應(yīng)用,但伴隨著時(shí)代的進(jìn)步,人們的不同特殊需求也開始顯露,人們不再局限于以前傳統(tǒng)思想的束縛,越來越多的新型需求開始顯現(xiàn)出來,這些新型需求也對(duì)當(dāng)前的文字分類技術(shù)提出了挑戰(zhàn)。文本分類技術(shù)還有許多問題仍然值得進(jìn)一步研究,希望本文探討出的幾點(diǎn)結(jié)論能夠起到借鑒作用。

參考文獻(xiàn):

[1] 周晶,沈雋城.基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)技術(shù)對(duì)文本分類的研究[J].信息通信,2020,33(6):5-6.

[2] 王爽.基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類方法研究[D].成都:電子科技大學(xué),2020.

[3] 白亞莉.基于機(jī)器學(xué)習(xí)的新聞文本分類技術(shù)[C]//2019中國(guó)信息通信大會(huì)(CICC 2019)論文集.成都,2019:397-403.

[4] 韋靈,倪志平.基于自然語言處理和機(jī)器學(xué)習(xí)的文本分類及其運(yùn)用[J].科技視界,2019(27):88-89.

【通聯(lián)編輯:代影】

猜你喜歡
機(jī)器學(xué)習(xí)進(jìn)展
Micro-SPECT/CT應(yīng)用進(jìn)展
扁平苔蘚的診斷與治療進(jìn)展
仿生學(xué)應(yīng)用進(jìn)展與展望
科技傳播(2019年22期)2020-01-14 03:06:40
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
寄生胎的診治進(jìn)展
我國(guó)土壤污染防治進(jìn)展
河南科技(2014年22期)2014-02-27 14:18:22
主站蜘蛛池模板: 97se亚洲综合在线| 9cao视频精品| 亚瑟天堂久久一区二区影院| 亚洲色图欧美| 老汉色老汉首页a亚洲| 3344在线观看无码| 毛片在线看网站| 日本伊人色综合网| 国产精品午夜福利麻豆| 成年免费在线观看| 91精品啪在线观看国产| 国产白浆视频| 成人一区专区在线观看| 91免费国产高清观看| 欧美亚洲第一页| 国产精品片在线观看手机版| 成人在线观看不卡| 亚洲水蜜桃久久综合网站| 亚洲精品第1页| 欧美啪啪一区| 久久精品亚洲专区| 成人免费午间影院在线观看| 亚洲男人的天堂在线| 成色7777精品在线| 毛片免费高清免费| 天天色综合4| 久久狠狠色噜噜狠狠狠狠97视色| 欧美综合中文字幕久久| 不卡无码网| 国产女人喷水视频| 色婷婷成人| 欧美日韩激情在线| 伊人91视频| 美女扒开下面流白浆在线试听| 五月六月伊人狠狠丁香网| 亚洲成人网在线播放| 亚洲精品天堂自在久久77| 久久不卡国产精品无码| 另类综合视频| 久操线在视频在线观看| 亚洲无线观看| 少妇极品熟妇人妻专区视频| 91网红精品在线观看| 国产一区亚洲一区| 国产69精品久久久久孕妇大杂乱 | a免费毛片在线播放| 欧美日韩专区| 99久久成人国产精品免费| 四虎亚洲国产成人久久精品| 欧美亚洲日韩不卡在线在线观看| 亚洲视频黄| 欧美成人a∨视频免费观看| 亚洲欧美日韩成人在线| 在线欧美日韩国产| 91最新精品视频发布页| 亚洲国产综合第一精品小说| 亚洲中文字幕久久无码精品A| 国产va视频| 精品人妻无码区在线视频| 亚洲成在线观看| 国产欧美精品专区一区二区| 免费亚洲成人| 久久婷婷五月综合色一区二区| 香蕉久久国产精品免| 国产毛片不卡| 午夜不卡福利| 国产毛片不卡| 亚洲中文字幕在线观看| 亚洲男人的天堂网| 国产成人高清亚洲一区久久| 亚洲无码久久久久| 中文字幕在线看| 丝袜国产一区| 一本二本三本不卡无码| 国产99在线观看| 好吊色妇女免费视频免费| 国产在线98福利播放视频免费| 91小视频在线播放| 欧美中日韩在线| 成人精品亚洲| 无码免费的亚洲视频| 一级黄色欧美|