999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖和K近鄰的文本分類(lèi)算法

2021-11-01 06:29:42吳宗卓
微型電腦應(yīng)用 2021年10期
關(guān)鍵詞:單詞文本

吳宗卓

(陜西國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)與軟件學(xué)院, 陜西 西安 710300)

0 引言

文本分類(lèi)是指在預(yù)先定義的主題或類(lèi)別中,將每一個(gè)文本分類(lèi)為其相關(guān)主題或類(lèi)別的過(guò)程[1-2]。作為初步任務(wù),預(yù)先定義了有限數(shù)量的類(lèi)別,并準(zhǔn)備用一個(gè)或一些預(yù)先定義的類(lèi)別標(biāo)記的示例文本[3]。在學(xué)習(xí)過(guò)程中,利用樣本標(biāo)記文本構(gòu)造分類(lèi)能力。后續(xù)文本是從樣本標(biāo)記文本中分離出來(lái)的文本,被歸類(lèi)為泛化過(guò)程。在本研究中,即使有其他的方法,如人工規(guī)則學(xué)習(xí)和其他啟發(fā)式方法,也假設(shè)使用有監(jiān)督的學(xué)習(xí)算法[4-5]。

然而,將文本編碼成數(shù)值向量會(huì)導(dǎo)致諸如大維數(shù)和稀疏分布等問(wèn)題[6]。圖成為知識(shí)或信息的普遍代表,稱(chēng)為本體論或詞網(wǎng)[7-8]。因?yàn)楸倔w是用來(lái)將知識(shí)表示為圖的,所以在以前的工作中,有很多處理圖的算法。因此,基于這些動(dòng)機(jī),將文本編碼成圖,并將機(jī)器學(xué)習(xí)算法修改成接收?qǐng)D作為輸入數(shù)據(jù)的版本。本研究采用鄰接矩陣來(lái)表示每一個(gè)圖。通過(guò)避免將文本編碼成數(shù)值向量的問(wèn)題,希望所提出的算法比傳統(tǒng)的K近鄰(K-Nearest Neighbor,KNN)算法有更好的性能。由于圖是比數(shù)值向量更多的符號(hào)文本表示,所以期望在編碼中有更多的透明度。為了更有效地處理文本,并使得文本的表示更加緊湊。因此,本研究的目標(biāo)是實(shí)現(xiàn)滿(mǎn)足效益的文本分類(lèi)。

1 背景知識(shí)

1.1 文本編碼

將文本編碼成圖的過(guò)程,如圖1所示。

圖1 文本編碼成圖的過(guò)程

將圖分解為兩組:頂點(diǎn)集和邊集。頂點(diǎn)和邊分別對(duì)應(yīng)于單詞及其語(yǔ)義關(guān)系。在本研究中,將表示文字的圖作為加權(quán)無(wú)向圖。因此,在本節(jié)中,將詳細(xì)描述把文本表示為圖的過(guò)程。

在將文本編碼到圖中之前,需要構(gòu)造一個(gè)索引列表,其中每個(gè)文本都鏈接到一個(gè)單詞列表。直接從語(yǔ)料庫(kù)中生成文本列表。每個(gè)文本都被索引到一個(gè)單詞列表中,并與它自己包含的單詞列表相關(guān)聯(lián)。每個(gè)單詞都有其權(quán)重,并將信息作為其與文本的關(guān)系發(fā)布。文本的索引基本上有三個(gè)步驟:標(biāo)記化、詞干化和停止字刪除。

在將文本編碼成圖的過(guò)程中,需要定義頂點(diǎn)后接邊。頂點(diǎn)對(duì)應(yīng)于文本中包含的單詞列表。其中一些是通過(guò)其作為頂點(diǎn)的權(quán)重選擇的,如式(1)。

D(v)={vi1,vi2,…,vim}

(1)

考慮通過(guò)對(duì)文本進(jìn)行排序來(lái)選擇固定數(shù)量的文本的排序選擇,以及選擇權(quán)重大于或等于閾值的文本的基于分?jǐn)?shù)的排序選擇作為選擇方案。通過(guò)索引提取一組表示單詞的頂點(diǎn)。

需要定義邊集和頂點(diǎn)集,以便將一個(gè)詞表示成一個(gè)圖。計(jì)算所有可能的頂點(diǎn)對(duì)的相似度來(lái)表示單詞。因此構(gòu)造了一個(gè)相似度矩陣,其條目是來(lái)自語(yǔ)料庫(kù)的詞之間的相似度。選擇相似度大于給定閾值的詞對(duì),并定義由以下邊組成的集,如式(2)。

D(e)={ei1,ei2,…,ein}

(2)

接著,需要考慮如何在實(shí)現(xiàn)層將圖表示為其結(jié)構(gòu)化形式。這里有三種方法,第一種方法主要采用的是鄰接矩陣,其中頂點(diǎn)對(duì)應(yīng)于其行和列,條目指示邊權(quán)重。把頂點(diǎn)作為節(jié)點(diǎn)、邊作為指針的鏈表看作是圖的另一種表示形式。第三種方式為一個(gè)圖被表示成一個(gè)邊的列表,這些邊被作為一對(duì)頂點(diǎn)標(biāo)識(shí)符給出,并且每個(gè)權(quán)重都與它自己的權(quán)重相關(guān)聯(lián)。在本研究中,采用第三種方案,即圖被表示成一組邊。

1.2 圖

本節(jié)討論圖運(yùn)算及其實(shí)現(xiàn)的基礎(chǔ)。它由兩部分組成,相似度矩陣及其運(yùn)算。

(1) 相似度矩陣:本小節(jié)關(guān)注相似度矩陣作為對(duì)字符串向量執(zhí)行語(yǔ)義操作的基礎(chǔ)。相似度矩陣的每一行和每一列對(duì)應(yīng)于語(yǔ)料庫(kù)中的一個(gè)單詞。所有可能的詞對(duì)的相似度都是以0和1之間的標(biāo)準(zhǔn)化值給出的。從語(yǔ)料庫(kù)中構(gòu)造的相似矩陣,該矩陣是對(duì)稱(chēng)元素和對(duì)角元素為1的N×N方陣。在本小節(jié)中,將正式描述相似矩陣的定義和特征。

相似度矩陣的每個(gè)條目都表示兩個(gè)對(duì)應(yīng)單詞之間的相似度。這兩個(gè)詞ti和tj被視為兩組文本。這兩個(gè)詞之間的相似性,由式(3)計(jì)算。

(3)

其中,|Ti|為集合的基數(shù)Ti。相似度總是以0和1之間的標(biāo)準(zhǔn)化值給出;如果兩個(gè)文檔彼此完全相同,則相似度變?yōu)?,如式(4)。

(4)

如果兩個(gè)單詞沒(méi)有共享的文本,那么Ti∩Tj=?的相似度為0,如式(5)。

(5)

在下一步的研究中將考慮更先進(jìn)的相似度計(jì)算方案。

從文本集合中,構(gòu)建了N×N方陣,如式(6)。

(6)

集合N中包含的單個(gè)單詞對(duì)應(yīng)于矩陣的行和列。條目sij由式(3)計(jì)算,如式(7)。

sij=sim(ti,tj)

(7)

式(3)中的分母防止了文本長(zhǎng)度的高估或低估。對(duì)于文本數(shù)N,構(gòu)建上述矩陣需要二次復(fù)雜度O(N2)。

用數(shù)學(xué)方法來(lái)描述上面的相似矩陣。由于每一列和每一行在矩陣的對(duì)角線(xiàn)位置對(duì)應(yīng)其相同的文本,所以對(duì)角線(xiàn)元素總是由式(3)給出1。在矩陣的非對(duì)角位置,由于式(3)中的0≤2|Ti∩Ti|≤|Ti|+|Tj|,這些值總是作為介于0和1之間的標(biāo)準(zhǔn)化值給出。證明了相似矩陣是對(duì)稱(chēng)的,如式(8)。

(8)

因此,該矩陣被描述為由0到1之間的歸一化值組成的對(duì)稱(chēng)矩陣。

相似矩陣可以從語(yǔ)料庫(kù)中自動(dòng)構(gòu)造。語(yǔ)料庫(kù)中包含的N個(gè)文本作為輸入,每一個(gè)文本都被索引成一個(gè)單詞表。生成所有可能的詞對(duì),并通過(guò)式(1)計(jì)算它們之間的相似性。通過(guò)計(jì)算它們,構(gòu)造了由相似性組成的方陣。一旦建立了相似度矩陣,它將繼續(xù)作為對(duì)字符串向量執(zhí)行操作的基礎(chǔ)。

(2) 圖之間的相似度:本節(jié)涉及計(jì)算兩個(gè)圖之間相似度的方案。單詞被編碼成圖,其中頂點(diǎn)是文本標(biāo)識(shí)符,邊是文本之間的相似性。假設(shè)每一個(gè)圖都是一組邊,并考慮計(jì)算圖之間相似性的三種情況:都重合,只有一個(gè)重合,以及無(wú)重合。圖之間的相似度是通過(guò)平均邊之間的相似度來(lái)計(jì)算的,并且總是以0到1之間的標(biāo)準(zhǔn)值給出。因此,本節(jié)旨在正式描述計(jì)算圖之間相似度的過(guò)程。

需要考慮由sim(ei,ej)表示的兩個(gè)獨(dú)立邊ei和ej之間的相似性,每個(gè)加權(quán)邊由兩個(gè)節(jié)點(diǎn)組成,其權(quán)重如式(9)。

ei={vi1,vi2,wi}

(9)

邊權(quán)用w(ei)=wi表示。如果沒(méi)有節(jié)點(diǎn)被兩條邊(A,B,0.2)和(C,D,0.4)共享,則相似度為零。如果(A,B,0.2)和(B,C,0.4)這樣的兩條邊只共享一個(gè)節(jié)點(diǎn),則相似度變成兩個(gè)權(quán)重的乘積,具體如式(10)。

sim(ei,ej)=w(ei)w(ej)

(10)

如果兩個(gè)節(jié)點(diǎn)都共享,則相似度將成為兩個(gè)權(quán)重的平均值,如式(11)。

(11)

假設(shè)邊之間的每一個(gè)權(quán)重總是作為0到1之間的標(biāo)準(zhǔn)化值給出。

兩個(gè)圖G1和G2表示為兩組,如式(12)。

(12)

并且假設(shè)兩個(gè)圖的邊數(shù)相同。所有可能的邊對(duì)都是由這兩個(gè)圖生成的。對(duì)于一個(gè)圖中的每一條邊,計(jì)算其與另一條圖中的邊的相似度,得到其中的最大值作為邊與圖之間的相似度為式(13)。

(13)

兩個(gè)圖之間的相似性是通過(guò)對(duì)邊與另一個(gè)圖之間的最大相似性進(jìn)行平均來(lái)設(shè)置的,如式(14)。

(14)

由于邊的權(quán)值總是作為規(guī)范化值給出的,所以圖之間的相似度總是如此。

接下來(lái),從數(shù)學(xué)上描述計(jì)算圖之間相似性的操作。如果兩個(gè)圖G1和G2彼此相同,并且所有邊都用1值加權(quán),即?i,w(e1i)=1,w(e2i)=1,則兩個(gè)圖之間的相似性變?yōu)?,如式(15)。

(15)

如果兩個(gè)圖G1和G2具有不同的權(quán)重,則兩個(gè)圖之間的相似性是兩個(gè)圖的平均權(quán)重,如式(16)。

(16)

如果兩個(gè)圖之間沒(méi)有共享邊,則相似度為零,如式(17)。

(17)

從數(shù)學(xué)刻畫(huà)可以證明,兩個(gè)圖之間的相似性總是一個(gè)介于0和1之間的標(biāo)準(zhǔn)化值。

2 改進(jìn)的KNN算法

傳統(tǒng)的KNN算法如圖2所示。

圖2 傳統(tǒng)KNN示意圖

用正類(lèi)或負(fù)類(lèi)標(biāo)記的樣本詞被編碼成數(shù)值向量。用歐幾里德距離或余弦相似性計(jì)算表示新樣本的數(shù)值向量與已有樣本的數(shù)值向量之間的相似性。選取K個(gè)最相似的樣本詞作為K個(gè)最近鄰,通過(guò)投票決定新樣本的標(biāo)簽。但是,請(qǐng)注意,傳統(tǒng)的KNN版本在計(jì)算非常稀疏的數(shù)值向量之間的相似性方面非常脆弱。

與傳統(tǒng)的分類(lèi)方法不同,改進(jìn)后的KNN算法的分類(lèi)過(guò)程,如圖3所示。

圖3 改進(jìn)的KNN示意圖

用正類(lèi)或負(fù)類(lèi)標(biāo)記的樣本文本通過(guò)第1.1節(jié)中描述的過(guò)程編碼成圖。兩個(gè)圖之間的相似性通過(guò)第1.2節(jié)中描述的方案計(jì)算。與傳統(tǒng)版本相同,在提出的版本中,選擇K個(gè)最相似的樣本,并通過(guò)對(duì)樣本實(shí)體的投票決定新樣本的標(biāo)簽。由于圖中的稀疏分布在本質(zhì)上是不可得的,因此本研究一定能克服稀疏分布的差分性,并且還可以繼續(xù)優(yōu)化,如可以將不同的權(quán)重分配給選定的鄰居,而不是相同的鄰居:最大的權(quán)重分配給第一個(gè)最近的鄰居,最小的權(quán)重分配給最后一個(gè)鄰居。與固定數(shù)量的近鄰不同,選擇了一個(gè)已給定的新樣本為中心的超球體內(nèi)任意數(shù)量的訓(xùn)練樣本作為近鄰。分類(lèi)分?jǐn)?shù)是根據(jù)訓(xùn)練樣本的相似性按比例計(jì)算的,而不是選擇最近的鄰居。還可以考慮兩個(gè)以上的變體組合在一起的變體。

3 實(shí)驗(yàn)與評(píng)估

3.1 實(shí)驗(yàn)環(huán)境

本研究的實(shí)驗(yàn)環(huán)境主要是基于Ubuntu 14.04的Linux操作系統(tǒng),采用Intelcore I7 2.5 GHz的CPU,16 GB的內(nèi)存,使用的編程語(yǔ)言為Python 2.7, 在Pycharm下運(yùn)行。在所有實(shí)驗(yàn)中使用的數(shù)據(jù)來(lái)源為路透社公開(kāi)的分類(lèi)語(yǔ)料庫(kù)[9]。在實(shí)驗(yàn)中從語(yǔ)料庫(kù)中選擇了相當(dāng)數(shù)量的數(shù)據(jù)作為訓(xùn)練集,并同時(shí)選取了對(duì)應(yīng)的作為測(cè)試集。分類(lèi)類(lèi)別包括了計(jì)算機(jī)、政治、教育、藝術(shù)、環(huán)境、歷史。整個(gè)訓(xùn)練集共有3 283個(gè)樣本,其中每一小類(lèi)的樣本數(shù)量不小于400篇。測(cè)試集共有2 942個(gè)樣本,其中每一小類(lèi)的樣本數(shù)量不小于500篇。

3.2 評(píng)價(jià)指標(biāo)

評(píng)價(jià)文本分類(lèi)算法性能主要是通過(guò)準(zhǔn)確率P,召回率R,以及與這兩個(gè)值相關(guān)的F1值。具體計(jì)算式如式(18)。

(18)

式中,a代表實(shí)例正確分配到正類(lèi)中的數(shù)目;b代表分配到正類(lèi)中的誤分實(shí)例;c代表屬于被分到負(fù)類(lèi)中原本屬于正類(lèi)的實(shí)例的數(shù)量。

因?yàn)檎倩芈屎蜏?zhǔn)確率是相互互補(bǔ)的。所以為了綜合考慮這兩個(gè)因素,通過(guò)計(jì)算F1值得到相關(guān)結(jié)果,如式(19)。

(19)

3.3 結(jié)果評(píng)估

為了體現(xiàn)提出算法的性能,將本研究與傳統(tǒng)KNN算法,LLKNN(Locally LinearK-Nearest Neighbor)算法[10]以及TextCNN(Textconvolutional neural networks)算法[11]進(jìn)行對(duì)比。結(jié)果如表1所示。

表1 數(shù)據(jù)集對(duì)比結(jié)果(%)

從表1結(jié)果可以知道,本研究相比KNN、TextCNN以及LLKNN算法,本研究提出的算法的性能較好,平均能達(dá)到92%左右,尤其是相對(duì)于原始的KNN算法,結(jié)果提高了將近6%。從細(xì)節(jié)上看,提出算法的P值在環(huán)境這一小類(lèi)中達(dá)到最大為98.98%,在計(jì)算機(jī)分類(lèi)中,達(dá)到最大,為99.35%。同樣的在計(jì)算機(jī)分類(lèi)中,F(xiàn)1也是最大的,為96.53%。綜上所述,提出的改進(jìn)算法具有較好的性能。

4 總結(jié)

所提出的研究成果可以應(yīng)用于醫(yī)學(xué)或工程學(xué)等特定領(lǐng)域的技術(shù)文獻(xiàn)分類(lèi),而不是單單限于不同領(lǐng)域的新聞文章。通過(guò)在表示文本的圖上用數(shù)學(xué)方法定義和刻畫(huà)更高級(jí)的運(yùn)算,使用更復(fù)雜的操作,將更先進(jìn)的機(jī)器學(xué)習(xí)算法修改為基于圖的算法。采用該方法,將文本分類(lèi)系統(tǒng)作為一個(gè)系統(tǒng)模塊或一個(gè)獨(dú)立的軟件來(lái)實(shí)現(xiàn)。

未來(lái)還需要在圖上定義更多的操作,以便將其他機(jī)器學(xué)習(xí)算法修改為基于圖的版本。在本研究中,只有定義圖之間的相似度,才能修正KNN算法。為了修改K均值算法,需要再定義一個(gè)操作,在這些操作之間建立一個(gè)具有代表性的原型圖。對(duì)于輸入和權(quán)重都以圖的形式給出的感知器或多層感知器,還需要圖的更新規(guī)則。為了在圖上定義更高級(jí)的運(yùn)算,未來(lái)還需要在圖論的基礎(chǔ)上對(duì)運(yùn)算做更多的理論研究。

猜你喜歡
單詞文本
What’s This?
Exercise 1
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
看完這些單詞的翻譯,整個(gè)人都不好了
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 九九这里只有精品视频| 久久婷婷六月| 亚洲综合激情另类专区| 国产精品无码翘臀在线看纯欲| 色综合激情网| 日韩av电影一区二区三区四区| 国产性爱网站| 亚洲天堂视频在线观看| 97综合久久| 亚洲人成网址| 青青青国产视频| 久久久久青草大香线综合精品| 国产在线精彩视频二区| 欧美国产日本高清不卡| 婷婷综合在线观看丁香| 国产粉嫩粉嫩的18在线播放91| 午夜激情婷婷| 最新国产成人剧情在线播放| 日韩欧美在线观看| v天堂中文在线| 久久精品国产电影| 亚洲精品欧美日本中文字幕| 午夜在线不卡| 午夜毛片免费观看视频 | 中文字幕亚洲专区第19页| 国产在线啪| 天天综合亚洲| 日韩AV手机在线观看蜜芽| 亚洲人人视频| 高清不卡一区二区三区香蕉| 亚洲熟女中文字幕男人总站| 中文字幕永久视频| 狠狠v日韩v欧美v| 日韩第九页| 国内精品久久久久鸭| 国产自产视频一区二区三区| 国产毛片高清一级国语 | 视频二区中文无码| 国产99在线观看| 91成人在线免费观看| 中文字幕在线播放不卡| 亚洲一区二区视频在线观看| 男人天堂亚洲天堂| 国产区在线观看视频| 亚洲国产成人精品青青草原| 国产精品人成在线播放| 91无码视频在线观看| 亚洲天堂日韩在线| 亚洲欧美自拍中文| 日韩无码精品人妻| 手机在线免费不卡一区二| 久久婷婷色综合老司机| 国产日韩欧美在线视频免费观看| 美女视频黄又黄又免费高清| 午夜性爽视频男人的天堂| 日韩av资源在线| 免费观看欧美性一级| 亚洲成年人网| 一区二区三区国产精品视频| 日韩欧美网址| 欧美人与性动交a欧美精品| 国产美女在线免费观看| 精品国产Av电影无码久久久| 欧美天堂在线| 国产理论一区| 在线国产你懂的| 欧美一区二区自偷自拍视频| 91小视频在线| 青青国产在线| 久青草网站| 欧美中文字幕在线播放| 国产在线无码av完整版在线观看| 亚洲高清中文字幕在线看不卡| 久久久亚洲色| 热久久综合这里只有精品电影| 区国产精品搜索视频| 午夜精品区| 亚洲成人在线免费观看| 亚洲av综合网| 亚洲欧美日韩成人在线| 久久久久无码国产精品不卡| 9cao视频精品|