999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義分析的改進TF-IDF算法

2019-03-29 08:11:44代鈺琴徐魯強
西南科技大學(xué)學(xué)報 2019年1期
關(guān)鍵詞:語義方向分析

代鈺琴 徐魯強

(西南科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院 四川綿陽 621010)

自然語言的本質(zhì)屬性是信息的載體和信息的容量,其信息內(nèi)容目前已經(jīng)用計算詞相似度的方式來衡量[1]。為此,中文句子相似度計算成為人工智能研究的熱點,在機器翻譯、信息檢索和智能標(biāo)記等領(lǐng)域也得到了廣泛應(yīng)用。由于漢語句子的多樣性及其意義的復(fù)雜性,使得兩句子之間的相似性更難準(zhǔn)確地比較。隨著自然語言處理技術(shù)的發(fā)展,各種計算句子相似度的算法應(yīng)運而生。這些算法主要分為兩大類:統(tǒng)計方法和基于語義方法?;诮y(tǒng)計的方法是在大規(guī)模的語料庫下統(tǒng)計詞語的頻率,利用IDF算法、詞向量、N-Grammar等方法計算句子的相似度,注重句子的整體結(jié)構(gòu)。基于語義的方法則是在語義知識、句法依存、語義依存等方面進行分析,注重句子的語義分析。

現(xiàn)有的算法主要有基于句子多種特征、基于詞向量[2]、基于語義角色標(biāo)注[3]、基于語義依存[4]及改進TF-IDF 結(jié)合余弦定理的句子相似度計算[5]。這些算法都從句子結(jié)構(gòu)和詞語語義上考慮句子相似度,其中,改進的TF-IDF算法既注重句子的整體結(jié)構(gòu),還與詞語語義相結(jié)合,即將語義與結(jié)構(gòu)結(jié)合起來,更有效地反映了句子的相似度。盡管如此,該方法也忽略了句子不相似的部分[6]和詞語語義方向及一些有重大意義且在句中占比重輕的詞語。因此,本文提出了一種基于語義分析的融合了統(tǒng)計和語義兩個方面并考慮詞語語義方向和句子語義方向的改進TF-IDF算法。

1 語義分析

1.1 詞語語義分析

比較文本片段之間的語義意義就是比較單詞的語義特征及其關(guān)系[7],因此詞語相似度是計算句子相似度的基礎(chǔ),詞語相似度包含基于詞典的詞語相似度和基于語料庫的詞向量計算?;谠~典主要采用《知網(wǎng)》和《同義詞林》兩個詞典,能準(zhǔn)確地反映詞語之間語義的相似性,但很少考慮詞語之間句法特點。而基于語料庫就需要通過大量的數(shù)據(jù)訓(xùn)練,在詞語句法、語義、語用等方面都有客觀評價,能綜合計算其相似度,但過于依賴訓(xùn)練的語料庫,一旦某個詞語在語料庫中出現(xiàn)得較少或未出現(xiàn),則不能準(zhǔn)確判斷其相似度[5]。綜上,由于句法和語用等方面的特點可以分析句子結(jié)構(gòu),因此本文采用基于詞典的詞語相似度計算。

1.1.1 基于《知網(wǎng)》的詞語相似度

利用《知網(wǎng)》主要是計算詞語之間的語義程度[8],《知網(wǎng)》是把每個詞語的多個概念一一列出,并用一系列義原來描述每個概念,其中概念是對詞匯語義的描述,義原是描述概念的最小單位。在《知網(wǎng)》中,是將一系列義原通過上下位關(guān)系組織成一個樹狀義原層次體系,因此計算義原相似度采用語義距離計算。假設(shè)兩個義原在這個層次體系中的路徑距離為d,可以得到這兩個義原之間的語義距離:

(1)

其中,p1和p2表示兩個義原(Primitive),d是p1和p2在義原層次體系中的路徑長度,是一個正整數(shù)。α是一個可調(diào)節(jié)的參數(shù)。

由于義原是組成詞語或概念的最小單位,因此對兩個詞語W1和W2,如果W1有n個義項(概念):S11,S12,……,S1n,W2有m個義項(概念):S21,S22,……,S2m,則W1和W2的相似度為各個概念相似度的最大值:

(2)

1.1.2 基于《同義詞林》的詞語相似度

同義詞詞林按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起,如圖1所示,把詞匯分成大、中、小3類。每個小類里都有很多的詞,這些詞又根據(jù)詞義的遠近和相關(guān)性分成了若干個詞群。每個詞群中的詞語又進一步分成了若干個行,同一行的詞語要么詞義相同,要么詞義有很強的相關(guān)性。

《同義詞林》的詞語相似度計算與《知網(wǎng)》類似,利用樹狀結(jié)構(gòu)的詞語中義項編碼,計算義項距離,從而得到義項相似度,由于中文詞語博大精深,一個詞語往往表達了很多意思,也就是說有很多個義項。同義詞林編碼規(guī)則如下:第一層為大類,用大寫英文字母表示;第二層是中類,用小寫英文字母表示;第三層為小類,用兩位十進制數(shù)表示;第四層為詞群,用大寫英文字母表示;第五層為原子詞群,用兩位十進制數(shù)表示。計算詞語的相似度是根據(jù)一項編碼計算兩個詞語的各義項間的相似度,取最大值作為兩個詞語的相似度值。

《知網(wǎng)》和《同義詞林》都是通過收錄的詞典,雖然詞匯量大,但也可能出現(xiàn)沒有收錄的詞,如果結(jié)合兩個詞典,找到未收錄的詞就大大減少。因此本文采用的方法是如果某個詞語僅被一個詞典收錄,其相似度就為基于該詞典的相似度,若兩個詞典都收錄了這個詞,其相似度為二者的平均值。

1.2 語義方向分析

詞語相似度不僅僅只看詞語表面的語義,還應(yīng)考慮其相關(guān)性[9],詞語所表達的意思也可進行分解和合成[6],其主要目的是為了更準(zhǔn)確地判斷詞語的相似性,判斷語義方向就能將詞語相關(guān)性和整合詞語結(jié)合。詞語語義方向主要判斷詞語的積極性或消極性,而句子語義方向主要是通過分析謂語動詞的極性。通過一般中文句子可以發(fā)現(xiàn),如果句子的謂語動詞是否定的,則整個句子都是否定的,但如果某個形容詞是負向的,只影響該形容詞修飾的詞語,因此,謂詞的語義方向才是影響整個句子方向的核心。通過這些特點,本文采用哈爾濱工業(yè)大學(xué)開發(fā)的語言技術(shù)平臺提供的分詞、詞性標(biāo)注、依存句法等漢語語言處理模塊,可以分析判斷詞語和句子的極性。

1.2.1 詞語語義方向分析

通過總結(jié)發(fā)現(xiàn),能表示詞語極性的詞大多都是評價類或情感類的詞,因此本文對詞語極性的判斷采用了《知網(wǎng)》的情感詞典,若句中詞語為負面評價詞語或負面情感詞語,則將句子標(biāo)記為消極,反之則標(biāo)記為積極。下面用簡單的例子來說明詞語的語義理解。

例句1 “教育具有不公平性?!钡姆衷~、此行標(biāo)注和依存句法標(biāo)注如圖2所示。

圖2 例1的句子結(jié)構(gòu)特點Fig.2 Sentence structure of Example 1

由主觀評判可以看出例句1是一個負向的句子,但根據(jù)句法分析發(fā)現(xiàn)其謂語為“具有”,是一個正向的詞語,因此在分析句子極性時還需考慮其他成分的詞語極性。將例句2分詞后得到“教育”、“具有”“不”、“公平性”這幾個詞語,其中“教育”、“具有”、“公平性”是正向詞語,“不”屬于單重否定,是一個負向詞語,但“不”是一個不具有實際意義的詞,因此需要找到“不”修飾的詞語,即“公平性”,并認為其為負向詞語,因此句中“公平性”是一個負向詞語。

1.2.2 句子語義方向分析

由于中文句子的謂語成分占很大比重,且一般謂語直接影響著整個句子的方向,因此分析謂語語義方向能大致得到句子語義方向。謂語極性主要由謂詞及修飾謂詞的副詞決定,下面用簡單的例子來說明句子的語義理解。

例2“教育內(nèi)容不滿足學(xué)生需求。”的分詞、此行標(biāo)注和依存句法標(biāo)注如圖3所示。

圖3 例2的句子結(jié)構(gòu)特點Fig.3 Sentence structure of Example 2

分析該例句,句子的謂語動詞為“滿足”,依存句法標(biāo)注為“HED”,證明是句子最核心的成分,影響著整個句子的方向,即決定了句子的極性。根據(jù)詞語語義方向分析可得該句的謂詞“滿足”屬于正面評價詞語,如果僅判斷謂詞的極性,則例句2應(yīng)該為積極,但人為判斷該句應(yīng)該為消極,其原因在于句中還有修飾謂詞的詞語,這些詞語在句子結(jié)構(gòu)中占的比重不大,但能影響整個句子的意思。從語義分析可以看出,這類詞大多與謂詞構(gòu)成狀中結(jié)構(gòu),以修飾謂詞,即與謂詞間的關(guān)系為“ADV”,其類型大多也為評價詞、情感詞、連詞和否定詞[10]。其中連詞不具極性,評價詞和情感詞仍然采用《知網(wǎng)》的情感詞典,而否定詞則需要自定義。根據(jù)查閱,建立了如表1的否定詞表。

表1 否定詞詞典Table 1 Negative word dictionary

根據(jù)漢語特點,雙重否定表肯定,結(jié)合謂語語義方向,若句子包含奇數(shù)個單重否定,謂語為消極詞語,判定句子為積極;謂語為積極詞語,句子為消極。若句子包含偶數(shù)個單重否定詞,句子的極性由謂語極性決定。若句子中有雙重否定,則句子極性也由謂語極性決定。

例句2的謂詞“滿足”為積極詞語,但前有“不”修飾,“不”又是單重否定詞,根據(jù)以上規(guī)則,滿足句中包含一個單重否定,且謂語為積極,則句子為消極。

1.2.3 復(fù)合句簡化

上述判斷句子極性的方法只適用于只有一個謂語的簡單句,對多個謂語的復(fù)合句就不適用。復(fù)合句分為并列復(fù)句、遞進復(fù)句、選擇復(fù)句和轉(zhuǎn)折復(fù)句。但不管哪種類型,復(fù)句中的每個單句謂語都屬于并列關(guān)系,下面進行舉例說明。

例3 “社會生活和教育融合,生產(chǎn)勞動也和教育相結(jié)合?!钡姆衷~、此行標(biāo)注和依存句法標(biāo)注如圖4所示。

例句3是一個并列復(fù)句,該句子是由兩個簡單句組成,每個單句的謂語動詞都屬于并列關(guān)系,如圖4所示,單句1的謂詞“融合”與單句2的謂詞“結(jié)合”的關(guān)系便是并列,在依存句法中表示為“COO”。復(fù)合句的特點就是將其拆分為多個單句時,句子意思不變,因此在判斷復(fù)合句方向時是將其拆分為多個單句,再對單句進行一一比較。

圖4 例3的句子結(jié)構(gòu)特點Fig.4 Sentence structure of Example 3

2 基于語義分析的改進TF-IDF算法

根據(jù)研究,利用空間結(jié)構(gòu)更能反應(yīng)語義之間的關(guān)系[11],其中,向量表示是最為普遍的方法。TF-IDF算法就是將句子用空間向量進行表示,然后計算兩個句子空間向量夾角的余弦值。目前,大多數(shù)學(xué)者都發(fā)現(xiàn)了TF-IDF算法的無法調(diào)整權(quán)值的缺點[12],因此對權(quán)值方面進行了深入研究,例如TF-IGM(詞頻-逆權(quán)重)算法[13]。但TF-IDF算法還有語義分析不到位的缺點[14],本文則主要從語義分析方面對TF-IDF算法進行改進。

本文改進的TF-IDF算法是根據(jù)詞語方向(DIR)分析句子詞頻(TF)和逆文檔詞頻(IDF),并將TF和IDF的乘積作為關(guān)鍵詞的特征值,將中文分詞后、去停用詞表得到句子的關(guān)鍵詞,計算關(guān)鍵詞的特征值,構(gòu)成空間向量相似度計算夾角余弦值,其中值越大,句子越相似。TF-IDF算法原理如下:

(1) 將兩個句子S1和S2的有效關(guān)鍵字組成數(shù)組V=(X1,X2,…,Xn)。

(2) 計算S1和S2兩個句子的詞頻向量V1={ω1,ω2,…,ωn},V2={ξ1,ξ2,…,ξn}。

其中,ωi(1≤i≤n)為關(guān)鍵詞組Xn在S1中出現(xiàn)的次數(shù)TF與 IDF的乘積,ξi(1≤i≤n)為關(guān)鍵詞組Xn在S2中出現(xiàn)的次數(shù)TF與IDF的乘積。TF-IDF算法如下:

實驗組患者的滿意度為98.0%,對照組為7.0%,實驗組顯著高于對照組,輸血差錯率顯著低于對照組,差異均有統(tǒng)計學(xué)意義(P<0.05),詳見表1。

詞頻(TF)= 某個詞在句子中的出現(xiàn)次數(shù)

(3)

(4)

其中,只有當(dāng)該詞的方向與包含該詞的文檔中的詞語方向一致時,文檔數(shù)才增加。

(3) 采用余弦相似性算法計算V1和V2相似度值:

(5)

其中,ωiξi為S1i和S2i的TF和IDF的乘積。

傳統(tǒng)的TF- IDF算法只注重關(guān)鍵詞,沒有考慮同義詞替換和語義方向等問題,所以計算結(jié)果與實際結(jié)果有一定偏差。改進的TF- IDF算法主要融入了詞語語義相似度,例如句子A和句子B的相似度算法主要依靠兩個單句的相似度計算,若句子A,B是復(fù)合句,還需將其拆分為單句,并一一比較兩個單句的相似度,取相似度最大的值。兩個單句A1和B1的相似度算法步驟如下:

(2) 遍歷數(shù)組A1′,當(dāng)A1j′ 和C[i]的方向一致時,統(tǒng)計數(shù)組C[i]的個數(shù),并賦值給TF1i;

(3) 如果存在不屬于A1′中的元素C[i],利用《知網(wǎng)》和《同義詞林》計算C[i]與A1′中各元素的最大相似度值sim,如果A1j′和C[i]的方向一致,將sim賦值給TF1i,否則,將1-sim賦值給TF1i;

(4) 根據(jù)IDF算法計算C1[i]的IDF1i值;

(5) TF1i與 IDF1i的乘積即為空間向量V1的一個元素;

(6) 遍歷數(shù)組B1′,重復(fù)步驟(2)-步驟(5),得到空間向量V2;

(7) 計算V1和V2空間向量的夾角余弦值,即為兩個句子的相似度similary;

(8) 計算句子A1和B1的謂語語義方向,如果A1和B1的謂語語義方向相同,則句子相似度為similary,否則句子相似度為1-similary。

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)的選取

實驗數(shù)據(jù)以《教育知識與能力》為基礎(chǔ),根據(jù)章節(jié)模塊,選取了教育和教育發(fā)展、德育、班級管理和教師教學(xué)這4個模塊的簡答題。為了直觀地將實驗結(jié)果進行對比分析,將每個模塊劃分為一組實驗,進行了4組實驗。將每組實驗的題目分發(fā)給學(xué)生進行在線測試,在收集的作答情況中,每道題均選取優(yōu)先作答的100位同學(xué)的作答情況,以比較學(xué)生作答情況和標(biāo)準(zhǔn)答案的相似度。實驗分組及題目如表2。

3.2 實驗設(shè)計

學(xué)生作答可能存在白卷、句子意思表達不完整、沒有明確斷字?jǐn)嗑涞葐栴},因此,為了更加準(zhǔn)確地測試本文算法,需要人工篩選掉一些作答不規(guī)范的句子。同時為了更體現(xiàn)本文算法在反義詞和否定意義詞上的價值,需要篩選得到盡可能多的含反義或否定意義詞的句子,將有效數(shù)據(jù)作為測試數(shù)據(jù)。經(jīng)過人工篩選,得到表3的分組測試數(shù)據(jù)。

將每組數(shù)據(jù)分別采用了貪心算法、改進的TF-IDF算法和本文基于語義分析的改進TF-IDF算法對每個答案與標(biāo)準(zhǔn)答案之間進行了相似度計算,然后對其相似度進行比較。這3種算法的詞語相似度都是基于《知網(wǎng)》和《同義詞林》的,只有在計算句子相似度時算法不一致,因此該實驗?zāi)軌虮WC得到的結(jié)果僅與句子相似度算法有關(guān)。為了驗證本文算法的有效性,還增加了人工評判,以便驗證該算法提高了其準(zhǔn)確性。

表2 實驗分組及題目Table 2 Experimental group and topics

表3 分組測試數(shù)據(jù)Table 3 Group test data

3.3 實驗結(jié)果分析

本文首先以組一中的問題1“簡述教育對政治經(jīng)濟制度的影響?!睘槔?,收集100個學(xué)生對該題的作答情況,經(jīng)過篩選,剩余94條有效句子。將有效句子分別經(jīng)過貪心算法、改進的TF-IDF算法和本文算法計算其相似度,對其結(jié)果進行分析。為了更好地與人工進行比較,將句子相似度劃分為以下4個階段:0~0.59, 0.6~0.79, 0.8~0.89, 0.9~1.0,經(jīng)過各種算法計算,比較每個相似度階段所包含句子數(shù)量占比得到的結(jié)果如表4。

表4 各階段相似度數(shù)量占比Table 4 Proportion of similarities in each stage

通過實驗分析,在各相似度階段,本文算法與人工評判得到的句子數(shù)量更為接近,且在低相似度(0~0.59)和高相似度(0.85~1.0)階段句子數(shù)量較少,其余階段句子數(shù)量較多,符合日常中的正態(tài)分布情況,因此說明本文方法更符合實際情況,更貼近人的思想。

為了更加準(zhǔn)確地說明本文算法的性能,采用準(zhǔn)確率(Accuracy)和誤差率(Error Rate)進行評判。根據(jù)大量經(jīng)驗顯示,人工評判存在誤差性,但基本都在0.1以內(nèi),因此,如果測試結(jié)果與人工評判的相似度在0.1以內(nèi),則將該句子劃為正確,否則為錯誤。

(6)

(7)

準(zhǔn)確率對比結(jié)果如表5所示。

表5 準(zhǔn)確率對比結(jié)果Table 5 Accuracy comparison results

通過實驗對比發(fā)現(xiàn),每組實驗結(jié)果的準(zhǔn)確率均得到提高,部分提高較明顯可能是因為選取的實驗數(shù)據(jù)中包含的否定詞或反義詞較多。本文算法較貪心算法其平均準(zhǔn)確率提高了26%,較改進TF-IDF算法提高了5.7%,因此,本文算法更能準(zhǔn)確地判斷句子的相似度。

為了從多角度展現(xiàn)本文算法的可行性,本文針對16道題目進行平均誤差率計算,得到16組數(shù)據(jù)的平均誤差率對比結(jié)果如圖5所示。

從平均誤差率分析,本文算法16組測試結(jié)果中,有15組數(shù)據(jù)的平均誤差率均低于傳統(tǒng)算法,但有一組數(shù)據(jù)卻高于改進的TF-IDF算法。經(jīng)過查看測試數(shù)據(jù)發(fā)現(xiàn),該組數(shù)據(jù)中其復(fù)合句較多,且復(fù)合句中的簡單句語義方向不同,導(dǎo)致其相似度偏低,致使誤差率較低。但從整體上看,使用本文算法計算句子相似度能降低誤差率,得到與人工評判更接近的結(jié)果。

通過以上實驗對比,本文采用的基于語義分析的算法在準(zhǔn)確率上提升了5.7%,且誤差率相比傳統(tǒng)算法均普遍較低,因此本文算法具有一定優(yōu)勢。

圖5 平均誤差率對比Fig.5 Comparison of the average error rate

4 結(jié)論

本文提出的基于語義分析的改進TF-IDF算法考慮句子語義方向,并結(jié)合詞語語義相似度,采用余弦定理計算了句子的相似度,使得計算結(jié)果更加準(zhǔn)確,更貼近實際情況。從實驗數(shù)據(jù)可知,傳統(tǒng)的方法都沒有考慮句子語義方向,大多只計算關(guān)鍵詞的相似度,所以會出現(xiàn)兩個句子意思相反,但得到的相似度較高的情況,本文算法就解決了這個問題。通過分析可以看出對復(fù)句進行比較時,由于本文是將復(fù)句拆分成簡單句進行一一比較的,因此會出現(xiàn)其相似度降低的情況,但這也防止了復(fù)句中語義方向所指對象不一致卻相似度高的情況。

猜你喜歡
語義方向分析
2022年組稿方向
2021年組稿方向
隱蔽失效適航要求符合性驗證分析
2021年組稿方向
語言與語義
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
位置與方向
主站蜘蛛池模板: 一边摸一边做爽的视频17国产| 久久精品人人做人人爽97| 不卡的在线视频免费观看| 日本午夜三级| 91综合色区亚洲熟妇p| 国内精品久久人妻无码大片高| 中文字幕首页系列人妻| www亚洲天堂| 在线观看网站国产| 99热在线只有精品| 久久国产拍爱| av无码久久精品| 91区国产福利在线观看午夜| 在线色国产| 亚洲一欧洲中文字幕在线| 一级看片免费视频| 手机在线免费不卡一区二| 国产xx在线观看| 亚洲人成网站日本片| 青青久视频| www精品久久| 国产精品亚洲天堂| 中文字幕无码制服中字| 5388国产亚洲欧美在线观看| 免费人成在线观看成人片| 国产情侣一区| 伊人狠狠丁香婷婷综合色 | 色吊丝av中文字幕| 欧美、日韩、国产综合一区| 亚洲va在线观看| 91热爆在线| 国产日韩丝袜一二三区| 成人精品午夜福利在线播放| 国产成人高清在线精品| 国产黑丝视频在线观看| 国产99视频精品免费视频7| av性天堂网| 狠狠做深爱婷婷综合一区| 99re66精品视频在线观看| 国产一级无码不卡视频| 国产成人免费手机在线观看视频| 啪啪永久免费av| 亚洲精品无码AV电影在线播放| 欧美在线一二区| 精品国产免费观看一区| 国产无码性爱一区二区三区| 蜜桃臀无码内射一区二区三区| 亚洲va视频| 激情五月婷婷综合网| 成人日韩视频| 国产在线无码一区二区三区| 黄色网址手机国内免费在线观看| 亚洲欧美一级一级a| 特级毛片免费视频| 亚洲精品视频网| 国产乱视频网站| 免费A∨中文乱码专区| 精品91视频| 福利在线不卡| 2020亚洲精品无码| 亚洲国产AV无码综合原创| 人妻一区二区三区无码精品一区 | 国产呦精品一区二区三区网站| 国产精品美女网站| 日本五区在线不卡精品| 一区二区影院| 日本免费一区视频| 无码国产伊人| 成人福利在线免费观看| 亚洲欧洲美色一区二区三区| 久久综合婷婷| 亚洲日韩精品无码专区97| 人妻无码中文字幕第一区| 国产一区二区免费播放| 欧美午夜网| 国产午夜福利在线小视频| 国产成年无码AⅤ片在线| 亚洲色婷婷一区二区| 首页亚洲国产丝袜长腿综合| 国产精品一线天| 亚洲精品日产AⅤ| 亚洲人在线|