999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

針對特定領域的新詞發現方法研究

2022-07-20 02:32:26申兆媛李曉龍
計算機仿真 2022年6期
關鍵詞:實驗

申兆媛,巢 翌,李曉龍,張 偉

(北京控制與電子技術研究所,北京 100038)

1 引言

隨著計算機技術的發展和普及,黨政機關、企事業單位推行無紙化辦公,越來越多的信息資源以數字化和網絡化的方式進行存儲管理。在此背景下,保證企事業單位的數據安全工作便尤為重要,因而需要將數據安全工作落到實處,規避敏感信息泄露擴散的風險。而保護特定領域的敏感信息不被泄露的前提,就是要確定文件內容是否包含該領域的敏感詞匯。

領域新詞發現是用于對特定領域文本進行分析得到該領域相關的詞或短語的過程,在特定領域中,新詞層出不窮,準確高效地發現領域新詞便至關重要。本項目中,領域新詞定義為現有領域詞典內的未登錄詞,即不在詞典中的本領域詞語。

當前新詞發現方法主要分為無監督與有監督兩類。無監督的新詞發現方法通常需要大規模語料的支持,與有監督方法相比,無需構建帶有標注的數據集。而無監督方法又分為兩大類:基于規則與基于統計。基于規則的新詞發現方法,是指利用語言構詞規則并且聯系上下文關系來發現新詞,其中的核心部分是精準發現構詞規則,進而匹配字詞序列。該方法準確率較高,但由于規則覆蓋面有限,其適用性較差,可移植性較低。基于統計的新詞發現方法,是指通過統計模型來在大規模的實驗語料中發現新詞。該方法非常靈活、普適性強、易擴展且可移植性好,但需要對模型進行大量訓練,準確率較低。Pecina等進行了大量的新詞發現實驗,使用了55種不同的統計量來識別2-gram字符串,他們的實驗結果表明,點互信息(Pointwise Mutual Information, PMI)是評價文本中詞匯相關性的最佳指標。

目前,對無監督的新詞發現方法的研究大多基于規則與統計相結合,充分發揮兩者的優勢,期望使準確率與效率達到最優。杜麗萍等將改進的互信息與少量規則相結合,從大規模語料中自動識別領域詞的方法,在基于百度貼吧語料的實驗結果精度達到 97.39%,相較于原始互信息方法提高28.79%。雷一鳴等依賴切詞系統,提出一種新的新詞發現方案,該方案首先對語料進行分詞,計算散串之間的互信息值,進而得到候選新詞。然后,過濾低頻詞,通過鄰接變化數的計算得到最終新詞結果。該算法得到的新詞識別的效果會取決于切詞系統的好壞。劉偉童等從左至右逐字計算當前詞的互信息來候選新詞,然后計算鄰接熵,并結合少量規則來過濾候選詞,得到新詞集,該算法解決了部分新詞因切詞錯誤而無法識別的問題,與使用N-gram算法后,將大量重復詞串和垃圾詞串識別為新詞的問題,同時依賴詞頻,所以新詞發現效率不高。

而領域新詞的界定方法同樣分為有監督與無監督兩類,陳飛等利用條件隨機場對序列輸入標注的特點,提出了一系列區分新詞邊界的統計特征,同時比較了K-means聚類、等頻率、信息增益三種離散化方法對新詞發現效果的影響。Fu等將語料庫的一部分手工標注為訓練集(詞語、詞語鏈接和詞語生成模式),然后使用隱性馬爾可夫模型來預測領域詞。該方法計算復雜度高,且需要大量手工標注的語料。Goh等引入隱性馬爾可夫模型來切分文本并粗略對單詞進行預標注,然后訓練了一個支持向量機模型來提取關鍵注釋,最后利用這些關鍵注釋的特征從分詞結果中識別出領域詞,該方法依賴于分詞結果與標簽的準確性。

綜上,若僅采用傳統的切詞工具對實驗語料進行切分,會出現切詞錯誤導致無法正確識別新詞的現象;若直接采用N-gram算法對實驗語料進行切分,則會出現大量的重復詞串,因此使用Jieba工具結合本領域的構詞策略對句子進行切分,以N-gram算法進行滑動取詞,再利用點互信息、鄰接熵等統計量與詞頻、歸一化得分相結合來進行新詞發現,最后用K-means算法來分離領域新詞與常用新詞,從而過濾得到領域新詞集。

2 相關技術

2.1 點互信息

點互信息(Pointwise Mutual Information,PMI),也稱為點間互信息,是信息論中衡量兩個隨機變量之間相互依賴的量度,即一個隨機變量由于已知了另一個隨機變量后不確定性的減少量。當應用于文本處理時,它可以可表示一個詞內部的凝聚程度,即字與字或詞與字之間的相關性越高,點互信息值就越大,成詞的概率也就越大,故采用點互信息值來計算候選詞串的內部凝聚度。點互信息的計算公式為

(1)

其中

p

(

x

y

)表示字或詞

x

y

在語料中共同出現的概率,

p

(

x

)、

p

(

y

)表示

x

y

單獨出現在語料中的概率。

PMI

(

x

y

)>0表示

x

y

相關,且值越大表示二者的相關性越高,即二者越可能組成有意義的詞。

2.2 鄰接熵

熵是信息論中評估事件不確定性的統計量,當應用于文本處理時,可以用來衡量候選詞的左右相鄰字符的不確定程度,即鄰接熵(Branch Entropy,BE)。若一個既成的詞中的字符是該詞的邊界字符,那么這個字符的界外相鄰字符是多樣化的,即其不確定程度越高,說明其與另一側字符形成詞的概率就越高。而衡量某詞內的最左字符是否能構成其左邊界,使用的是左鄰接熵;最右字符是否能構成其右邊界使用的是右鄰接熵。左鄰接熵的計算公式為

(2)

同樣地,右鄰接熵的計算公式為

(3)

其中

s

表示候選詞

w

左鄰接字形成的集合,

s

表示候選詞

w

右鄰接字形成的集合;

p

(

w

|

w

)表示

w

是候選詞

w

左鄰接字的條件概率,

p

(

w

|

w

)表示

w

是候選詞

w

右鄰接字的條件概率;

H

(

w

)的值越大表示該詞的最左邊字是這個詞的左邊界的概率越大,

H

(

w

)的值越大表示該詞的最右邊字是這個詞的右邊界的概率越大。

p

(

w

|

w

)與

p

(

w

|

w

)的計算公式為

(4)

其中

N

(

w

)表示

w

出現的次數,

N

(

w

w

)表示

w

w

共同出現的次數,同樣地,

N

(

w

w

)表示

w

w

共同出現的次數。

2.3 N-gram算法

N-gram是一種基于統計語言模型的算法,基本思想是:以字節為單位,將文本內容滑動取大小為N的窗口,形成長度為N的字節片段序列,每個字節片段稱為一個gram,并統計語料中該gram出現的頻率,根據預設的閾值進行過濾,得到候選詞。該算法基于假設第N個詞的出現僅與前N-1個詞相關,與任何其它詞無關。

由于N-gram算法不需要對文本語料進行語言學處理,因此具有語種獨立性、書寫錯誤容錯性、無需詞典等優勢。針對特定領域文本內容的創新性和獨特性等特點,本文采用N-gram算法對語料進行預處理。目前,二元增量Bigram算法和三元增量Trigram算法的精度較好,因此,使用Bigram算法對語料進行預處理。

2.4 Trie樹

Trie樹,也稱為前綴樹、字典樹,通常用于對大量字符串進行計數、排序和存儲。它具有以下三個基本屬性:

1) 樹中除根節點外的每個節點都只包含一個字符;

2) 從根節點到葉子節點,路徑上的字符連成一個詞;

3) 每個非葉子節點的所有子節點包含的字符都不相同。

將具有共同前綴的鏈接稱為串,因此Trie樹具有以下三個特點:

1) 前綴相同的詞必須在同一個串中;

2) Trie樹中的詞只能共用前綴,不能共用詞的其它部分;

3) Trie樹中任何一個完整的詞都必須從根節點開始到葉節點的結束,這意味著對一個詞的搜索也必須從根節點開始,到葉節點結束。

這些特點也使其在檢索方面與哈希樹相比具有以下兩大優勢:

1) 公共前綴的詞都在同一個串中,即排除與當前搜索字符不同的串后,搜索范圍大大縮小;

2) Trie樹本質上是一個有限狀態自動機,這意味著從Trie樹的一個節點到另一個節點的轉移行為完全由狀態轉換函數控制,即逐字搜索Trie樹時,從一個字符到下一個字符的比較不需要遍歷該節點的所有子節點。

也就是說,Trie樹可以最大限度地減少不必要的字符串比較,提高搜索效率,因此,使用Trie樹存儲候選詞串。

3 針對特定領域的新詞發現方法

3.1 算法設計

在對特定領域文本數據進行新詞發現的研究過程中,發現傳統的基于統計的新詞發現算法效果不太理想。通常由于特定領域詞的特殊性,語料預處理時保留的連字符或雙引號等的特殊符號,使得傳統算法在新詞發現過程中產生誤分現象;新詞發現后的結果并不能有效區分該新詞是否屬于本領域。為解決以上問題,本文對基于點互信息和左右鄰接熵的傳統新詞發現算法進行了以下改進:

1)可根據需求加入特定領域的成詞策略,使切分與組合候選詞串時更適應本領域,更加準確、有效。

2)在過濾時除了點互信息、左右鄰接熵過濾,加入歸一化得分與詞頻閾值的成詞篩選,使分詞結果得到進一步的提升。

3)使用K-means劃分聚類算法實現領域新詞與常用新詞的分離。

3.2 算法流程

本文是針對特定領域的語料進行領域新詞的發現算法的設計與實現,由于語料主要為中文,所以首先對語料進行預處理;利用Jieba結合本領域的成詞策略分詞,再采用N-gram方式組合出候選詞串;計算候選詞串的點互信息、左右鄰接熵、歸一化得分與詞頻,篩選新詞;再向量化新詞并降維,采用K-means劃分聚類算法分離出領域新詞與常用新詞,最終得到領域新詞集,供下游任務使用。算法流程圖如圖1所示。

圖1 算法流程圖

3.3 處理過程

1) 語料預處理

語料為段落式文本內容,故首先對文本進行預處理。將文本按照除中文、字母、數字、連接符、雙引號(示例)外的字符進行分句,并去除用于分句的符號與停用字,留下候選短句。

輸入:語料位置P

輸出:候選短句集合M

① C=readFile(P) #讀入語料

②M=rmvNeedless(C) #換行符代替非中文、字母、數字、連接符、雙引號外的字符

③M=rmvStopwords(M) #去除停用字

④ return M

2) 形成候選詞串

利用Jieba工具結合成詞策略對候選短句進行分詞,并利用Bigram算法組合候選詞串。

輸入:候選短句集合M

輸出:候選詞串集合W

①specrules=’…’ #本文適用的特定領域成詞策略

② jieba.load_userdict(re.find(specrules))

W=jieba.cut(M) #Jieba加載成詞策略并分詞

③W=ngrams(2,W) #Bigram組合成詞

④ return W

3) 新詞篩選

當前詞串的點互信息、左鄰接熵、右鄰接熵、詞頻與歸一化得分,當均大于閾值,且小于最大擴展次數時,成為候選新詞串;當右鄰接熵或左鄰接熵小于閾值時,向右或向左擴展一個詞串,計算擴展后的點互信息,直至擴展次數超過閾值。在上述候選新詞集中,去除舊詞典已有的詞,形成新詞集。

輸入:候選詞串集合W

輸出:新詞集合N

FOR

w

(

x

y

) :

W

IF PMI

rmv(Wi) #點互信息過濾

ELSE

continue

END IF

IF H(w)>c #右鄰接熵過濾,c為右鄰接熵閾值

IF H(w)>b #左鄰接熵過濾,b為左鄰接熵閾值

IF Freq(w)>d AND Nscore(w)>e #d為詞頻閾值,e為歸一化得分閾值

CandN=addNew(w) #加入候選新詞集

ELSE

continue

END IF

ELSE

IF 擴展次數<閾值

leftExt(w) #左擴展,重復第1步驟

ELSE

continue

END IF

END IF

ELSE

IF 擴展次數<閾值

rightExt(w) #右擴展,重復第1步驟

ELSE

continue

END IF

END IF

END FOR

③ N=rmvOld(CandN) #領域舊詞典過濾

④ return N

4) 新詞向量化

字符向量拼接與均值方式向量化新詞并降維。

輸入:新詞集合N

輸出:新詞向量集合V

① Charvec=loadTokenEmbedding() #加載字符向量集

FOR n : N

② FOR n.character為數字|字母|連接符|雙引號 #字串中所有數字、字母的字向量取平均值

A1=avg(Charvec(n.character))

END FOR

③ FOR n.character為漢字中的最長組合 #字串中所有漢字的最長組合取平均值

A2=avg(Charvec(n.character))

END FOR

④ Vn=jointVec(A1,A2) #拼接上述兩均值

⑤ Vn=tsne(Vn) #向量降維

END FOR

⑥ return V

5) 領域新詞聚類

K-means函數進行新詞向量V的聚類,得到領域新詞集S。

輸入:新詞向量集合V

輸出:領域新詞集合S

S=k_means(V,2) #指定聚類類別為2類

4 實驗與分析

4.1 數據集

由于發現符合本項目定義的領域新詞所用的語料較為特殊,本文實驗數據來自某特定領域公示文件,只保留其正文內容,數據包含約10萬行文本語料,對其進行領域新詞發現的研究。

4.2 評價指標

本文采用的算法評價指標為信息檢索(IR)中對前n個結果進行人工準確率評估的指標P@n(Precision@n),計算公式如下所示

(5)

其中

TN

@

n

為領域詞集前

n

個詞語中是領域詞的個數。

P

@

n

值越大,代表前

n

個詞語中符合要求的詞語越多,實驗效果越好。

4.3 實驗結果

為了驗證本文算法的有效性,在本項目使用的數據集上,固定點互信息、鄰接熵、擴展次數、詞頻、歸一化得分的各閾值為12、0.89、4、0.01、1.9后,添加三個對比實驗。實驗一為替換統計量點互信息與鄰接熵為TF-IDF,實驗二為去掉詞頻與歸一化得分過濾,實驗三為替換k-means為DBSCAN,實驗四為本文算法,即點互信息、鄰接熵、詞頻與歸一化得分過濾新詞,K-means聚類分離領域新詞與常用新詞。分別計算這四組實驗的P@100值、P@300值、P@500值。實驗結果如表1所示。

表1 實驗結果

由表1可知,本文的算法在特定領域新詞發現中取得了不錯的效果。由實驗一、二得,在統計量方面,點互信息與鄰接熵結合的方式在三類實驗中均優于詞頻-逆文本頻率25%左右,優勢明顯。由實驗二、四得,加入歸一化得分和詞頻過濾后,準確率有所提高。由實驗三、四得,在聚類算法方面,DBSCAN聚類效果較差,如圖2所示;K-means聚類效果較好,如圖3所示。

圖2 DBSCAN結果

圖3 K-means結果

為便于展示,將降維后的部分向量聚類后,映射到三維空間,x、y、z坐標表示向量的前三維。由于DBSCAN是基于密度進行聚類計算,且對于高維數據,傳統的歐氏密度不能很好地處理,所以聚類效果很差,而K-means是基于劃分進行聚類計算,從而可指定類別,效果較好。

5 結論與展望

本文針對特定領域語料的特性,提出了針對特定領域的新詞發現方法,其優勢在于能有效區分出屬于該領域的新詞,解決了該領域所需特殊字符在傳統分詞中的誤分問題、通用新詞發現方法在特定領域的不適應性問題,并在某特定領域約10萬行文本的語料數據集上進行了對比實驗,驗證了該方法的有效性。但是,對于N-gram組合后的詞串進行左右擴展并計算統計量時,耗費時間較長,后續針對該問題進行相應改進,增加一定的限制條件,使其效率提高。

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 国产午夜人做人免费视频中文| 亚洲欧美不卡中文字幕| 国产av一码二码三码无码| 亚洲第一黄色网址| 久久黄色视频影| 自拍欧美亚洲| 老司机久久99久久精品播放| 一级看片免费视频| 老司机久久99久久精品播放| 国产拍揄自揄精品视频网站| 国产在线观看一区二区三区| 五月天婷婷网亚洲综合在线| 日韩区欧美国产区在线观看| 精品少妇人妻无码久久| 一区二区三区国产精品视频| 成人小视频在线观看免费| 欧美日韩国产在线人| 在线国产你懂的| 女高中生自慰污污网站| 精品少妇三级亚洲| 99这里精品| 91久久性奴调教国产免费| 午夜三级在线| 亚洲h视频在线| 国产国模一区二区三区四区| 欧美中文字幕在线视频 | 亚洲视频免费在线看| 日韩午夜伦| 国产亚洲欧美日韩在线一区| 老司机精品99在线播放| 国产综合色在线视频播放线视 | 国产成人1024精品| 亚洲色图欧美视频| 色妞永久免费视频| 国产精品免费电影| 国产91蝌蚪窝| 666精品国产精品亚洲| 欧美亚洲网| 性视频一区| 精品少妇人妻无码久久| 国产一在线| 色婷婷电影网| 91成人在线免费视频| 国产91精品最新在线播放| 一级做a爰片久久毛片毛片| 精品国产成人高清在线| 久久人体视频| 新SSS无码手机在线观看| 亚洲综合片| 国产精品丝袜在线| 欧美在线综合视频| 99在线小视频| 亚洲天堂色色人体| 狠狠综合久久| 97影院午夜在线观看视频| 亚洲精品动漫| 四虎在线高清无码| 欧美一级在线| 欧美色亚洲| 蜜桃臀无码内射一区二区三区| 91九色国产porny| 人妻精品全国免费视频| 婷婷亚洲最大| 手机在线国产精品| 精品無碼一區在線觀看 | 亚洲制服丝袜第一页| 国产精品久线在线观看| 永久免费AⅤ无码网站在线观看| 国产亚洲视频中文字幕视频 | 欧美日韩一区二区在线免费观看| 激情视频综合网| 中文天堂在线视频| 国产十八禁在线观看免费| 在线看免费无码av天堂的| 久久精品无码专区免费| 亚洲天堂视频在线观看| 亚洲综合日韩精品| 一本大道香蕉久中文在线播放 | 国产国模一区二区三区四区| 成人亚洲视频| 亚洲日韩精品欧美中文字幕 | 久草中文网|