999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合關(guān)聯(lián)置信度與結(jié)巴分詞的新詞發(fā)現(xiàn)算法①

2020-05-22 04:46:44
關(guān)鍵詞:關(guān)聯(lián)文本

曹 帥

(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)

隨著自然語(yǔ)言處理以及大數(shù)據(jù)分析技術(shù)的快速發(fā)展,基于網(wǎng)絡(luò)中的文本數(shù)據(jù)來(lái)獲取網(wǎng)絡(luò)輿情空間中的熱點(diǎn)話題已經(jīng)越來(lái)越快速、準(zhǔn)確.同時(shí)以微博、微信為代表的社交網(wǎng)絡(luò)平臺(tái)已經(jīng)融入百姓的日常生活,人們不僅可以基于社交網(wǎng)絡(luò)平臺(tái)獲取新鮮資訊,同時(shí)可以在平臺(tái)上自由發(fā)表個(gè)人觀點(diǎn)與日常生活狀態(tài),這使得民眾自由發(fā)表的言論成為社交網(wǎng)絡(luò)平臺(tái)中文本數(shù)據(jù)的主體.然而,社交媒體中的文本具有口語(yǔ)化程度高、來(lái)源廣泛的特點(diǎn)[1],這對(duì)自然語(yǔ)言處理技術(shù)的準(zhǔn)確性帶來(lái)了新的挑戰(zhàn).

在中文自然語(yǔ)言處理技術(shù)中,文本分詞是十分重要的過(guò)程,分詞過(guò)程是將一段中文文本進(jìn)行切分,從而識(shí)別一段文本中的各個(gè)詞語(yǔ).分詞之后的文本數(shù)據(jù)可以進(jìn)行詞向量訓(xùn)練、語(yǔ)義聚類(lèi)等進(jìn)一步的分析處理,從而得到準(zhǔn)確的情感分析、文本摘要等目標(biāo)結(jié)果.但多數(shù)分詞算法如詞典匹配、正逆向最大匹配法、雙向最大匹配法以及CRF 序列標(biāo)注[2]等,均從文本的語(yǔ)法、詞性規(guī)律入手,依賴(lài)于標(biāo)注過(guò)詞性、詞頻等信息的詞典來(lái)對(duì)文本進(jìn)行分詞,從而得到盡可能消除歧義的分詞結(jié)果,然而面對(duì)網(wǎng)絡(luò)輿情空間中充斥著的大量不規(guī)范使用、不符合詞性規(guī)律、口語(yǔ)化嚴(yán)重以及包含大量詞典未登錄詞的文本語(yǔ)料時(shí),傳統(tǒng)分詞算法對(duì)命名實(shí)體以及網(wǎng)絡(luò)用語(yǔ)等新詞的識(shí)別能力較差.

在中文自然語(yǔ)言處理工具中,Jieba(結(jié)巴分詞)是一個(gè)簡(jiǎn)單、高效、靈活的Python 工具庫(kù),Jieba 工具庫(kù)中的語(yǔ)句簡(jiǎn)潔凝練,提供多種模式對(duì)中文文本進(jìn)行分詞,并且可以自由修改詞典文件,深受廣大自然語(yǔ)言處理初學(xué)者喜愛(ài).為解決當(dāng)前分詞算法對(duì)于新詞識(shí)別的痛點(diǎn),本文提出使用關(guān)聯(lián)置信度與連接詞拆分的新詞發(fā)現(xiàn)算法,通過(guò)與結(jié)巴分詞結(jié)果結(jié)合的方式,對(duì)網(wǎng)絡(luò)輿情文本中的新詞進(jìn)行發(fā)現(xiàn),該算法不依賴(lài)于完備的已標(biāo)注詞典以及龐大的訓(xùn)練語(yǔ)料,采用計(jì)算一個(gè)詞與其左右鄰接詞集中各個(gè)詞之間的關(guān)聯(lián)置信度的方法,對(duì)被結(jié)巴分詞錯(cuò)誤拆分的詞語(yǔ)進(jìn)行合并,并對(duì)包含連接詞的較長(zhǎng)新詞進(jìn)行拆分,從而實(shí)現(xiàn)對(duì)新詞尤其是命名實(shí)體、網(wǎng)絡(luò)用語(yǔ)的發(fā)現(xiàn)功能,并避免新詞結(jié)果過(guò)長(zhǎng)形成短語(yǔ)塊的情況出現(xiàn).

1 新詞發(fā)現(xiàn)

在中文自然語(yǔ)言處理中,新詞指的是在分詞詞典中沒(méi)有收錄,但又確實(shí)能稱(chēng)為詞的詞語(yǔ)[1],如一些命名實(shí)體(人名、地名)以及網(wǎng)絡(luò)用語(yǔ),此類(lèi)詞語(yǔ)靈活性大,大多不符合語(yǔ)法、構(gòu)詞法規(guī)律,但又能表示一定的語(yǔ)義,是否能準(zhǔn)確識(shí)別文本中的新詞會(huì)直接影響后續(xù)算法對(duì)文本語(yǔ)義的判斷,新詞識(shí)別的準(zhǔn)確率已成為評(píng)價(jià)分詞算法的重要標(biāo)準(zhǔn).

目前國(guó)內(nèi)外針對(duì)新詞發(fā)現(xiàn)的算法分為兩類(lèi),包括基于頻繁模式的新詞發(fā)現(xiàn)算法以及基于序列標(biāo)注的新詞發(fā)現(xiàn)算法.

1.1 基于頻繁模式的新詞發(fā)現(xiàn)算法

基于頻繁模式的新詞發(fā)現(xiàn)算法通過(guò)統(tǒng)計(jì)方法計(jì)算詞語(yǔ)在語(yǔ)料中的相關(guān)信息,進(jìn)而確定需要合并或重新切分的詞語(yǔ).王雪瑞等[3]針對(duì)直播彈幕文本,引入邊界增強(qiáng)上下文熵的概念,通過(guò)計(jì)算詞語(yǔ)的上下文熵確定一個(gè)被拆分的詞應(yīng)該與其左右哪一側(cè)的詞語(yǔ)進(jìn)行合并,從而得到新詞;顧森[4]基于大量的文本語(yǔ)料,以詞語(yǔ)的內(nèi)部凝聚程度以及自由運(yùn)用程度為判別標(biāo)準(zhǔn),計(jì)算詞語(yǔ)在文本語(yǔ)料中的熵值,文獻(xiàn)認(rèn)為熵值低的詞可能是被錯(cuò)誤拆分的詞,應(yīng)對(duì)這樣的詞進(jìn)行合并處理從而得到新詞;王欣[5]利用多字互信息來(lái)判定一個(gè)詞語(yǔ)的內(nèi)部結(jié)合程度,并通過(guò)鄰接熵確定詞語(yǔ)的左右邊界,該方法從內(nèi)外兩方面入手,認(rèn)為一個(gè)詞語(yǔ)應(yīng)該是內(nèi)部緊密關(guān)聯(lián)且與外部其它詞語(yǔ)相對(duì)獨(dú)立的,通過(guò)計(jì)算兩種標(biāo)準(zhǔn)提高了新詞發(fā)現(xiàn)的準(zhǔn)確性;Zhang 等[6]利用帶有詞性標(biāo)注和詞頻標(biāo)記的詞典,結(jié)合互信息和最大熵模型在分詞過(guò)程中發(fā)現(xiàn)新詞;陳小紅[7]等針對(duì)游戲領(lǐng)域文本,通過(guò)從相關(guān)語(yǔ)料庫(kù)中抽出部分游戲術(shù)語(yǔ)、簡(jiǎn)稱(chēng)與知識(shí)庫(kù)進(jìn)行結(jié)合,對(duì)文本數(shù)據(jù)進(jìn)行詞性、領(lǐng)域標(biāo)記,該方法將分詞算法轉(zhuǎn)換為知識(shí)庫(kù)實(shí)體鏈接問(wèn)題,在特定領(lǐng)域下提高了分詞結(jié)果的準(zhǔn)確性;王珊珊等[8]通過(guò)對(duì)一個(gè)時(shí)間跨度的文本特征進(jìn)行分析比對(duì),為每個(gè)詞語(yǔ)添加時(shí)間跨度信息來(lái)判斷該詞是否為新詞、熱點(diǎn)詞;翟暢[9]提出了基于非結(jié)構(gòu)化文本的目標(biāo)領(lǐng)域未登錄詞識(shí)別策略和基于商業(yè)語(yǔ)料庫(kù)融合的分詞詞典構(gòu)建策略,通過(guò)統(tǒng)計(jì)詞語(yǔ)在文本語(yǔ)料中的頻度信息,結(jié)合領(lǐng)域術(shù)語(yǔ)知識(shí)庫(kù),對(duì)特定領(lǐng)域的文本進(jìn)行新詞發(fā)現(xiàn);張婧等[10]通過(guò)詞向量訓(xùn)練得到弱成詞詞串集合,結(jié)合詞頻統(tǒng)計(jì)對(duì)候選新詞進(jìn)行了有效過(guò)濾,在社交媒體語(yǔ)料分詞實(shí)驗(yàn)中取得了較高的準(zhǔn)確率;袁華等[11]提出了基于最大置信度的中文復(fù)合新詞發(fā)現(xiàn)方法,該方法采用數(shù)據(jù)挖掘中Apriori 算法的支持度與置信度,將新詞發(fā)現(xiàn)任務(wù)轉(zhuǎn)化為頻繁模式發(fā)現(xiàn)任務(wù),首先獲取文本數(shù)據(jù)的頻繁模式,再利用剪枝操作對(duì)頻繁模式結(jié)果進(jìn)行精簡(jiǎn),最終得出復(fù)合新詞結(jié);吳宏洲[12]與李亞松[13]等均通過(guò)從語(yǔ)料中提取候選詞,計(jì)算候選詞的支持度與置信度,并分別設(shè)定閾值對(duì)候選詞進(jìn)行篩選,從而完成對(duì)文本語(yǔ)料的新詞抽取工作.

基于頻繁模式的新詞發(fā)現(xiàn)算法首先要求候選詞具有一定的頻繁程度,進(jìn)而以詞語(yǔ)的熵值、互信息、支持度與置信度的計(jì)算為主,熵值包括信息熵、鄰接熵,熵值可以衡量詞語(yǔ)在語(yǔ)料中的混亂程度,一個(gè)詞語(yǔ)的熵值越高,則該詞在語(yǔ)料中越靈活,可以跟多個(gè)其它詞語(yǔ)組成上下文,這說(shuō)明這種詞語(yǔ)本身就是比較完備的整體,可以算作一個(gè)詞語(yǔ),而熵值越低說(shuō)明能與該詞語(yǔ)組成上下文的詞語(yǔ)越少,這說(shuō)明該詞可能是一個(gè)被錯(cuò)誤切分的詞,需要與其左右鄰接詞組成一個(gè)完整的詞語(yǔ);互信息用以衡量一個(gè)詞內(nèi)部各個(gè)文字之間的相互依賴(lài)程度,互信息越大說(shuō)明組成該詞的各個(gè)字詞單元不應(yīng)再進(jìn)行拆分;支持度與置信度是數(shù)據(jù)挖掘中的常用指標(biāo),分別衡量了事務(wù)項(xiàng)的頻繁程度與關(guān)聯(lián)程度.基于頻繁模式的新詞發(fā)現(xiàn)算法通常是在初步分詞后,對(duì)分詞結(jié)果進(jìn)行再檢驗(yàn),對(duì)錯(cuò)誤拆分的詞語(yǔ)進(jìn)行合并,對(duì)錯(cuò)誤合并的詞語(yǔ)進(jìn)行拆分,從而發(fā)現(xiàn)語(yǔ)料中的新詞.然而在包含新詞的新事件發(fā)生初期,總體數(shù)據(jù)量較少,難以利用統(tǒng)計(jì)法發(fā)現(xiàn)頻繁模式,在以微博、微信朋友圈、直播彈幕為主的網(wǎng)絡(luò)短文本中,由于詞語(yǔ)搭配的出現(xiàn)偶然性較大,在少量語(yǔ)料中計(jì)算得到的熵值并不準(zhǔn)確,從而會(huì)導(dǎo)致多個(gè)詞語(yǔ)被合并成短語(yǔ)塊的情況出現(xiàn),從而使得分詞結(jié)果的粒度變粗,進(jìn)而影響后續(xù)文本處理結(jié)果的準(zhǔn)確性.

1.2 基于序列標(biāo)注的新詞發(fā)現(xiàn)算法

基于序列標(biāo)注的新詞發(fā)現(xiàn)算法通過(guò)對(duì)文本中詞語(yǔ)的詞性、文字在詞中的位置等信息進(jìn)行標(biāo)注,通過(guò)預(yù)測(cè)序列變化的方式對(duì)文本進(jìn)行分詞,在分詞過(guò)程中發(fā)現(xiàn)新詞.曹菲[14]解決了基于Hash 的正向回溯算法解決分詞過(guò)程中的歧義問(wèn)題,并將CRF 模型與正向最大匹配相結(jié)合,從而提高對(duì)文本中命名實(shí)體的識(shí)別準(zhǔn)確率;李博涵等[15]針對(duì)Prefixspan 算法在文本序列標(biāo)注過(guò)程中容易出現(xiàn)的問(wèn)題,如序列模式不連續(xù)、序列模式項(xiàng)之間存在包含關(guān)系等,融合了詞語(yǔ)的頻繁模式對(duì)算法進(jìn)行了改進(jìn),該方法基于詞語(yǔ)的頻繁程度、詞性與語(yǔ)義對(duì)序列標(biāo)注的結(jié)果進(jìn)行過(guò)濾從而得到新詞;色差甲等[16]將最大熵模型嵌入到隱式馬爾科夫模型HMM 中,進(jìn)而對(duì)文本的BEMS 序列進(jìn)行標(biāo)注,該方法在藏文新詞如人名、地名、機(jī)構(gòu)名、事件名等方面具有良好的效果,提高分詞結(jié)果的正確率、召回率以及F 值接近2 個(gè)百分點(diǎn);周霜霜等[17]提出了一種融合規(guī)則和統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)算法,該方法通過(guò)對(duì)微博文本詞語(yǔ)的構(gòu)詞規(guī)則進(jìn)行歸納總結(jié),同時(shí)結(jié)合CRF 模型對(duì)文本的BEMS 序列進(jìn)行標(biāo)注,從而提高對(duì)微博文本分詞和詞性標(biāo)注的精度.

基于序列標(biāo)注的新詞發(fā)現(xiàn)算法,是在基于序列標(biāo)注的分詞算法基礎(chǔ)上進(jìn)行改進(jìn),使得序列標(biāo)注的準(zhǔn)確性有所提高,以BEMS 序列為標(biāo)注法的新詞發(fā)現(xiàn)算法居多,其中B 表示詞語(yǔ)開(kāi)始的字,M 表示詞語(yǔ)中間的字,E 表示詞語(yǔ)結(jié)束的字,S 表示單字詞語(yǔ).對(duì)文本的序列標(biāo)注依賴(lài)于有標(biāo)注的訓(xùn)練語(yǔ)料,通過(guò)訓(xùn)練語(yǔ)料才能得出序列變化的概率分布模型,而針對(duì)社交媒體中的短文本數(shù)據(jù)缺乏可靠的已標(biāo)記語(yǔ)料,且人為標(biāo)注的方法費(fèi)時(shí)費(fèi)力.

針對(duì)上述兩大類(lèi)新詞發(fā)現(xiàn)算法中的不足,本文受數(shù)據(jù)挖掘中Apriori 算法的啟發(fā),提出結(jié)合關(guān)聯(lián)置信度與結(jié)巴分詞的新詞發(fā)現(xiàn)算法,該算法以結(jié)巴分詞中精確模式的分詞結(jié)果為基礎(chǔ),通過(guò)計(jì)算詞語(yǔ)與其左右鄰接詞集中各個(gè)詞語(yǔ)之間的關(guān)聯(lián)置信度,找出被錯(cuò)誤切分的詞語(yǔ),將多個(gè)詞語(yǔ)間關(guān)聯(lián)置信度高的詞語(yǔ)合并成候選新詞,之后通過(guò)識(shí)別候選新詞中的連接詞來(lái)防止多個(gè)詞語(yǔ)被連接成短語(yǔ)塊的情況出現(xiàn),從而實(shí)現(xiàn)在單條輿情文本而非整體數(shù)據(jù)集中的新詞發(fā)現(xiàn)工作.

在第2 部分中,本文介紹了結(jié)巴分詞的基本原理,對(duì)本文提出的新詞發(fā)現(xiàn)算法中的6 個(gè)組成部分進(jìn)行定義,并闡述算法的具體流程;第3 部分中,本文以微博文本為實(shí)驗(yàn)語(yǔ)料,測(cè)試本文提出的新詞發(fā)現(xiàn)算法的性能,并與結(jié)巴分詞、文獻(xiàn)[12]中基于最大置信度的中文復(fù)合新詞發(fā)現(xiàn)方法的結(jié)果進(jìn)行對(duì)比實(shí)驗(yàn),并設(shè)置不同參數(shù)來(lái)驗(yàn)證參數(shù)對(duì)新詞結(jié)果的影響;在第4 部分中,將對(duì)本文的貢獻(xiàn)進(jìn)行總結(jié),并對(duì)后續(xù)工作進(jìn)行展望.

2 結(jié)合關(guān)聯(lián)置信度與結(jié)巴分詞的新詞發(fā)現(xiàn)算法

結(jié)巴分詞是一種融合了Trie 樹(shù)詞圖掃描、動(dòng)態(tài)規(guī)劃以及HMM 模型的分詞算法,結(jié)合了基于詞典匹配的分詞算法簡(jiǎn)單、準(zhǔn)確以及基于序列標(biāo)注的分詞算法對(duì)詞典未登錄詞具有區(qū)分能力的優(yōu)點(diǎn),結(jié)巴分詞提供3 種分詞模式,分別是精確模式、全模式以及搜索引擎模式,精確模式試圖將句子最精確地切分,全模式則是將句中所有可能成詞的詞語(yǔ)都找出,搜索引擎模式是在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分得到適合用于搜索引擎的分詞結(jié)果.由于全模式以及搜索引擎模式的分詞結(jié)果會(huì)將一個(gè)詞語(yǔ)多次拆分,因此其結(jié)果會(huì)出現(xiàn)一個(gè)詞包含另一個(gè)詞的情況,從而改變了原文本的順序,若在此結(jié)果上對(duì)錯(cuò)誤拆分的詞語(yǔ)進(jìn)行合并會(huì)得到錯(cuò)誤的結(jié)果.本文采用以結(jié)巴分詞提供的精確模式分詞結(jié)果為基礎(chǔ),該模式的分詞結(jié)果粒度細(xì),極少出現(xiàn)詞語(yǔ)被錯(cuò)誤合并的情況,但詞語(yǔ)易被錯(cuò)誤拆分,因此本文提出的算法通過(guò)計(jì)算一個(gè)詞語(yǔ)與其左右鄰接詞集中各個(gè)詞語(yǔ)的關(guān)聯(lián)置信度來(lái)對(duì)錯(cuò)誤拆分的詞語(yǔ)進(jìn)行合并得到候選新詞,進(jìn)而采用判斷候選新詞中的連接詞左右平均關(guān)聯(lián)置信度的情況對(duì)過(guò)度合并的候選新詞進(jìn)行拆分.針對(duì)算法中的分詞結(jié)果、左右鄰接詞集、關(guān)聯(lián)置信度、關(guān)聯(lián)置信度閾值、候選新詞以及連接詞有以下定義:

定義1.分詞結(jié)果:設(shè)一段文本為T(mén),通過(guò)調(diào)用Python 中的Jieba 庫(kù)中的cut()方法,將文本T作為參數(shù)傳入,得到一個(gè)有序的列表Tc=[w1,···,wi,···,wn] (1≤i≤n),其中wi表示一個(gè)字詞單元,它可能是一個(gè)單獨(dú)的字,也可能是一個(gè)詞語(yǔ),也可能是標(biāo)點(diǎn)符號(hào),下標(biāo)i并不是字詞單元在序列中出現(xiàn)的位置,而是表示字詞單元的唯一標(biāo)識(shí),即一個(gè)wi表示一個(gè)唯一的字詞單元,同一字詞單元可以在Tc中多次出現(xiàn),稱(chēng)Tc為文本T的分詞結(jié)果.

定義2.左右鄰接詞集:在文本T的分詞結(jié)果Tc中,對(duì)于一個(gè)字詞單元wi,其左側(cè)鄰接詞集NL是由wi在Tc中每個(gè)出現(xiàn)位置左側(cè)的字詞單元(標(biāo)點(diǎn)符號(hào)除外)構(gòu)成的集合;其右側(cè)鄰接詞集NR是由wi在Tc中每個(gè)出現(xiàn)位置右側(cè)的字詞單元(標(biāo)點(diǎn)符號(hào)除外)構(gòu)成的集合.

定義3.關(guān)聯(lián)置信度:對(duì)于兩個(gè)字詞單元wi與wj,若wi與wj分別存在于彼此的左側(cè)鄰接詞集與右側(cè)鄰接詞集,或分別存在于彼此的右側(cè)鄰接詞集與左側(cè)鄰接詞集時(shí),則可以計(jì)算wi與wj的關(guān)聯(lián)置信度,關(guān)聯(lián)置信度用以衡量在文本T中一個(gè)字詞單元出現(xiàn)的情況下,另一個(gè)字詞單元與之相鄰出現(xiàn)的概率,計(jì)算公式如式(1)所示:

Conf(wi→wj)表示字詞單元wi出現(xiàn)時(shí),wj與其鄰接出現(xiàn)的關(guān)聯(lián)置信度,計(jì)算方式為wi與wj在文本T中鄰接出現(xiàn)的概率除以wi在文本T中出現(xiàn)的概率,基于大數(shù)定律,wi與wj在文本T中鄰接出現(xiàn)的概率可以用wi與wj在文本T中鄰接出現(xiàn)的次數(shù)除以分詞結(jié)果Tc的列表長(zhǎng)度表示,同理,wi在文本T中出現(xiàn)的概率可以用wi在文本T中出現(xiàn)的次數(shù)除以分詞結(jié)果Tc的列表長(zhǎng)度表示.

定義4.關(guān)聯(lián)置信度閾值:在計(jì)算兩個(gè)字詞單元wi與wj的關(guān)聯(lián)置信度時(shí),需要分別計(jì)算關(guān)聯(lián)置信度Conf(wi→wj)與Conf(wj→wi),關(guān)聯(lián)置信度閾值Th用以規(guī)定兩個(gè)字詞單元可以合并成候選新詞時(shí)需要達(dá)到的最小關(guān)聯(lián)置信度的值,只有當(dāng)Conf(wi→wj)與Conf(wj→wi)均大于Th時(shí),才稱(chēng)兩個(gè)字詞單元wi與wj滿(mǎn)足關(guān)聯(lián)置信度閾值.

定義5.候選新詞:當(dāng)兩個(gè)字詞單元wi與wj滿(mǎn)足關(guān)聯(lián)置信度閾值Th時(shí),可對(duì)兩個(gè)字詞單元進(jìn)行合并得到(wi+wj),稱(chēng)(wi+wj)為一個(gè)候選新詞.

定義6.連接詞:若字詞單元wi與wj可以合并為(wi+wj),且字詞單元wj與wk可以合并為(wj+wk),則可合并為候選新詞(wi+wj+wk),稱(chēng)字詞單元wj為候選新詞(wi+wj+wk)的連接詞;若候選新詞由多個(gè)字詞單元組成,則除了第一個(gè)和最后一個(gè)字詞單元,其余構(gòu)成候選新詞的字詞單元均為該候選新詞的連接詞.

基于上述定義,結(jié)合關(guān)聯(lián)置信度與結(jié)巴分詞的新詞發(fā)現(xiàn)算法包括文本分詞、關(guān)聯(lián)置信度計(jì)算以及連接詞拆分3 個(gè)步驟.

2.1 文本分詞

文本分詞步驟采用Jieba 工具庫(kù)提供的精確分詞模式,對(duì)待進(jìn)行新詞發(fā)現(xiàn)的文本T進(jìn)行拆分得到其分詞結(jié)果Tc.本文所提出的新詞發(fā)現(xiàn)算法,是對(duì)少量網(wǎng)絡(luò)輿情文本而非整體數(shù)據(jù)集進(jìn)行新詞發(fā)現(xiàn),由于網(wǎng)絡(luò)輿情文本長(zhǎng)度較短,若一個(gè)詞語(yǔ)在一條網(wǎng)絡(luò)輿情文本中只出現(xiàn)一次,則通過(guò)定義3 計(jì)算得到的該詞與其左右鄰接詞的關(guān)聯(lián)置信度容易達(dá)到100%,因此該詞與其左右鄰接詞極易滿(mǎn)足關(guān)聯(lián)置信度閾值從而成為一個(gè)候選新詞.

為避免此類(lèi)偶然情況的發(fā)生,本文提出的新詞發(fā)現(xiàn)算法采用將多條網(wǎng)絡(luò)輿情文本進(jìn)行合并以加長(zhǎng)待分詞文本長(zhǎng)度.設(shè)網(wǎng)絡(luò)輿情文本數(shù)據(jù)共有n條,每m條文本數(shù)據(jù)進(jìn)行合并得到合并文本段T’=T1+T2+···+Tm,共得到 ?n÷m?個(gè)合并文本段,對(duì)每個(gè)合并文本段進(jìn)行分詞,得到多個(gè)分詞結(jié)果Tc',對(duì)每個(gè)分詞結(jié)果Tc'進(jìn)行新詞發(fā)現(xiàn).

2.2 關(guān)聯(lián)置信度計(jì)算

對(duì)于一個(gè)分詞結(jié)果Tc',通過(guò)遍歷Tc'中的各個(gè)字詞單元得到每個(gè)字詞單元wi在Tc'中出現(xiàn)的次數(shù)以及wi與其左右鄰接詞集中的各個(gè)字詞單元在Tc'中鄰接出現(xiàn)的次數(shù),基于式(1)計(jì)算每個(gè)字詞單元與其左右鄰接詞集中各個(gè)字詞單元之間的關(guān)聯(lián)置信度,將所有滿(mǎn)足關(guān)聯(lián)置信度閾值Th的字詞單元對(duì)進(jìn)行合并,得到候選新詞集W’.

候選新詞集W’是將所有滿(mǎn)足關(guān)聯(lián)置信度閾值的字詞單元對(duì)合并得到的集合,W’中的候選新詞可能是將被結(jié)巴分詞過(guò)度拆分的詞語(yǔ)合并得到的正確新詞結(jié)果,也可能是被過(guò)度合并形成的短語(yǔ)塊,形成短語(yǔ)塊的原因可能是多個(gè)字詞單元構(gòu)成的短語(yǔ)在文本中多次、單調(diào)出現(xiàn),單調(diào)出現(xiàn)指的是構(gòu)成該短語(yǔ)塊的字詞單元在合并文本段T’中只與構(gòu)成該短語(yǔ)的其它字詞單元鄰接出現(xiàn),導(dǎo)致這些字詞單元之間均滿(mǎn)足關(guān)聯(lián)置信度閾值而被合并,有些短語(yǔ)可能是較長(zhǎng)的命名實(shí)體,而有些則是包含動(dòng)詞結(jié)構(gòu)的實(shí)際短語(yǔ),例如“我/去/上學(xué)”,短語(yǔ)不屬于新詞發(fā)現(xiàn)的范疇,因此需要對(duì)候選新詞集W’中的候選新詞進(jìn)行過(guò)濾篩選,從而得到最終的新詞結(jié)果.

2.3 連接詞拆分

在本文提出的新詞發(fā)現(xiàn)算法中,定義了構(gòu)成短語(yǔ)的字詞單元中連接詞的存在,在連接詞拆分步驟中,遍歷候選新詞集W'中的候選新詞,若一個(gè)候選新詞由3 個(gè)及以上的字詞單元構(gòu)成(即候選新詞中有存在連接詞),則對(duì)其進(jìn)行以下操作:

(1)找出候選新詞中的連接詞,判斷每個(gè)連接詞與其左右鄰接詞的平均關(guān)聯(lián)置信度的大小情況,平均關(guān)聯(lián)置信度為Conf(wi→wj)與Conf(wj→wi)的平均值;

(2)若一個(gè)連接詞與其左側(cè)、右側(cè)字詞單元的平均關(guān)聯(lián)置信度值不同,則將該候選新詞進(jìn)行拆分,拆分點(diǎn)為連接詞與其左、右側(cè)字詞單元平均關(guān)聯(lián)置信度較小的兩字詞單元之間;

(3)若一個(gè)連接詞與其左側(cè)、右側(cè)字詞單元的平均關(guān)聯(lián)置信度值相同,則保持兩個(gè)字詞單元合并的狀態(tài),繼續(xù)判斷候選新詞中的下一個(gè)連接詞;

(4)通過(guò)將帶有連接詞的候選新詞進(jìn)行拆分,去除由單個(gè)字詞單元組成的結(jié)果,得到最終新詞結(jié)果.

通過(guò)對(duì)候選新詞中的連接詞進(jìn)行拆分,可以把由多個(gè)字詞單元合并成的短語(yǔ)塊進(jìn)行拆解,降低了最終新詞結(jié)果的粒度,使得拆分出來(lái)的新詞更為獨(dú)立,從而防止新詞淹沒(méi)在短語(yǔ)中.

3 實(shí)驗(yàn)分析

為驗(yàn)證本文提出的新詞發(fā)現(xiàn)算法的有效性,筆者使用網(wǎng)絡(luò)爬蟲(chóng)在新浪微博中爬取了2019年9月至10月內(nèi)涉及體育賽事以及國(guó)慶檔電影總共1 GB 的純文本數(shù)據(jù),包括2644 494 條微博言論,512 948 156 個(gè)字符.實(shí)驗(yàn)通過(guò)設(shè)置不同合并文本數(shù)m與關(guān)聯(lián)置信度閾值Th進(jìn)行了多組實(shí)驗(yàn).由于實(shí)驗(yàn)所使用的數(shù)據(jù)時(shí)效性較新,網(wǎng)絡(luò)中缺乏相應(yīng)的正確詞語(yǔ)標(biāo)注內(nèi)容,因此本文無(wú)法使用正確率、召回率等性能指標(biāo)對(duì)新詞發(fā)現(xiàn)結(jié)果進(jìn)行評(píng)價(jià),本文將結(jié)合具體情況對(duì)結(jié)果進(jìn)行分析.

專(zhuān)利[11]與文獻(xiàn)[12,13]均采用了置信度作為新詞發(fā)現(xiàn)的有效工具,對(duì)初步分詞結(jié)果進(jìn)行處理以得出新詞結(jié)果.然而在計(jì)算置信度之前,需要計(jì)算詞語(yǔ)的支持度,只有滿(mǎn)足最小支持度也就是在文本語(yǔ)料中出現(xiàn)次數(shù)高于一定閾值的字詞單元,才有資格與其它字詞單元計(jì)算置信度,并且在得出候選詞后,沒(méi)有對(duì)候選詞進(jìn)行切分操作.實(shí)驗(yàn)中選用文獻(xiàn)[12]中的新詞抽取方法,同樣對(duì)結(jié)巴分詞精確模式的初步分詞結(jié)果進(jìn)行處理,與本文所提出的新詞發(fā)現(xiàn)算法的結(jié)果進(jìn)行了對(duì)比.

實(shí)驗(yàn)所用操作系統(tǒng)采用Windows 10 專(zhuān)業(yè)版操作系統(tǒng),處理器為Inter(R)Core(TM)i7-8700K CPU,3.70 GHz,16 GB 內(nèi)存,實(shí)驗(yàn)代碼使用Python 3.5 編寫(xiě),其中Jieba 工具庫(kù)的版本號(hào)為0.39.

3.1 合并文本數(shù)m 對(duì)比

本文所提出的新詞發(fā)現(xiàn)算法,采用了合并多條文本數(shù)據(jù)的方式以擴(kuò)大單條文本長(zhǎng)度,從而減少偶然出現(xiàn)的詞語(yǔ)搭配的關(guān)聯(lián)置信度達(dá)到100% 的情況出現(xiàn),因此合并文本數(shù)m的設(shè)置會(huì)影響最終新詞發(fā)現(xiàn)結(jié)果的情況.在本組實(shí)驗(yàn)中首先設(shè)置m=100,即每100 條微博言論數(shù)據(jù)融合為1 條文本數(shù)據(jù),融合處理后共有26 445 條融合后的文本數(shù)據(jù),使用Jieba 工具庫(kù)的精確模式對(duì)每條文本數(shù)據(jù)進(jìn)行分詞,標(biāo)出標(biāo)點(diǎn)符號(hào),之后針對(duì)每條融合文本數(shù)據(jù)的分詞結(jié)果,統(tǒng)計(jì)每個(gè)字詞單元在當(dāng)前融合文本中出現(xiàn)的次數(shù)并計(jì)算字詞單元與其左右關(guān)聯(lián)詞集中各字詞單元的關(guān)聯(lián)置信度,設(shè)置關(guān)聯(lián)置信度閾值Th=0.9,根據(jù)平均關(guān)聯(lián)置信度的大小對(duì)合并出的帶有連接詞的候選新詞進(jìn)行切分,共得到新詞結(jié)果1874 個(gè).新詞是從多個(gè)合并文本段中得出,最終新詞結(jié)果是由每個(gè)合并文本段中得到的新詞合并而來(lái),新詞的出現(xiàn)次數(shù)則是在全部合并文本段中出現(xiàn)的總數(shù),部分新詞結(jié)果如表1所示;令m=10,Th=0.9,使用相同語(yǔ)料共挖掘出新詞567 個(gè),部分新詞結(jié)果如表2所示,在表2中去除了表1中出現(xiàn)過(guò)的新詞.其中在文獻(xiàn)[12]的新詞抽取方法中同樣對(duì)融合文本數(shù)據(jù)進(jìn)行處理,并設(shè)支持度為10%,置信度為90%.

表1 合并文本數(shù)m=100 部分新詞結(jié)果

表2 合并文本數(shù)m=10 部分新詞結(jié)果

由上述實(shí)驗(yàn)可見(jiàn),本文新詞發(fā)現(xiàn)算法在對(duì)命名實(shí)體的識(shí)別上具有出色表現(xiàn),可合并兩組及以上被結(jié)巴分詞過(guò)度拆分的詞語(yǔ),準(zhǔn)確發(fā)現(xiàn)國(guó)內(nèi)外人名、影視劇名及網(wǎng)絡(luò)用語(yǔ)等;參數(shù)m的設(shè)置對(duì)新詞發(fā)現(xiàn)結(jié)果具有一定影響,m值越小則單條語(yǔ)料中字符數(shù)越少,因此一組詞語(yǔ)搭配在單條語(yǔ)料中出現(xiàn)的頻次更少,詞語(yǔ)搭配的多個(gè)詞語(yǔ)之間更容易達(dá)到關(guān)聯(lián)置信度閾值從而被本文算法認(rèn)定為新詞.如“微博/視頻”、“北京/時(shí)間”等詞語(yǔ),組成新詞的兩個(gè)詞語(yǔ)均具有明確的意義,組合后則成為具有不同含義的命名實(shí)體詞;如“X/玖/少年/團(tuán)肖戰(zhàn)”、“曲尼/次/仁”等復(fù)雜命名實(shí)體的詞語(yǔ),在結(jié)巴分詞完全錯(cuò)誤的情況下可清晰準(zhǔn)確對(duì)過(guò)度拆分的詞語(yǔ)進(jìn)行合并.組成此類(lèi)復(fù)雜命名實(shí)體新詞中的連接詞如“少年”、“次”在總體語(yǔ)料中獨(dú)立出現(xiàn)的次數(shù)非常多,通過(guò)減少參數(shù)m的設(shè)置可減少此類(lèi)連接詞在單條語(yǔ)料中出現(xiàn)的次數(shù),從而使其更易與其它詞語(yǔ)滿(mǎn)足關(guān)聯(lián)置信度閾值以得出準(zhǔn)確的新詞結(jié)果.

文獻(xiàn)[12]中的新詞抽取方法在字詞單元較為頻繁時(shí),但由于缺少對(duì)候選詞的拆分過(guò)程,因此容易將字詞單元連接成較長(zhǎng)的短語(yǔ),如“國(guó)慶檔電影中國(guó)機(jī)長(zhǎng)”;而當(dāng)字詞單元的頻繁程度低于最小支持度時(shí),新詞抽取方法則不認(rèn)為該字詞單元可能新詞的組成部分,因此無(wú)法識(shí)別出現(xiàn)次數(shù)較少的新詞.

3.2 關(guān)聯(lián)置信度閾值Th 對(duì)比

關(guān)聯(lián)置信度閾值Th是衡量?jī)蓚€(gè)字詞單元能否合并為候選新詞的界限,Th的值越低則兩個(gè)字詞單元更容易被合并.在本組對(duì)比實(shí)驗(yàn)中,設(shè)置Th=0.5,m=100,得到的部分新詞發(fā)現(xiàn)結(jié)果如表3所示,在表3中詞去除了在表1中出現(xiàn)過(guò)的新詞.其中在文獻(xiàn)[12]的新詞抽取方法中設(shè)支持度為10%,置信度為50%.

表3 關(guān)聯(lián)置信度閾值Th=0.5 部分新詞結(jié)果

對(duì)比表3與表1的結(jié)果可以發(fā)現(xiàn),通過(guò)降低關(guān)聯(lián)置信度閾值Th的取值,可以提升對(duì)由“中國(guó)”、“我的”等高頻詞匯組成的新詞的發(fā)現(xiàn)能力,由于實(shí)驗(yàn)所用語(yǔ)料臨近新中國(guó)成立70 周年,因此“中國(guó)”、“祖國(guó)”等詞語(yǔ)出現(xiàn)的次數(shù)較多,其它詞語(yǔ)很難與“中國(guó)”、“祖國(guó)”達(dá)到較高關(guān)聯(lián)置信度,但在降低關(guān)聯(lián)置信度閾值后,本文提出的算法成功挖掘出新詞“中國(guó)機(jī)長(zhǎng)”、“我和我的祖國(guó)”,這兩個(gè)詞語(yǔ)為2019年國(guó)慶檔熱映的電影名,是不同于其組成部分詞語(yǔ)意義的命名實(shí)體詞;且可以看出其在語(yǔ)料中出現(xiàn)極為頻繁;同時(shí)由于降低了關(guān)聯(lián)置信度閾值,如同“開(kāi)學(xué)/第一課”、“女籃/亞洲/杯”、“東京/奧運(yùn)會(huì)”等新詞被挖掘,這些新詞的每個(gè)組成部分都具有實(shí)際意義,合并在一起時(shí)可以讓命名實(shí)體包含更多信息,并且更加符合文本想要表達(dá)的實(shí)體.

在降低置信度取值后,文獻(xiàn)[12]中的新詞抽取方法會(huì)結(jié)合出更多的短語(yǔ)結(jié)果,同時(shí)對(duì)低頻度的新詞結(jié)果的識(shí)別能力較差,如要增加該方法對(duì)低頻新詞的識(shí)別能力,需要進(jìn)一步降低支持度閾值,然而降低支持度閾值后會(huì)導(dǎo)致計(jì)算時(shí)間增加以及錯(cuò)誤結(jié)果的出現(xiàn).

關(guān)聯(lián)置信度閾值Th的取值需要結(jié)合實(shí)際的語(yǔ)料情況,若設(shè)置過(guò)低則會(huì)挖掘出過(guò)多不正確的新詞,不正確的新詞結(jié)果中容易出現(xiàn)包含“的”、“我”、“和”等高頻字.對(duì)于不正確的新詞結(jié)果,可以通過(guò)高頻字詞典對(duì)新詞結(jié)果進(jìn)行過(guò)濾,去除包含高頻字的新詞結(jié)果.

通過(guò)實(shí)驗(yàn)驗(yàn)證,本文所提出的結(jié)合關(guān)聯(lián)置信度與結(jié)巴分詞結(jié)果的網(wǎng)絡(luò)輿情新詞發(fā)現(xiàn)算法在新詞尤其是命名實(shí)體的發(fā)現(xiàn)工作中具有出色的表現(xiàn),結(jié)巴分詞在處理人名時(shí),雖可以準(zhǔn)確識(shí)別姓氏,但結(jié)巴分詞難以準(zhǔn)確分出包含3 個(gè)及以上字?jǐn)?shù)的人名,結(jié)巴分詞通常將姓氏字與跟在姓氏字后面的第一個(gè)字分為一詞,跟在姓氏字后面的第二個(gè)字則視為單獨(dú)的字,從而造成錯(cuò)誤識(shí)別人名的情況,本文提出的算法通過(guò)計(jì)算組成人名的字詞之間的關(guān)聯(lián)性,在面對(duì)3 個(gè)及以上字?jǐn)?shù)的人名時(shí)同樣可以準(zhǔn)確識(shí)別此類(lèi)命名實(shí)體;針對(duì)網(wǎng)絡(luò)輿情中的網(wǎng)絡(luò)用語(yǔ)以及網(wǎng)絡(luò)媒體命名實(shí)體,結(jié)巴分詞通常會(huì)將此類(lèi)詞語(yǔ)過(guò)度拆分為單個(gè)的字,本文提出的算法可以將其進(jìn)行合并,從而得出詞典中未登錄且具有實(shí)際意義的網(wǎng)絡(luò)用語(yǔ)詞.

本文所提出的新詞發(fā)現(xiàn)算法是在少量文本語(yǔ)料中進(jìn)行新詞發(fā)現(xiàn),雖然對(duì)網(wǎng)絡(luò)輿情文本尤其是以微博、直播彈幕為主的超短文本進(jìn)行了合并以加長(zhǎng)單條文本數(shù)據(jù)的長(zhǎng)度,但令文本合并數(shù)m=10 時(shí),單條合并文本字段符數(shù)不超過(guò)1000 個(gè),本文所提出的新詞發(fā)現(xiàn)算法依然可以準(zhǔn)確發(fā)現(xiàn)新詞.因此本文提出的新詞發(fā)現(xiàn)算法不依賴(lài)于龐大的數(shù)據(jù)量,在新的網(wǎng)絡(luò)輿情事件發(fā)生的初期,缺乏數(shù)據(jù)量的情況下依然可以及時(shí)發(fā)現(xiàn)新事件文本數(shù)據(jù)中包含的新詞.

由于本文提出的新詞發(fā)現(xiàn)算法不進(jìn)行字詞單元頻繁程度的判定,因此相比于其它應(yīng)用置信度對(duì)新詞進(jìn)行抽取方法,可以對(duì)低頻度的新詞進(jìn)行識(shí)別,同時(shí)在通過(guò)關(guān)聯(lián)置信度連接字詞單元后,通過(guò)對(duì)連接詞進(jìn)行拆分,確保了新詞結(jié)果不會(huì)過(guò)長(zhǎng)導(dǎo)致出現(xiàn)短語(yǔ)塊結(jié)果.

4 結(jié)論與展望

本文提出的結(jié)合關(guān)聯(lián)置信度與結(jié)巴分詞的新詞發(fā)現(xiàn)算法,是在Jieba 工具庫(kù)精確模式分詞結(jié)果的基礎(chǔ)上,通過(guò)計(jì)算字詞單元與其左右鄰接詞集中各個(gè)字詞單元之間的關(guān)聯(lián)置信度,將滿(mǎn)足關(guān)聯(lián)置信度閾值的字詞單元進(jìn)行合并得到候選新詞,之后根據(jù)候選新詞中連接詞與其左右鄰接詞的平均關(guān)聯(lián)置信度大小關(guān)系對(duì)候選新詞進(jìn)行拆分,從而彌補(bǔ)了結(jié)巴分詞容易將詞語(yǔ)過(guò)度拆分導(dǎo)致分詞結(jié)果不正確的錯(cuò)誤,同時(shí)避免了字詞單元在合并過(guò)程中過(guò)度合并導(dǎo)致形成短語(yǔ)塊的問(wèn)題.

實(shí)驗(yàn)表明本文提出的新詞發(fā)現(xiàn)算法可以準(zhǔn)確識(shí)別新詞,尤其是命名實(shí)體以及網(wǎng)絡(luò)用語(yǔ),并且該算法可以在語(yǔ)料數(shù)較少的數(shù)據(jù)集中準(zhǔn)確發(fā)現(xiàn)新詞,適應(yīng)了在新事件發(fā)生初期,包含新詞的數(shù)據(jù)量較少的實(shí)際應(yīng)用情況,使得文本分析工作可以在新事件爆發(fā)前率先發(fā)現(xiàn)新詞從而快速提取新事件信息.

本文提出的新詞發(fā)現(xiàn)算法是對(duì)結(jié)巴分詞的初步分詞結(jié)果進(jìn)行修正,在今后的工作中將對(duì)本文提出的算法與其它較為成熟的分詞工具進(jìn)行融合,使新詞發(fā)現(xiàn)的準(zhǔn)確率有進(jìn)一步的提升.

猜你喜歡
關(guān)聯(lián)文本
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
“苦”的關(guān)聯(lián)
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 72种姿势欧美久久久大黄蕉| 成人日韩精品| 国产精品xxx| 99视频全部免费| 国产综合网站| 国产免费羞羞视频| а∨天堂一区中文字幕| 欧美成人A视频| 国产亚洲成AⅤ人片在线观看| 国产精品女熟高潮视频| 99r在线精品视频在线播放| 国产一级在线观看www色| 亚洲h视频在线| 99视频在线看| 男人的天堂久久精品激情| 中文字幕伦视频| 无码中文AⅤ在线观看| hezyo加勒比一区二区三区| 国产jizz| 2021无码专区人妻系列日韩| 国产精品成人一区二区| 永久免费精品视频| 欧美在线中文字幕| 777午夜精品电影免费看| 一级毛片免费播放视频| 亚洲五月激情网| 久久五月视频| 凹凸国产熟女精品视频| 人人91人人澡人人妻人人爽 | 呦视频在线一区二区三区| 国产SUV精品一区二区6| 国产一区在线视频观看| 亚洲精品福利视频| 潮喷在线无码白浆| 在线a网站| 国产呦精品一区二区三区网站| 免费观看欧美性一级| 找国产毛片看| AV网站中文| 亚洲欧美在线综合一区二区三区| 欧美亚洲一二三区| 成人国产精品2021| 国产超薄肉色丝袜网站| 一级爆乳无码av| 久热中文字幕在线| 亚洲无码日韩一区| 热99re99首页精品亚洲五月天| www欧美在线观看| 国产欧美日韩精品第二区| 亚洲V日韩V无码一区二区| 欧美日韩国产一级| 国产成人亚洲精品蜜芽影院| lhav亚洲精品| 3344在线观看无码| 免费人欧美成又黄又爽的视频| 欧美亚洲另类在线观看| 色屁屁一区二区三区视频国产| 欧美a在线视频| 婷婷综合色| 中国国产A一级毛片| 国产精品黄色片| 国产杨幂丝袜av在线播放| 久草网视频在线| 国产人成乱码视频免费观看| 国产香蕉在线视频| 国产麻豆va精品视频| 精品久久综合1区2区3区激情| 国产AV无码专区亚洲A∨毛片| 有专无码视频| 九色视频在线免费观看| 手机精品福利在线观看| 国产系列在线| 91麻豆精品视频| 亚洲国产欧美目韩成人综合| 最新国语自产精品视频在| 亚洲AV成人一区二区三区AV| 国产18在线播放| 久久夜色撩人精品国产| 国产爽爽视频| 亚洲国产中文精品va在线播放| 国产精品久久自在自线观看| 国产成人亚洲精品色欲AV|