999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義規(guī)則和關(guān)聯(lián)規(guī)則的特定領(lǐng)域中文術(shù)語字典的構(gòu)造

2019-03-27 01:07:18杜翠鳳陳雍君沈文明李建中
移動通信 2019年2期

杜翠鳳 陳雍君 沈文明 李建中

【摘? 要】針對當(dāng)前特定領(lǐng)域中文術(shù)語字典構(gòu)建工程量巨大、自動化程度低的問題,提出一種基于語義規(guī)則和關(guān)聯(lián)規(guī)則的特定領(lǐng)域的中文術(shù)語字典構(gòu)造方法,以提高構(gòu)造中文術(shù)語字典的智能化程度,減少人工的參與。將語義規(guī)則和關(guān)聯(lián)規(guī)則引入特定領(lǐng)域中文術(shù)語字典的構(gòu)造,在分詞基礎(chǔ)上,采用互信息、上下文以獲取種子詞;其次,以改進(jìn)Textrank創(chuàng)建新術(shù)語或?qū)ΜF(xiàn)有的術(shù)語進(jìn)行擴展;最后,結(jié)合語義規(guī)則和關(guān)聯(lián)規(guī)則優(yōu)化本領(lǐng)域的術(shù)語,形成特定領(lǐng)域、動態(tài)更新的中文術(shù)語字典。實驗證明:本文提出的方法提高了特定領(lǐng)域術(shù)語提取的概率和效率,能夠從語義層面為智能信息檢索與集成、潛在語義分析提供更有效、精準(zhǔn)的信息服務(wù)能力。

【關(guān)鍵詞】術(shù)語字典;語義規(guī)則;關(guān)聯(lián)規(guī)則;Textrank

1? ?引言

人工智能的提出與發(fā)展,要求計算機或者機器人具備從語義層面上認(rèn)知和理解人類語言或者文字的能力,最終實現(xiàn)信息無歧義地交互。術(shù)語作為刻畫、描寫領(lǐng)域的基本信息承載單元,是知識庫的核心成員,也是本體構(gòu)成的基本單元[1]。術(shù)語提取的準(zhǔn)確率和完備性直接影響到信息檢索和集成的服務(wù)能力,因此,術(shù)語自動化提取研究已經(jīng)成為自然語言領(lǐng)域的一個研究熱點。具體包括:利用互信息、上下文依賴提取文本的種子詞方法[2-4];結(jié)合詞頻方法對詞語進(jìn)行拼接構(gòu)成關(guān)鍵領(lǐng)域復(fù)合詞[5-7];采用領(lǐng)域一致度、領(lǐng)域相關(guān)度、領(lǐng)域隸屬度定量衡量術(shù)語之間的關(guān)聯(lián)度[8]。基于互信息、上下文依賴、信息熵的種子詞提取方法,以文本頻繁詞為基準(zhǔn)點,采用向前或向后的拼接方式合成文本種子詞,該方法提取的術(shù)語具有較高的完備性,但是計算復(fù)雜度太高;除此之外,該方法沒有考慮中文語法層次的問題,會造成大量的非領(lǐng)域復(fù)合詞或者術(shù)語。采用領(lǐng)域一致度、領(lǐng)域相關(guān)度、領(lǐng)域隸屬度的術(shù)語提取方法雖然能夠較好地提取該領(lǐng)域的復(fù)合詞和術(shù)語,但是各指標(biāo)的閾值很難找到一個最佳值。本文在借鑒相關(guān)學(xué)者研究成果的基礎(chǔ)上,在力求字典完備性的基礎(chǔ)上,通過構(gòu)建種子詞網(wǎng)絡(luò),大大降低詞語關(guān)系計算的復(fù)雜度。采用改進(jìn)Textrank創(chuàng)建新術(shù)語或?qū)ΜF(xiàn)有的術(shù)語進(jìn)行擴展,以滿足特定領(lǐng)域字典的動態(tài)更新的要求,符合現(xiàn)代海量文本術(shù)語高速提取的需求。

2? ?術(shù)語字典提取流程

術(shù)語字典的提取流程:

(1)多個領(lǐng)域語料庫的非結(jié)構(gòu)化文檔作為語料庫,作為模型的輸入。

(2)采用互信息、上下文依賴等指標(biāo)提取種子詞,并構(gòu)建種子詞網(wǎng)絡(luò)。

(3)采用改進(jìn)Textrank算法創(chuàng)建新術(shù)語或者對現(xiàn)有術(shù)語進(jìn)行擴展,形成候選術(shù)語集合。

(4)采用術(shù)語語義規(guī)則提取候選術(shù)語集合中滿足條件的術(shù)語。

(5)采用關(guān)聯(lián)規(guī)則,篩選非特定領(lǐng)域的術(shù)語,形成特定領(lǐng)域中文術(shù)語字典。

圖1為術(shù)語字典的提取流程:

3? ?實驗驗證

3.1? 數(shù)據(jù)說明

本文以中國知網(wǎng)收集的600份關(guān)于人工智能、移動通信、經(jīng)濟管理領(lǐng)域的文章作為數(shù)據(jù)基礎(chǔ),用于特定領(lǐng)域的術(shù)語提取。采用上述的流程對文本數(shù)據(jù)進(jìn)行預(yù)處理,并對本文提出的算法進(jìn)行驗證,將本文算法的提取結(jié)果與基于互信息的提取結(jié)果進(jìn)行對比。

3.2? 實驗過程說明

(1)構(gòu)建種子詞網(wǎng)絡(luò)

首先,利用hanlp分詞系統(tǒng)對語料庫的非結(jié)構(gòu)化文本進(jìn)行詞語的最小單位劃分、詞性標(biāo)注;然后在詞性標(biāo)注的基礎(chǔ)上,從分詞中提取滿足條件的詞語或者詞語組合作為種子詞。本文采用互信息、上下文依賴等幾個指標(biāo)的綜合值作為種子詞選取的標(biāo)準(zhǔn)。

針對傳統(tǒng)互信息會弱化詞語在語料中出現(xiàn)的概率問題,本文引入概率影響系數(shù)對互信息進(jìn)行改進(jìn),其公式為:

其中,詞語串S=t1t2…ti,其中ti是被hanlp分詞系統(tǒng)切分的一個詞語或者詞語組合;f(t)表示頻率;ni是詞語串S出現(xiàn)的次數(shù),Ni是預(yù)料庫中所有詞語出現(xiàn)的次數(shù)。

上下文依賴是指在特定窗口內(nèi)在上下文詞語ti已經(jīng)出現(xiàn)的情況下的條件熵,即:

w是指在特定滑動窗口內(nèi)ti出現(xiàn)的情況下某個詞語出現(xiàn)的概率,而W則表示為特定窗口內(nèi)ti出現(xiàn)的情況下詞語的集合。

根據(jù)語料庫設(shè)定互信息和上下文依賴的閾值,如果詞語或者詞語組合均滿足上述的閾值,則將其納入種子詞集合。在此基礎(chǔ)上,由種子集合節(jié)點V以及節(jié)點之間的邊E構(gòu)成種子詞網(wǎng)絡(luò)G=(V, E)。圖2為種子詞網(wǎng)絡(luò)示意圖:

(2)采用改進(jìn)Textrank創(chuàng)建新術(shù)語或?qū)ΜF(xiàn)有的術(shù)語進(jìn)行擴展

Textrank模型最開始用于提取詞語特征,但該模型過于注重統(tǒng)計的指標(biāo)來衡量詞語的特征,并沒有從語義層面來反映詞語之間的語義特征。針對上述問題,本文采用語義關(guān)聯(lián)性來定義種子詞網(wǎng)絡(luò)的權(quán)值,在此基礎(chǔ)上,通過Textrank模型迭代種子詞網(wǎng)絡(luò)節(jié)點的權(quán)重,直至收斂;然后對節(jié)點的權(quán)重進(jìn)行Top-N排序,得到Top-N種子詞,若Top-N種子詞之間形成相鄰詞組,則作為術(shù)語提取出來。

節(jié)點語義關(guān)聯(lián)性意味著種子詞同時出現(xiàn)的概率,這符合embedding方法的假設(shè),即擁有相似的上下文。通過定量衡量種子詞之間的語義層次關(guān)系,以此來判斷種子詞是否屬于同一類別。而基于語料庫的embedding方法訓(xùn)練出來的詞向量是帶有語義相關(guān)關(guān)系的。因此,本文在對各個語料庫進(jìn)行word2vec訓(xùn)練預(yù)處理的基礎(chǔ)上,采用向量之間的相似性來反映語義關(guān)聯(lián)性的特征:

其中,wij是詞語ti與tj之間的語義關(guān)聯(lián)性,表示節(jié)點之間的邊連接的重要程度。

在定義邊連接的重要性程度后,本文采用Textrank模型迭代種子詞網(wǎng)絡(luò)節(jié)點的權(quán)重,其公式為:

其中,WS(ti)表示節(jié)點的重要性;d表示阻尼系數(shù),通常小于1;tj∈In(ti)表示是詞語ti緊跟tj之后;同理tk∈Out(tj)表示詞語tk緊跟其tj之后。

根據(jù)語料庫詞語排序的規(guī)則不斷迭代,直至滿足停止條件后,對節(jié)點的權(quán)重采用Top-N方式進(jìn)行排序,得到Top-N種子詞。若Top-N種子詞之間形成相鄰詞組,則作為術(shù)語提取出來。這種方法從語義層面反映構(gòu)成術(shù)語的詞語之間的語義特征,能夠在一定程度上減少不相關(guān)詞語組合的干擾。

(3)采用中文術(shù)語規(guī)則獲取候選術(shù)語集合

本文在參考賀海濤[8]等人研究的基礎(chǔ)上,使用詞性分析規(guī)則提取候選術(shù)語集合,其規(guī)則如表1所示:

其中,限定性定語包括:形容詞、區(qū)別詞、動詞、名詞以及數(shù)詞+量詞。

(4)特定領(lǐng)域中文字典構(gòu)造

關(guān)聯(lián)規(guī)則的獲取主要是通過數(shù)據(jù)挖掘的方法從大量的事件記錄數(shù)據(jù)庫中找出滿足一定條件的最小支持度Minsup和最小置信度Minconf的頻繁模式[10]。

支持度揭示了術(shù)語mi與mj同時出現(xiàn)的概率,其公式為:

置信度則揭示了術(shù)語mi出現(xiàn)后,術(shù)語mj是否會出現(xiàn)或多大概率會出現(xiàn),其公式為:

通過公式(5)和公式(6)計算每一個候選術(shù)語在特定領(lǐng)域中的支持度和置信度,并與設(shè)定的最小支持度和置信度進(jìn)行比較,將小于最小支持度和置信度的候選術(shù)語排除在外,最終形成特定領(lǐng)域的中文字典。

3.3? 實驗結(jié)果

本實驗的目的是為了驗證本文3.2節(jié)中所提出的中文術(shù)語抽取算法的過濾性能。為了便于說明本文算法的優(yōu)越性,將本文算法與傳統(tǒng)互信息算法進(jìn)行比較,本文算法的改進(jìn)互信息閾值設(shè)定為0.6,傳統(tǒng)互信息算法的閾值設(shè)定為0.4。

本文算法的步驟為:

(1)改進(jìn)互信息的閾值為0.6;

(2)上下文依賴的閾值取0.08;

(3)改進(jìn)Textrank的閾值為0.01。

考慮到三個不同領(lǐng)域術(shù)語的分布特點,因此最低支持度的區(qū)間為[0.05, 0.13],最低可信度的區(qū)間為[0.6, 0.8]。

實驗結(jié)果如圖3所示:

從實驗結(jié)果看,互信息通過確定詞語之間的相關(guān)性來進(jìn)行詞語的拼接,但是這種方法沒有考慮到詞語的中文語法層次,因此在同樣的查全率的情況下,查準(zhǔn)率較低。本文提出的算法,不僅考慮了詞語的相關(guān)性,還從上下文的角度考慮了詞語之間的位置分布。除此之外,采用支持度和置信度來提取術(shù)語,充分考慮了術(shù)語在領(lǐng)域內(nèi)和不同領(lǐng)域間的分布特征,因此在很大程度上提升了數(shù)據(jù)的查準(zhǔn)率。

4? ?結(jié)束語

中文術(shù)語提取自動化程度低,在術(shù)語抽取過程中沒有考慮到中文語法而導(dǎo)致其抽取結(jié)果出現(xiàn)大量非領(lǐng)域術(shù)語的問題。本文提出了一種基于語義規(guī)則和關(guān)聯(lián)規(guī)則的特定領(lǐng)域中文術(shù)語字典的構(gòu)造方法,該方法結(jié)合了自然語言處理與統(tǒng)計方法的優(yōu)點。首先,在種子詞網(wǎng)絡(luò)構(gòu)建的基礎(chǔ)上,采用改進(jìn)Textrank算法創(chuàng)建新術(shù)語或?qū)ΜF(xiàn)有的術(shù)語進(jìn)行擴展,大大提升了術(shù)語創(chuàng)建的速度。然后,采用關(guān)聯(lián)規(guī)則,篩選非特定領(lǐng)域的術(shù)語,形成特定領(lǐng)域中文術(shù)語字典。實驗表明,本文提出的基于語義規(guī)則和關(guān)聯(lián)規(guī)則的特定領(lǐng)域中文術(shù)語字典的構(gòu)造方法,能夠以較高的準(zhǔn)確率和效率從特定領(lǐng)域語料庫提取出中文術(shù)語,構(gòu)成動態(tài)更新的中文術(shù)語字典。

參考文獻(xiàn):

[1] 何燕,穗志方,段慧明,等. 一種結(jié)合術(shù)語部件庫的術(shù)語提取方法[J]. 計算機工程與應(yīng)用, 2006,42(33): 4-7.

[2] 范小麗,劉曉霞. 文本分類中互信息特征選擇方法的研究[J]. 計算機工程與應(yīng)用, 2010(34): 123-125.

[3] 杜海舟,陳政波,鐘孔露. 基于上下文關(guān)系和TextRank算法的關(guān)鍵詞提取方法[J]. 上海電力學(xué)院學(xué)報, 2017(6): 607-612.

[4] 黃政豪,崔榮一. 基于術(shù)語自動抽取的科技文獻(xiàn)翻譯輔助系統(tǒng)的設(shè)計[J]. 延邊大學(xué)學(xué)報:自然科學(xué)版, 2017(3): 74-78.

[5] 陳宇,朱建鋒,吳毅堅,等. 一種基于領(lǐng)域本體的新術(shù)語擴充方法[J]. 計算機工程, 2011,37(7): 24-27.

[6] 李伊瀟,李宏偉,沈立煒,等. 基于啟發(fā)式規(guī)則的自動化本體擴充[J]. 計算機科學(xué), 2016,43(3): 213-219.

[7] 王衛(wèi)民,賀冬春,符建輝. 基于種子擴充的專業(yè)術(shù)語識別方法研究[J]. 計算機應(yīng)用研究, 2012,29(11): 4105-4107.

[8] 賀海濤,鄭山紅,李萬龍,等. 基于關(guān)聯(lián)規(guī)則和語義規(guī)則的本體概念提取研究[J]. 吉林大學(xué)學(xué)報:信息科學(xué)版, 2014,32(6): 657-663.

[9] 朱惠,楊建林,王昊. 中文學(xué)科術(shù)語相關(guān)語義關(guān)系獲取方法研究[J]. 圖書與情報, 2017(2): 125-132.

[10] 葉圣俊,孫濟慶,李楠. 基于詞素的中文術(shù)語語義關(guān)聯(lián)研究[J]. 圖書館雜志, 2017(1): 80-87.

主站蜘蛛池模板: 夜精品a一区二区三区| 欧美在线国产| 欧美视频在线观看第一页| 无码aaa视频| 色有码无码视频| 日韩精品无码免费一区二区三区| 久久黄色一级视频| 精品五夜婷香蕉国产线看观看| 毛片在线播放网址| 国产96在线 | 理论片一区| 在线看片中文字幕| 91精品网站| 国产精品xxx| 都市激情亚洲综合久久| 国产女人在线| 浮力影院国产第一页| 国产欧美日韩另类| 婷五月综合| jizz国产在线| 国产精品9| 欧美一级在线看| 国产成年女人特黄特色毛片免 | 青青青国产免费线在| 99精品热视频这里只有精品7| 亚洲香蕉久久| 99久久亚洲综合精品TS| 中字无码av在线电影| 欧美日韩国产在线播放| 色欲综合久久中文字幕网| 无码福利日韩神码福利片| 人妻一区二区三区无码精品一区| 亚欧美国产综合| 国产免费网址| 手机看片1024久久精品你懂的| 国产精品视频a| 国产精品任我爽爆在线播放6080 | 免费国产高清精品一区在线| 亚洲AⅤ无码国产精品| 国产精品第一区在线观看| 综合久久五月天| 国产一级毛片yw| 日韩在线视频网| 99久久国产综合精品女同| 亚洲黄网视频| 97久久人人超碰国产精品| 国产在线视频欧美亚综合| 99人体免费视频| 久久精品国产免费观看频道| 精品一区二区三区四区五区| 精品人妻无码中字系列| 高清无码手机在线观看| 国产精品思思热在线| 88av在线看| 成人国产一区二区三区| 3D动漫精品啪啪一区二区下载| 国产欧美精品专区一区二区| 99精品伊人久久久大香线蕉 | 91美女视频在线| 亚洲精品va| 久久婷婷国产综合尤物精品| 亚洲美女高潮久久久久久久| 国产精品成人免费综合| 日a本亚洲中文在线观看| 成人亚洲国产| 国产精品九九视频| 欧美中文字幕在线视频| 天天躁日日躁狠狠躁中文字幕| 久久国产成人精品国产成人亚洲 | 色偷偷一区| 亚洲天堂首页| 欧美日韩国产在线播放| 国产精品理论片| 亚洲VA中文字幕| 国产在线观看91精品| 欧美日韩导航| 亚洲欧美精品在线| 97se亚洲综合在线韩国专区福利| 免费午夜无码18禁无码影院| 国产屁屁影院| www.精品国产| 国产麻豆精品久久一二三|