999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向工業(yè)互聯(lián)網(wǎng)資訊的中文關(guān)鍵詞抽取

2020-03-05 04:22:24陳碩殷鋒袁平
現(xiàn)代計(jì)算機(jī) 2020年3期
關(guān)鍵詞:特征

陳碩,殷鋒,袁平

(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065;2.西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,成都610041;3.重慶第二師范學(xué)院數(shù)學(xué)與信息工程學(xué)院,重慶400067)

0 引言

關(guān)鍵詞是一篇文章主題內(nèi)容和思想的體現(xiàn),關(guān)鍵詞的抽取是文本分析處理領(lǐng)域的一項(xiàng)重要的工作,無(wú)論是信息檢索、文本聚類(lèi)、文本分類(lèi)、文檔摘要等任務(wù)中,還是在搜索引擎、新聞資訊推薦、圖書(shū)檢索和用戶(hù)畫(huà)像構(gòu)建等應(yīng)用中,都發(fā)揮著不可替代的作用[1-2]。本文面向工業(yè)互聯(lián)網(wǎng)資訊信息推薦領(lǐng)域,提出了一種基于多特征的關(guān)鍵詞抽取算法。在分詞階段,提出了兩種擴(kuò)充分詞詞典的方法,提高了分詞的準(zhǔn)確率,進(jìn)而提高了關(guān)鍵詞抽取的準(zhǔn)確率;在候選詞選取階段,提出了候選詞度量指標(biāo)關(guān)鍵詞覆蓋率,通過(guò)這個(gè)指標(biāo),可以選出合適的候選詞個(gè)數(shù),在保證了候選詞包含關(guān)鍵詞的前提下,還能保證該算法的效率;在特征選取階段,本文選取了6大類(lèi)21種特征。根據(jù)中文文章結(jié)構(gòu)總分總的特點(diǎn),本文首次提出了尾詞頻這個(gè)特征。此外,在中文關(guān)鍵詞抽取領(lǐng)域,首次利用短語(yǔ)向量和文檔向量衡量詞語(yǔ)與文檔的相關(guān)性,并將其作為一個(gè)度量特征,加強(qiáng)了在關(guān)鍵詞抽取時(shí)對(duì)語(yǔ)義特征的考慮;通過(guò)對(duì)候選關(guān)鍵詞的子串進(jìn)行去除,提高了關(guān)鍵詞抽取算法的覆蓋度。

1 關(guān)鍵詞抽取

1.1 分詞

進(jìn)行關(guān)鍵詞抽取,就首先需要進(jìn)行分詞。分詞的準(zhǔn)確率直接影響著關(guān)鍵詞抽取的準(zhǔn)確率。由于工業(yè)互聯(lián)網(wǎng)是一個(gè)近些年新興的一個(gè)學(xué)科,所以現(xiàn)有的分詞工具中詞典存在大量的未登錄詞。文獻(xiàn)[4]表明,未登錄詞問(wèn)題是導(dǎo)致分詞不準(zhǔn)確的一個(gè)很大的原因。所以,解決現(xiàn)有詞典未登錄詞問(wèn)題,可以有效提高分詞的準(zhǔn)確率,進(jìn)而提高關(guān)鍵詞抽取的準(zhǔn)確率。本文采用增加自定義詞典的方式擴(kuò)充詞庫(kù),進(jìn)而減少未登錄詞。

本文的自定義詞典從兩個(gè)方面進(jìn)行獲取,一方面是從搜狗輸入法網(wǎng)站上1https://pinyin.sogou.com/dict/下載了搜狗輸入法詞庫(kù)中工業(yè)互聯(lián)網(wǎng)相關(guān)領(lǐng)域詞典,并將這些詞典的詞語(yǔ)提取出來(lái)作為一個(gè)自定義詞典;另一方面是從爬蟲(chóng)抓取的21464篇工業(yè)互聯(lián)網(wǎng)相關(guān)資訊中,根據(jù)特定表達(dá)規(guī)則進(jìn)行詞語(yǔ)的抽取出來(lái)作為另一個(gè)自定義詞典。然后通過(guò)開(kāi)源的jieba2https://github.com/fxsjy/jieba工具包作為分詞工具,同時(shí)加大自定義詞典的中詞語(yǔ)的權(quán)重,保證專(zhuān)業(yè)詞匯不被切分開(kāi)來(lái)。

1.2 數(shù)據(jù)的標(biāo)注

本文隨機(jī)抽選出251篇工業(yè)互聯(lián)網(wǎng)資訊文檔進(jìn)行關(guān)鍵詞標(biāo)注,每篇文檔標(biāo)注3至5個(gè)關(guān)鍵詞,為了盡量保證關(guān)鍵詞標(biāo)注的準(zhǔn)確與客觀,讓多人參與了關(guān)鍵詞的標(biāo)注、審查和修改。標(biāo)注完成后,本文對(duì)關(guān)鍵詞總數(shù)做了統(tǒng)計(jì),共計(jì)995個(gè)關(guān)鍵詞,平均每篇文檔3.96個(gè)關(guān)鍵詞。

1.3 候選詞的抽取

基于特征的關(guān)鍵詞抽取算法一般是把關(guān)鍵詞抽取問(wèn)題轉(zhuǎn)化為一個(gè)詞語(yǔ)是否是關(guān)鍵詞的二分類(lèi)問(wèn)題,通過(guò)標(biāo)注的數(shù)據(jù)訓(xùn)練出一個(gè)分類(lèi)器。但如果將所有的詞語(yǔ)都進(jìn)行訓(xùn)練,會(huì)導(dǎo)致正負(fù)樣本相差過(guò)大,進(jìn)而導(dǎo)致無(wú)法訓(xùn)練出一個(gè)合適的分類(lèi)器。因此,需要首先選出候選詞,候選詞的選取對(duì)最終分類(lèi)器的效果有著巨大的影響[5]。本文分別采用基于TF-IDF的關(guān)鍵詞抽取算法和基于TextRank的關(guān)鍵詞抽取算法進(jìn)行了候選詞抽取,并采用關(guān)鍵詞覆蓋率(Coverage rate)對(duì)抽取效果進(jìn)行了度量。關(guān)鍵詞覆蓋率等于候選詞中關(guān)鍵詞的個(gè)數(shù)除以關(guān)鍵詞的總數(shù),如公式(1)所示,其中An表示第n個(gè)文檔候選詞的集合,Bn表示第n個(gè)文檔關(guān)鍵詞的集合。

本文利用已經(jīng)標(biāo)注關(guān)鍵詞的251篇文檔,測(cè)試了上述兩種算法覆蓋率的情況,覆蓋率與候選詞個(gè)數(shù)直接的變化關(guān)系如圖1所示,其中折線(xiàn)1和折線(xiàn)2分別表示基于TF-IDF的關(guān)鍵詞抽取算法、基于TextRank的關(guān)鍵詞抽取算法,折線(xiàn)3和折線(xiàn)4分別表示基于TF-IDF、基于TextRank的關(guān)鍵詞抽取算法抽取的候選詞加上標(biāo)題詞語(yǔ)的個(gè)數(shù)與其覆蓋率變化情況。通過(guò)圖1,我們可以觀察到在本領(lǐng)域的情況下:基于TF-IDF的關(guān)鍵詞抽取算法抽取的關(guān)鍵詞加上標(biāo)題詞語(yǔ)的效果最好,并在候選詞為20的時(shí)候,覆蓋率趨于平穩(wěn)。由此,我們采取基于TF-IDF的關(guān)鍵詞抽取算法抽取20個(gè)詞語(yǔ),再加上標(biāo)題中的詞語(yǔ)一起作為候選詞。

圖1覆蓋率與候選詞個(gè)數(shù)的關(guān)系

1.4 特征的選取

本文主要選取了詞頻特征、長(zhǎng)度特征、位置特征、語(yǔ)言特征、圖特征和向量特征,共計(jì)6大類(lèi)21種特征作為初步選擇的特征。

詞頻類(lèi)特征中包含詞頻、頭詞頻、尾詞頻和TFIDF四種特征,詞頻表示這一個(gè)詞在文檔中出現(xiàn)的頻率。一般而言,一個(gè)詞出現(xiàn)的頻率越高,表示這個(gè)詞是關(guān)鍵詞的概率也就越大;頭詞頻表示一個(gè)詞在文檔的前1/4位置中出現(xiàn)的頻率[6],在中文文章的結(jié)構(gòu)中,文章一般為總分總結(jié)構(gòu),所以一篇文章中的不僅開(kāi)頭比較重要,結(jié)尾同樣也是比較重要的,所以根據(jù)頭詞頻,本文提出了尾詞頻,即一個(gè)詞在當(dāng)前文檔后1/4處出現(xiàn)的頻率;TF-IDF代表一個(gè)詞的頻率與逆文檔頻率的乘積[7],如公式(2)所示,其中逆文檔頻率表示一個(gè)詞在所在的文檔在所有文檔中所占的比率。為了防止生僻詞導(dǎo)致分母為0,本文對(duì)其進(jìn)行了加1平滑,平滑后的逆文檔頻率如公式(3)所示,其中N表示文檔總數(shù)的大小,N(x)表示包含詞語(yǔ)x的文檔數(shù)。

長(zhǎng)度類(lèi)特征也是關(guān)鍵詞抽取的一個(gè)重要指標(biāo)[8],本文選取詞長(zhǎng)、標(biāo)題長(zhǎng)度和文章長(zhǎng)度三個(gè)特征作為關(guān)鍵詞抽取中的長(zhǎng)度類(lèi)特征。

在一篇文檔中,不同的位置出現(xiàn)關(guān)鍵詞的概率是不同的[9]。通常來(lái)說(shuō),該文檔的標(biāo)題、首句和末句出現(xiàn)關(guān)鍵詞的概率會(huì)更高[10],因此,本文選取了是否出現(xiàn)在標(biāo)題、是否出現(xiàn)在頭詞、是否出現(xiàn)在尾詞、是否出現(xiàn)在開(kāi)頭、是否出現(xiàn)在結(jié)尾、是否出現(xiàn)在中間、首次出現(xiàn)位置、首現(xiàn)句子位置這八個(gè)特征作為模型的位置類(lèi)特征。同樣的,詞語(yǔ)的詞性等語(yǔ)言特征也對(duì)關(guān)鍵詞的抽取有著巨大的影響[11]。因此,本文選取了詞語(yǔ)的詞性、命名實(shí)體、該詞是否出現(xiàn)在自定義詞典中(是否為書(shū)名、會(huì)議名等)3個(gè)特征作為語(yǔ)言特征。

一直以來(lái),如何度量關(guān)鍵詞的語(yǔ)義與文檔所表達(dá)的語(yǔ)義之間的關(guān)系是關(guān)鍵詞抽取中的一個(gè)難點(diǎn),文獻(xiàn)[13]首次提出了利用詞語(yǔ)的向量與文檔的向量的相似度進(jìn)行關(guān)鍵詞抽取。本文收集2萬(wàn)余篇工業(yè)互聯(lián)網(wǎng)資訊相關(guān)的文檔,利用Gensim3https://radimrehurek.com/gensim訓(xùn)練出一個(gè)Doc2Vec模型和一個(gè)Word2Vec模型,迭代1000輪,其余參數(shù)采用默認(rèn)參數(shù),然后根據(jù)這兩個(gè)模型分別計(jì)算文檔的向量與詞語(yǔ)的向量,最后將詞語(yǔ)向量與文檔的向量之間余弦相似度和歐氏距離作為兩個(gè)向量方面的特征。

1.5 關(guān)鍵詞的抽取

本文首先將251篇人工標(biāo)注的文檔隨機(jī)篩選出175篇文檔作為訓(xùn)練集,剩余的51篇文檔作為測(cè)試集,如表1所示,通過(guò)此表的關(guān)鍵詞平均數(shù),我們可以觀察出訓(xùn)練集和測(cè)試集的劃分較為合理。然后根據(jù)每個(gè)候選詞生成的6大類(lèi),共計(jì)21種特征,利用改進(jìn)的隨機(jī)森林算法[12]將訓(xùn)練集所有候選詞的特征結(jié)合起來(lái),訓(xùn)練出一個(gè)二分類(lèi)器。

表1語(yǔ)料劃分情況

1.6 覆蓋度的提高

關(guān)鍵詞抽取算法的效果可以通過(guò)可讀性、相關(guān)性、重要性、覆蓋度、一致性等指標(biāo)進(jìn)行體現(xiàn)[2]。首先,本文所有詞語(yǔ)是未進(jìn)行拼接,所以不存在可讀性方面的問(wèn)題;其次,本文采用的21種特征中不僅包含了詞頻類(lèi)、位置類(lèi)、長(zhǎng)度類(lèi)等常見(jiàn)特征,還包含了其語(yǔ)義特征,即通過(guò)詞語(yǔ)向量與文檔向量充分利用了候選詞的語(yǔ)義與文檔語(yǔ)義的相關(guān)信息。然后通過(guò)隨機(jī)森林將這些特征進(jìn)行結(jié)合并訓(xùn)練出一個(gè)分類(lèi)器,保證了其相關(guān)性、重要性和一致性。在覆蓋度方面,本文做了相似關(guān)鍵詞的去除。即在一篇文檔中,可能出現(xiàn)“工業(yè)互聯(lián)網(wǎng)平臺(tái)”和“工業(yè)互聯(lián)網(wǎng)”都是關(guān)鍵詞,因?yàn)椤肮I(yè)互聯(lián)網(wǎng)”是“工業(yè)互聯(lián)網(wǎng)平臺(tái)”的子串,所以將“工業(yè)互聯(lián)網(wǎng)”這個(gè)關(guān)鍵詞舍去,然后根據(jù)分類(lèi)器預(yù)測(cè)的概率再選擇一個(gè)新的關(guān)鍵詞,以提高覆蓋度。

2 實(shí)驗(yàn)與分析

本文采用精確率P、召回率R和F值這3個(gè)指標(biāo)作為關(guān)鍵詞抽取算法的評(píng)價(jià)指標(biāo),精確率P、召回率R和F值的計(jì)算方法分別如公式(4)、公式(5)和公式(6)所示:

為了驗(yàn)證用戶(hù)自定義詞典對(duì)關(guān)鍵詞抽取算法的影響,以及本文提出的面向工業(yè)互聯(lián)網(wǎng)資訊的中文關(guān)鍵詞抽取算法的效果,分別進(jìn)行了實(shí)驗(yàn)與分析。

為了驗(yàn)證分詞對(duì)關(guān)鍵詞抽取算法的影響,本文在76篇測(cè)試集上進(jìn)行了實(shí)驗(yàn)1.1和實(shí)驗(yàn)1.2:

實(shí)驗(yàn)1.1探究未加載用戶(hù)自定義詞典的情況下基于TF-IDF的關(guān)鍵詞抽取算法的效果隨抽選關(guān)鍵詞個(gè)數(shù)的變化情況;

實(shí)驗(yàn)1.2探究加載了用戶(hù)自定義詞典的情況下基于TF-IDF的關(guān)鍵詞抽取算法的效果隨抽選關(guān)鍵詞個(gè)數(shù)的變化情況。

實(shí)驗(yàn)1.1和實(shí)驗(yàn)1.2的結(jié)果如圖2所示,根據(jù)圖2可以觀察到,加載了用戶(hù)自定義詞典后,該算法無(wú)論是精確率、召回率還是F值,都有了明顯的提高,該實(shí)驗(yàn)證明了通過(guò)用戶(hù)自定義詞典提高分詞的準(zhǔn)確率,進(jìn)而提高關(guān)鍵詞抽取的準(zhǔn)確率的方法是可取的。

為了驗(yàn)證本文提出的面向工業(yè)互聯(lián)網(wǎng)資訊的中文關(guān)鍵詞抽取算法的效果,本文利用76篇測(cè)試集文檔對(duì)該算法進(jìn)行了評(píng)估,同時(shí)采用pke4https://github.com/boudinfl/pke關(guān)鍵詞抽取算法[13]、基于TF-IDF的關(guān)鍵詞抽取算法和基于TextRank的關(guān)鍵詞抽取算法作為參照實(shí)驗(yàn),分別在精確率、召回率和F值三個(gè)方面進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果分別如圖3(a-c)所示。本文提出的面向工業(yè)互聯(lián)網(wǎng)資訊的中文關(guān)鍵詞抽取算法的效果無(wú)論是精確率、召回率還是F值,都遠(yuǎn)高于其他三種算法。值得一提的是,pke關(guān)鍵詞抽取算法的優(yōu)勢(shì)在于能夠發(fā)現(xiàn)詞組,由于在此實(shí)驗(yàn)中,在分詞階段便將詞組當(dāng)作一個(gè)詞來(lái)處理了,所以pke算法在實(shí)驗(yàn)中的效果略低于基于TF-IDF算法。同時(shí),也證明了中文關(guān)鍵詞抽取中分詞的重要性。

當(dāng)關(guān)鍵詞抽取個(gè)數(shù)與測(cè)試集中平均關(guān)鍵詞個(gè)數(shù)一致時(shí),即當(dāng)關(guān)鍵詞個(gè)數(shù)為4時(shí),本文所提的算法的精確率、召回率和F值均比其他三種關(guān)鍵詞抽取算法的效果要好。

圖2分詞對(duì)關(guān)鍵詞抽取算法的影響

圖3基于特征的關(guān)鍵詞抽取算法評(píng)估

3 結(jié)語(yǔ)

本文主要研究了面向工業(yè)互聯(lián)網(wǎng)領(lǐng)域的中文關(guān)鍵詞抽取,提出了一種基于特征的關(guān)鍵詞抽取算法。該算法通過(guò)建立用戶(hù)自定義詞典和通過(guò)特征組合有效地提高了關(guān)鍵詞抽取的效果,同時(shí)還根據(jù)一個(gè)關(guān)鍵詞是否為另一個(gè)關(guān)鍵詞的子串進(jìn)行過(guò)濾,進(jìn)而提高該算法所抽取出的關(guān)鍵詞的覆蓋度。最終,經(jīng)過(guò)試驗(yàn)證明該算法在精確率、召回率和F值三個(gè)指標(biāo)上性能較于常用的算法都得到有效提高。在未來(lái),可以繼續(xù)探究不同特征以及不同特征間的組合對(duì)基于特征的關(guān)鍵詞抽取算法的影響。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線(xiàn)性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 99热这里只有精品在线观看| 亚洲天堂精品视频| 欧美成在线视频| 国产99视频在线| 黄色在线不卡| 亚洲精品大秀视频| 国产精品分类视频分类一区| 久久国产乱子伦视频无卡顿| 成年av福利永久免费观看| 亚洲综合极品香蕉久久网| 日韩人妻少妇一区二区| 国内毛片视频| 激情乱人伦| 欧美一区日韩一区中文字幕页| 18禁不卡免费网站| 国产精品无码一二三视频| 一级毛片a女人刺激视频免费| 久热99这里只有精品视频6| 91九色国产porny| 中文字幕欧美日韩高清| 中文字幕精品一区二区三区视频| 欧美日韩第三页| 思思热在线视频精品| 国产精品色婷婷在线观看| 亚洲欧美日韩精品专区| 亚洲日本在线免费观看| 国产精品亚洲综合久久小说| 午夜免费视频网站| 国产欧美精品一区aⅴ影院| 欧美成在线视频| 久久中文字幕不卡一二区| 久久国产黑丝袜视频| 日本五区在线不卡精品| 国产成人一区| 久久久久88色偷偷| 三区在线视频| 国产9191精品免费观看| 国产三级a| 成人毛片免费在线观看| 国产成+人+综合+亚洲欧美| 日本免费福利视频| 久久精品人人做人人爽97| 国产人成在线观看| 久久人体视频| 国产成人欧美| 久青草国产高清在线视频| 亚洲成人黄色在线观看| 欧美一级大片在线观看| 女人爽到高潮免费视频大全| 国产微拍一区| 亚洲性影院| 国产一二三区视频| 欧美亚洲一区二区三区在线| 国产免费人成视频网| 亚洲侵犯无码网址在线观看| 免费 国产 无码久久久| 亚洲一级毛片在线观| 亚洲成年网站在线观看| 国产一区免费在线观看| 深爱婷婷激情网| 国产精品男人的天堂| 亚洲福利视频网址| 欧美中文字幕在线二区| 影音先锋丝袜制服| 免费国产高清视频| 久久网欧美| 伊人久久久久久久久久| 午夜福利在线观看入口| 亚洲欧美成人网| 91在线播放免费不卡无毒| 精品国产成人av免费| 一本大道香蕉中文日本不卡高清二区| 色老二精品视频在线观看| 尤物特级无码毛片免费| 午夜性爽视频男人的天堂| 少妇精品久久久一区二区三区| 精品国产中文一级毛片在线看| 日本免费福利视频| 免费不卡视频| 狠狠色狠狠色综合久久第一次| 色网在线视频| 亚洲中文久久精品无玛|