999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TextRank的產(chǎn)品評(píng)論關(guān)鍵詞抽取方法研究

2020-06-19 08:45:58尤苡名
軟件導(dǎo)刊 2020年4期
關(guān)鍵詞:詞匯重要性文本

摘 要:關(guān)鍵詞抽取技術(shù)能從海量產(chǎn)品評(píng)論文本中挖掘出用戶(hù)關(guān)注的焦點(diǎn),方便后續(xù)為用戶(hù)推薦合適的產(chǎn)品。經(jīng)典關(guān)鍵詞抽取算法TextRank在迭代計(jì)算詞匯節(jié)點(diǎn)的重要性得分時(shí),忽略了鄰近詞匯節(jié)點(diǎn)的影響力差異。為此,提出一種融合TFIDF與TextRank算法(簡(jiǎn)稱(chēng)TFTR)抽取評(píng)論中的關(guān)鍵詞。首先,通過(guò)引入用戶(hù)瀏覽評(píng)論后給出的評(píng)論有用性反饋,提高有效評(píng)論中出現(xiàn)的重要詞語(yǔ)權(quán)重,對(duì)TFIDF算法進(jìn)行改進(jìn)。然后將改進(jìn)后的詞頻逆文檔頻率作為詞節(jié)點(diǎn)特征權(quán)重引入到TextRank算法中,以改進(jìn)詞匯節(jié)點(diǎn)的重要性得分分配過(guò)程。實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)的TextRank算法,TFTR算法提取出的產(chǎn)品評(píng)論關(guān)鍵詞準(zhǔn)確性在P@10標(biāo)準(zhǔn)下提高了15.70-/0,證明了該算法的有效性。

關(guān)鍵詞:關(guān)鍵詞抽取;TFIDF;TextRank;TFTR;評(píng)論有用性反饋

DOI: 10. 11907/rjdk.191810

開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

中圖分類(lèi)號(hào):TP393

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1672-7800( 2020)004-0229-05

0 引言

在個(gè)性化推薦領(lǐng)域,互聯(lián)網(wǎng)的盛行導(dǎo)致數(shù)據(jù)量激增,人們很難從龐大的數(shù)據(jù)中直接獲取到有用信息。評(píng)論文本不僅描述了產(chǎn)品的真實(shí)特點(diǎn),還包含了豐富的用戶(hù)觀點(diǎn)信息,反映出個(gè)人偏好。如果從評(píng)論文本中挖掘出用戶(hù)偏好信息,即可將具有相似偏好特征的用戶(hù)所喜愛(ài)的項(xiàng)目推薦給該用戶(hù)。此外,商家面對(duì)過(guò)載的評(píng)論信息,亟需快速、精確地掌握用戶(hù)態(tài)度,再針對(duì)性地作出應(yīng)對(duì)以完善項(xiàng)目。因此,利用關(guān)鍵詞提取技術(shù)準(zhǔn)確、高效地從海量評(píng)論文本中挖掘出用戶(hù)關(guān)注的焦點(diǎn),具有很高的實(shí)用價(jià)值。作為NLP(自然語(yǔ)言處理)領(lǐng)域一個(gè)重要的子任務(wù),它也是信息檢索、文本分類(lèi)、對(duì)話(huà)系統(tǒng)等熱門(mén)學(xué)術(shù)研究的基礎(chǔ),應(yīng)用范圍非常廣,例如圖書(shū)情報(bào)[1]、生物醫(yī)學(xué)文獻(xiàn)[2]、新聞媒體[3]等。

關(guān)鍵詞提取方法可以分為監(jiān)督性和無(wú)監(jiān)督性?xún)深?lèi)。前者將關(guān)鍵詞抽取任務(wù)轉(zhuǎn)化為分類(lèi)問(wèn)題,通過(guò)人工標(biāo)注詞匯,訓(xùn)練分類(lèi)模型實(shí)現(xiàn)關(guān)鍵詞的0/1分類(lèi)[4]。然而,由于監(jiān)督性方法面臨人工標(biāo)注工作量大、數(shù)據(jù)量爆增且內(nèi)容實(shí)時(shí)性強(qiáng)等問(wèn)題,無(wú)監(jiān)督性方法逐漸成為學(xué)者們研究的熱點(diǎn),并有取代監(jiān)督性方法的趨勢(shì)。常用的無(wú)監(jiān)督性關(guān)鍵詞抽取算法包括以下3種:TFIDF算法[5]、LDA主題模型[6]和TextRank算法[7]。大量相關(guān)研究都是在以上3種算法基礎(chǔ)上融合新的算法,或者將這3種算法本身進(jìn)行融合。

張瑾[8]將特征詞位置及詞跨度權(quán)值引入到TFIDF中,并在提取新聞情報(bào)關(guān)鍵詞實(shí)驗(yàn)中證明了算法的有效性;YI等[9]針對(duì)TFIDF的不足,運(yùn)用類(lèi)別間離散和類(lèi)別內(nèi)信息熵理論,引入類(lèi)別判別定義,考慮特征項(xiàng)的類(lèi)別內(nèi)和類(lèi)別間分布,并在復(fù)旦大學(xué)語(yǔ)料庫(kù)實(shí)驗(yàn)中驗(yàn)證了算法的有效性;張震等[10]分別從用戶(hù)和商家視角定義了有效關(guān)鍵詞,提出基于語(yǔ)言模型的關(guān)鍵詞抽取方法,通過(guò)實(shí)驗(yàn)證明所提模型挖掘出的關(guān)鍵詞在推薦系統(tǒng)中有著很好的推薦效果;謝瑋等[11]在詞語(yǔ)位置加權(quán)TextRank基礎(chǔ)上引入詞頻逆文本頻率,實(shí)現(xiàn)關(guān)鍵詞抽取并將其應(yīng)用于論文審稿自動(dòng)推薦中;劉竹辰等[12]將特征詞在文檔內(nèi)的詞距和位置分布信息融入到TextRank模型中,改進(jìn)了關(guān)鍵詞提取效果;寧建飛等[13]主要通過(guò)word2vec計(jì)算詞匯間的相似度,并改進(jìn)Tex-tRank算法中圖節(jié)點(diǎn)間的權(quán)重分配,以改善關(guān)鍵詞抽取效果;夏天[14]利用word2Vec模型將維基百科中文數(shù)據(jù)生成詞向量模型,對(duì)TextRank詞節(jié)點(diǎn)的詞向量進(jìn)行加權(quán)聚類(lèi),實(shí)現(xiàn)關(guān)鍵詞抽取;He等[15]提取關(guān)鍵短語(yǔ)的控制詞匯及其先驗(yàn)概率作為先驗(yàn)知識(shí),然后利用監(jiān)督學(xué)習(xí)算法對(duì)TFIDF、Tex-tRank和先驗(yàn)概率等特征進(jìn)行學(xué)習(xí),并在Inspec、Krapivin、NUS和Ke20K 4個(gè)公共數(shù)據(jù)集上驗(yàn)證了先驗(yàn)知識(shí)對(duì)關(guān)鍵詞提取的有效性;劉嘯劍等[16]提出一種結(jié)合LDA與Tex-tRank的關(guān)鍵詞抽取模型,并在Huth200和DUC2001數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明了該方法的有效性;魏赟等[2]在TextRank算法基礎(chǔ)上,引入TFIDF計(jì)算詞語(yǔ)之間的權(quán)重得分,但該方法對(duì)權(quán)重的賦值仍存在缺陷。

本文在文獻(xiàn)[2]的基礎(chǔ)上引入瀏覽用戶(hù)對(duì)評(píng)論的有用性反饋,以提高有效評(píng)論中關(guān)鍵詞的權(quán)重,對(duì)TFIDF進(jìn)行改進(jìn),然后結(jié)合TextRank算法挖掘評(píng)論中的關(guān)鍵詞。

1 改進(jìn)關(guān)鍵詞抽取方法

1.1 傳統(tǒng)TFIDF與TextRank

TFIDF(詞頻逆文本頻率)是計(jì)算特征權(quán)重最常用的方法[17],用來(lái)評(píng)估指定詞匯在整個(gè)文本或語(yǔ)料庫(kù)中的重要程度。TF表示特征詞匯在整個(gè)文檔中出現(xiàn)的頻率,文檔中出現(xiàn)頻率越高的詞語(yǔ)重要性越強(qiáng)。對(duì)于某文本i中的詞語(yǔ)j,TF計(jì)算方式如式(1)所示。

1.3 基于改進(jìn)TFIDF的TextRank算法

傳統(tǒng)TextRank給每個(gè)節(jié)點(diǎn)賦予的初始權(quán)重都是一樣的。對(duì)于指定節(jié)點(diǎn),在迭代計(jì)算鄰近節(jié)點(diǎn)重要性得分過(guò)程中,源節(jié)點(diǎn)將自身得分均分給鄰近節(jié)點(diǎn),而未考慮節(jié)點(diǎn)之間的重要性差異,顯然是不符合實(shí)際情況的。因此,將改進(jìn)TFIDF算法引入到TextRank中,將其作為詞節(jié)點(diǎn)之間的特征權(quán)重,調(diào)整詞節(jié)點(diǎn)間的影響力。

如圖1所示,{v1,v2,v3,v4}5個(gè)詞構(gòu)成一個(gè)圖,根據(jù)改進(jìn)TFIDF算法計(jì)算出4個(gè)相鄰詞節(jié)點(diǎn)的詞匯特征權(quán)重依次為tfidj1、tfidf2、tfidf3和tfidf4。因此,對(duì)于指定詞節(jié)點(diǎn)v,指向該節(jié)點(diǎn)的權(quán)重分別為相鄰節(jié)點(diǎn)的詞特征權(quán)重,從而有效區(qū)分不同重要性詞節(jié)點(diǎn)對(duì)節(jié)點(diǎn)v的影響。

(4)融合評(píng)論的helpful反饋,根據(jù)式(6)計(jì)算候選關(guān)鍵詞的tfidf權(quán)重。

(5)構(gòu)建候選關(guān)鍵詞圖G=(V,E,其中V為節(jié)點(diǎn)集,由步驟(3)生成的候選關(guān)鍵詞組成,若詞匯在長(zhǎng)度為L(zhǎng)(原文本中的距離)的窗口中共現(xiàn),則兩個(gè)詞匯節(jié)點(diǎn)之間通過(guò)邊相連。

(6)將所有候選關(guān)鍵詞節(jié)點(diǎn)重要性得分初始化為1,根據(jù)式(8)迭代計(jì)算新一輪節(jié)點(diǎn)重要性得分。如果節(jié)點(diǎn)誤差率小于0.000 l,或達(dá)到指定的迭代次數(shù),則算法停止迭代。

(7)根據(jù)節(jié)點(diǎn)的重要性得分從大到小排序,選取前S個(gè)單詞作為關(guān)鍵詞。

(8)將步驟(7)得到的關(guān)鍵詞在原始文本中一一尋找標(biāo)記。如果關(guān)鍵詞位置相鄰,則將這兩個(gè)相鄰詞匯合并作為多詞關(guān)鍵詞。

2 實(shí)驗(yàn)

實(shí)驗(yàn)在Windows 10系統(tǒng)下進(jìn)行,硬件配置為Intel( R)Core(TM)i7 CPU,內(nèi)存大小為8CB,硬盤(pán)大小為500GB,所用編程語(yǔ)言為Python語(yǔ)言。

2.1實(shí)驗(yàn)數(shù)據(jù)

本文選擇亞馬遜數(shù)據(jù)集的Kindle Store子集[19]研究關(guān)鍵詞抽取算法,該數(shù)據(jù)集是與電子書(shū)相關(guān)的數(shù)據(jù)集。原始數(shù)據(jù)集中包含評(píng)論者ID、產(chǎn)品ID、評(píng)論者名字、評(píng)分、評(píng)論文本、評(píng)論概述summary、評(píng)論有用性反饋、發(fā)表評(píng)論的Unix時(shí)間和評(píng)論時(shí)間戳共9個(gè)字段。Kindle Store原始數(shù)據(jù)集中不同電子書(shū)的受歡迎程度存在巨大差異,許多冷門(mén)電子書(shū)的評(píng)論數(shù)據(jù)數(shù)量過(guò)少,不利于進(jìn)行評(píng)論短文本挖掘。為了驗(yàn)證本文所提算法對(duì)電子書(shū)評(píng)論關(guān)鍵詞抽取的效果,特將用戶(hù)評(píng)論數(shù)超過(guò)100的電子書(shū)采樣出來(lái),同時(shí)保留產(chǎn)品ID、評(píng)論文本和評(píng)論有用性反饋3個(gè)字段。該數(shù)據(jù)集采樣前后具體情況如表1所示。

將不同電子書(shū)的評(píng)論信息存儲(chǔ)到*.csv文件中,以產(chǎn)品ID作為文件名。文件每一行是評(píng)論有用性反饋及某一用戶(hù)對(duì)電子書(shū)的評(píng)論。利用Python的nltk自然語(yǔ)言處理包對(duì)每個(gè)文件中的用戶(hù)評(píng)論文本進(jìn)行文本預(yù)處理。首先進(jìn)行分詞與詞性標(biāo)注,然后去除評(píng)論文本中的停用詞,保留名詞、動(dòng)詞和形容詞,接著進(jìn)行詞干還原。經(jīng)過(guò)文本預(yù)處理之后,評(píng)論文本挖掘才進(jìn)入下一步驟——關(guān)鍵詞抽取。

2.2 對(duì)比算法及評(píng)估指標(biāo)

(1)評(píng)估指標(biāo)。所用亞馬遜數(shù)據(jù)集的Kindle Store子集不存在人工標(biāo)注的關(guān)鍵詞,對(duì)于算法自動(dòng)抽取出的關(guān)鍵詞,根據(jù)一定規(guī)則人工判別是否為有用關(guān)鍵詞。人工判別規(guī)則具體分為兩條:①是否與書(shū)籍的情節(jié)、人物、作者等組成元素相關(guān),能否反映電子書(shū)特點(diǎn);②是否有利于對(duì)其他用戶(hù)進(jìn)行推薦。

為了驗(yàn)證算法對(duì)關(guān)鍵詞的抽取效果,采用信息檢索領(lǐng)域常用的P@k指標(biāo)作為算法性能評(píng)估指標(biāo)。P@k[20]是將算法自動(dòng)抽取前k個(gè)關(guān)鍵詞與人工標(biāo)注結(jié)果比較得到的查準(zhǔn)率,如式(9)所示。

P@k=N(k)/k

(9)

其中,分子N(k)表示抽取出k個(gè)關(guān)鍵詞中人工判別為有用的關(guān)鍵詞數(shù)目。

(2)對(duì)比算法。將改進(jìn)算法與3種經(jīng)典算法TFIDF[5]、TextRank[7]和TFIDF+TextRank[2]進(jìn)行比較。其中,TFIDF無(wú)參數(shù)設(shè)置,后兩種算法中d=0.85,詞共現(xiàn)窗口size=5。

2.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)一:詞共現(xiàn)窗口對(duì)改進(jìn)TextRank算法的影響。

TFTR作為非監(jiān)督性的關(guān)鍵詞抽取算法,詞共現(xiàn)窗口大小作為唯一參數(shù),影響著算法抽取關(guān)鍵詞效果。當(dāng)詞共現(xiàn)窗口取size={3,5,7},任意取100本電子書(shū),利用TFTR算法對(duì)每本Kindle電子書(shū)的所有評(píng)論抽取候選關(guān)鍵詞,然后在重要性得分排名前10的詞匯中人工判斷并標(biāo)注有用關(guān)鍵詞,最后計(jì)算不同電子書(shū)抽取關(guān)鍵詞的查準(zhǔn)率情況并取平均值。TFTR算法計(jì)算得到的P@10如表2所示。

根據(jù)表2可知,當(dāng)窗口的size=5時(shí),算法的P@10指標(biāo)最大。換言之,算法得到重要性得分排名前10關(guān)鍵詞中被人工標(biāo)注為有用關(guān)鍵詞的數(shù)目最多。所以為了使TFTR達(dá)到較為滿(mǎn)意的抽取效果,取size=5。

實(shí)驗(yàn)二:不同算法關(guān)鍵詞抽取結(jié)果比較。

首先利用4種算法對(duì)624本Kindle電子書(shū)的所有評(píng)論抽取候選關(guān)鍵詞,然后在重要性得分排名前5/10/15/20的詞匯中人工判斷并標(biāo)注有用關(guān)鍵詞,最后計(jì)算不同電子書(shū)抽取關(guān)鍵詞的查準(zhǔn)率情況,并對(duì)其求算數(shù)平均作為算法抽取關(guān)鍵詞的P@k指標(biāo),具體結(jié)果如表3所示。需要注意的是,TextRank、TFIDF+TextRank以及TFTR的詞共現(xiàn)窗口大小固定為5。

為了更清晰地對(duì)比算法間的差異,將表3中的數(shù)據(jù)繪成直方統(tǒng)計(jì)圖,如圖2所示。

分析圖2可得出以下結(jié)論:

(1)TFIDF算法在抽取電子書(shū)評(píng)論關(guān)鍵詞時(shí)效果最差,這是因?yàn)樵撍惴▋H考慮了詞頻和逆文檔頻率特征計(jì)算詞匯的重要性得分。

(2)TextRank算法相比于TFIDF算法,查準(zhǔn)率略有提高,可能是因?yàn)樗惴ㄍㄟ^(guò)詞匯共現(xiàn)窗口構(gòu)建詞匯聯(lián)系圖,本質(zhì)上利用了詞匯短語(yǔ)間的語(yǔ)義信息。

( 3)TFIDF+TextRank算法相比于前兩種單一算法,算法抽取查準(zhǔn)率明顯提高,說(shuō)明對(duì)TextRank算法引入TFIDF特征能彌補(bǔ)相關(guān)不足。

(4)TFTR算法的P@k指標(biāo)是4種算法中最高的。相比于TFIDF算法、TextRank算法和TFIDF+TextRank算法,TFTR算法提取出的產(chǎn)品評(píng)論關(guān)鍵詞在P@10標(biāo)準(zhǔn)下的準(zhǔn)確性分別提高了19.4%、15.7%和2.3%。

(5)隨著k值的增加,4種算法的P@k指標(biāo)都有一定程度降低,說(shuō)明隨著候選關(guān)鍵詞排序的靠后,算法抽取出的關(guān)鍵詞中引入了更多噪聲數(shù)據(jù)。為此,未來(lái)需要融入更多文檔內(nèi)部或外部信息以改善算法性能。

為了更清晰地觀察各個(gè)算法自動(dòng)抽取關(guān)鍵詞的效果,現(xiàn)隨機(jī)挑選出一本電子書(shū),對(duì)其全部評(píng)論進(jìn)行挖掘。算法自動(dòng)抽取出的前20個(gè)候選關(guān)鍵詞結(jié)果如表4所示。

通過(guò)分析表4中從TFIDF算法抽取得到的結(jié)果,可以大致推斷出該電子書(shū)內(nèi)容是與科幻相關(guān)的,同時(shí)也包含了浪漫、打斗元素。然而與其它3種算法相比,由于抽取出的詞匯是一元詞匯,一些信息會(huì)變得模糊。例如對(duì)于plot(情節(jié)),從TFIDF算法抽取出的結(jié)果中并不能明確知道情節(jié)如何,而TextRank算法抽取出的候選關(guān)鍵詞可以是二元詞匯。從結(jié)果中可以發(fā)現(xiàn),有些評(píng)論者想表達(dá)的是“fictionplot”,也即科幻情節(jié)。TFIDF+TextRank算法和TFTR算法沿襲了TextRank算法的優(yōu)點(diǎn),即從評(píng)論中抽取出雙詞詞匯,從而使候選關(guān)鍵詞中包含更多評(píng)論信息。此外,相比于其它3種算法,TFTR算法抽取結(jié)果中人工標(biāo)注為有用關(guān)鍵詞的數(shù)目更多。同時(shí),TFTR算法提取出的候選關(guān)鍵詞更加準(zhǔn)確、可靠,能更好地抓住不同評(píng)論者關(guān)注的焦點(diǎn)。

3 結(jié)語(yǔ)

產(chǎn)品評(píng)論關(guān)鍵詞抽取對(duì)產(chǎn)品推薦具有重要作用,關(guān)鍵詞抽取質(zhì)量對(duì)后續(xù)產(chǎn)品推薦有著直接影響。然而,產(chǎn)品評(píng)論因其具有文本短小、詞匯少及詞匯質(zhì)量參差不齊等特征,增大了關(guān)鍵詞提取難度。本文將評(píng)論的helpful反饋引入TFIDF中,以提高重要關(guān)鍵詞特征權(quán)重,并結(jié)合Tex-tRank算法,挖掘出評(píng)論文本中的產(chǎn)品關(guān)鍵特征。實(shí)驗(yàn)結(jié)果表明,相比于TFIDF算法、TextRank算法和TFID F+Tex-tRank算法,本文提出的TFTR算法挖掘出的產(chǎn)品特征關(guān)鍵詞在P@10標(biāo)準(zhǔn)下的準(zhǔn)確性分別提高了19.4%、15.7qe和2.3%。同時(shí),提取出的候選關(guān)鍵詞更能抓住不同評(píng)論者關(guān)注的焦點(diǎn),從而有利于將產(chǎn)品關(guān)鍵詞用于后續(xù)產(chǎn)品推薦。然而,TFTR算法自動(dòng)抽取出的關(guān)鍵詞中仍含有噪聲詞匯,人工識(shí)別剔除工作量大,未來(lái)可考慮選取可靠的“種子”詞匯,利用訓(xùn)練模型對(duì)自動(dòng)抽取出的關(guān)鍵詞作進(jìn)一步分類(lèi)。

參考文獻(xiàn):

[1] 邱小花,李國(guó)俊,肖明.基于Sci-2的國(guó)外圖書(shū)館學(xué)情報(bào)學(xué)研究主題演變分析——以共詞分析為例[J].情報(bào)雜志,2013,32(12):110-118.

[2]魏贇,孫先朋.融合統(tǒng)計(jì)學(xué)和TextRank的生物醫(yī)學(xué)文獻(xiàn)關(guān)鍵短語(yǔ)抽取[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(6):27-30.

[3]胡學(xué)鋼,李星華,謝飛,等.基于詞匯鏈的中文新聞網(wǎng)頁(yè)關(guān)鍵詞抽取方法[J].模式識(shí)別與人工智能,2010,23(1):45-51.

[4]趙京勝,朱巧明,周?chē)?guó)棟,等.自動(dòng)關(guān)鍵詞抽取研究綜述[J].軟件學(xué)報(bào),2017, 28(9):2431-2449.

[5]SPARCK J K.A statistical interpretation of term specificity and its ap-plication in retrieval [J]. Journal of Documentation, 1972, 28(1):11-21.

[6]BLEI D M, NG A Y, JORDAN M I.Latent dirichlet allocation [J].Journal of Machine Learning Research. 2003,3:993-1022.

[7]MIHALCEA R, TARAU P. Textrank: bringing order into text[C]. Pro-ceedings of the 2004 Conference on Empirical Methods in Natural Lan-guage Processing. Association for Computational Linguistics, 2004:404-411.

[8] 張瑾.基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志,2014, 33(4):153-155.

[9]YI J K, YANC G,WanJ. Category discrimination based feature selec-tion algorithm in Chinese text classification[J].Journal of InformationScience and Engineering, 2016, 32(5):1145-1159.

[10] 張震,曾金.面向用戶(hù)評(píng)論的關(guān)鍵詞抽取研究——以美團(tuán)為例[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(3):36-44.

[11]謝瑋,沈一,馬永征.基于圖計(jì)算的論文審稿自動(dòng)推薦系統(tǒng)[Jl.計(jì)算機(jī)應(yīng)用研究,2016,33(3):798-801.

[12] 劉竹辰,陳浩,于艷華,等.詞位置分布加權(quán)TextRank的關(guān)鍵詞提取[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(9):74-79.

[13] 寧建飛,劉降珍.融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016(6):20-27.

[14] 夏天詞向量聚類(lèi)加權(quán)TextRank的關(guān)鍵詞抽取[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017(2):28-34.

[15]HE G X. FANC J W. CUI H R, et al. Keyphrase extraction based onprior knowledge[C].JCDL, 2018: 341-342.

[16] 劉嘯劍,謝飛,吳信東.基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J].情報(bào)學(xué)報(bào),2016,35(6):664-672.

[17]SOUCY P,MINEAU G W. Beyond TFIDF weighting for text categori-zation in the vector space model[ C]. IJCAI. 2005,5:1130-1135.

[18] 周錦章,崔曉暉.基于詞向量與TextRank的關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用研究,2019,36(4):1051-1054.

[19]HE R, MCAULEY J. Ups and downs: modeling the visual evolutionof fashion trends with one-class collaborative filtering[C].Proceed-ings of the 25th International Conference on World Wide Web. Inter-national World Wide Weh Conferences Steering Committee, 2016:507-517.

[20] DAVIS J,GOADRICH M. The relationship between Precision-Re-call and ROC curves[C].Proceedings of the 23rd International Con-ference on Machine Learning. ACM, 2006: 233-240.

(責(zé)任編輯:黃健)

作者簡(jiǎn)介:尤苡名(1993-),女,浙江理工大學(xué)信息學(xué)院碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘、中文信息處理。

猜你喜歡
詞匯重要性文本
“0”的重要性
本刊可直接用縮寫(xiě)的常用詞匯
論七分飽之重要性
一些常用詞匯可直接用縮寫(xiě)
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
在808DA上文本顯示的改善
本刊可直接用縮寫(xiě)的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
讀《邊疆的重要性》有感
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 老司机精品99在线播放| 久久国产亚洲偷自| 免费人成又黄又爽的视频网站| 青青操视频在线| 精品久久久久无码| 免费a在线观看播放| 成人精品在线观看| 日韩av无码DVD| 精品国产美女福到在线直播| 五月激激激综合网色播免费| 91免费国产在线观看尤物| 亚洲人成日本在线观看| 国产最新无码专区在线| 国产剧情国内精品原创| 久久综合色88| 在线播放真实国产乱子伦| 狠狠做深爱婷婷久久一区| 美美女高清毛片视频免费观看| 熟女成人国产精品视频| 国产一区二区免费播放| 亚洲最新在线| AV在线天堂进入| 亚洲欧美综合在线观看| 97无码免费人妻超级碰碰碰| 亚洲第一视频免费在线| 国产va免费精品观看| 国产精品久久国产精麻豆99网站| 在线播放国产一区| 久久久久久久久18禁秘| 日韩高清一区 | 99久久无色码中文字幕| 亚洲成A人V欧美综合| 日日拍夜夜嗷嗷叫国产| 午夜久久影院| 欧美一区二区三区不卡免费| 国产欧美精品一区aⅴ影院| 在线观看免费黄色网址| 无码精品一区二区久久久| 久久久久青草线综合超碰| 色一情一乱一伦一区二区三区小说| 狠狠综合久久久久综| 欧美综合激情| 91在线精品麻豆欧美在线| 亚洲无码A视频在线| 青青国产在线| 亚洲第一在线播放| 日韩国产精品无码一区二区三区| 草逼视频国产| 欧美怡红院视频一区二区三区| 欧美福利在线播放| 青青青伊人色综合久久| 国产粉嫩粉嫩的18在线播放91 | 欧美色亚洲| 成人一区在线| 本亚洲精品网站| 91区国产福利在线观看午夜| 免费av一区二区三区在线| 国产视频入口| 性欧美在线| 四虎国产永久在线观看| 国产大片喷水在线在线视频| 综1合AV在线播放| 久久亚洲美女精品国产精品| 亚洲午夜综合网| 国产久操视频| 亚洲欧洲日产国码无码av喷潮| 国产一级毛片高清完整视频版| 国产自产视频一区二区三区| 国产毛片高清一级国语 | 欧美www在线观看| 四虎影院国产| 日韩欧美国产成人| 午夜毛片免费观看视频 | 亚洲第一成年人网站| 日韩欧美国产综合| 欧美伊人色综合久久天天| 亚洲精品777| 露脸真实国语乱在线观看| 亚洲人成影视在线观看| 国产白浆在线| 亚洲制服丝袜第一页| 日韩高清一区 |