基于TextRank的產(chǎn)品評(píng)論關(guān)鍵詞抽取方法研究

2020-06-19 08:45:58尤苡名

軟件導(dǎo)刊 2020年4期

摘要：關(guān)鍵詞抽取技術(shù)能從海量產(chǎn)品評(píng)論文本中挖掘出用戶(hù)關(guān)注的焦點(diǎn)，方便后續(xù)為用戶(hù)推薦合適的產(chǎn)品。經(jīng)典關(guān)鍵詞抽取算法TextRank在迭代計(jì)算詞匯節(jié)點(diǎn)的重要性得分時(shí)，忽略了鄰近詞匯節(jié)點(diǎn)的影響力差異。為此，提出一種融合TFIDF與TextRank算法（簡(jiǎn)稱(chēng)TFTR）抽取評(píng)論中的關(guān)鍵詞。首先，通過(guò)引入用戶(hù)瀏覽評(píng)論后給出的評(píng)論有用性反饋，提高有效評(píng)論中出現(xiàn)的重要詞語(yǔ)權(quán)重，對(duì)TFIDF算法進(jìn)行改進(jìn)。然后將改進(jìn)后的詞頻逆文檔頻率作為詞節(jié)點(diǎn)特征權(quán)重引入到TextRank算法中，以改進(jìn)詞匯節(jié)點(diǎn)的重要性得分分配過(guò)程。實(shí)驗(yàn)結(jié)果表明，相比傳統(tǒng)的TextRank算法，TFTR算法提取出的產(chǎn)品評(píng)論關(guān)鍵詞準(zhǔn)確性在P@10標(biāo)準(zhǔn)下提高了15.70-/0，證明了該算法的有效性。

關(guān)鍵詞：關(guān)鍵詞抽取;TFIDF;TextRank;TFTR;評(píng)論有用性反饋

DOI： 10. 11907/rjdk.191810

開(kāi)放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

中圖分類(lèi)號(hào)：TP393

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1672-7800（ 2020）004-0229-05

0 引言

在個(gè)性化推薦領(lǐng)域，互聯(lián)網(wǎng)的盛行導(dǎo)致數(shù)據(jù)量激增，人們很難從龐大的數(shù)據(jù)中直接獲取到有用信息。評(píng)論文本不僅描述了產(chǎn)品的真實(shí)特點(diǎn)，還包含了豐富的用戶(hù)觀點(diǎn)信息，反映出個(gè)人偏好。如果從評(píng)論文本中挖掘出用戶(hù)偏好信息，即可將具有相似偏好特征的用戶(hù)所喜愛(ài)的項(xiàng)目推薦給該用戶(hù)。此外，商家面對(duì)過(guò)載的評(píng)論信息，亟需快速、精確地掌握用戶(hù)態(tài)度，再針對(duì)性地作出應(yīng)對(duì)以完善項(xiàng)目。因此，利用關(guān)鍵詞提取技術(shù)準(zhǔn)確、高效地從海量評(píng)論文本中挖掘出用戶(hù)關(guān)注的焦點(diǎn)，具有很高的實(shí)用價(jià)值。作為NLP（自然語(yǔ)言處理）領(lǐng)域一個(gè)重要的子任務(wù)，它也是信息檢索、文本分類(lèi)、對(duì)話(huà)系統(tǒng)等熱門(mén)學(xué)術(shù)研究的基礎(chǔ)，應(yīng)用范圍非常廣，例如圖書(shū)情報(bào)[1]、生物醫(yī)學(xué)文獻(xiàn)[2]、新聞媒體[3]等。

關(guān)鍵詞提取方法可以分為監(jiān)督性和無(wú)監(jiān)督性?xún)深?lèi)。前者將關(guān)鍵詞抽取任務(wù)轉(zhuǎn)化為分類(lèi)問(wèn)題，通過(guò)人工標(biāo)注詞匯，訓(xùn)練分類(lèi)模型實(shí)現(xiàn)關(guān)鍵詞的0/1分類(lèi)[4]。然而，由于監(jiān)督性方法面臨人工標(biāo)注工作量大、數(shù)據(jù)量爆增且內(nèi)容實(shí)時(shí)性強(qiáng)等問(wèn)題，無(wú)監(jiān)督性方法逐漸成為學(xué)者們研究的熱點(diǎn)，并有取代監(jiān)督性方法的趨勢(shì)。常用的無(wú)監(jiān)督性關(guān)鍵詞抽取算法包括以下3種：TFIDF算法[5]、LDA主題模型[6]和TextRank算法[7]。大量相關(guān)研究都是在以上3種算法基礎(chǔ)上融合新的算法，或者將這3種算法本身進(jìn)行融合。

張瑾[8]將特征詞位置及詞跨度權(quán)值引入到TFIDF中，并在提取新聞情報(bào)關(guān)鍵詞實(shí)驗(yàn)中證明了算法的有效性;YI等[9]針對(duì)TFIDF的不足，運(yùn)用類(lèi)別間離散和類(lèi)別內(nèi)信息熵理論，引入類(lèi)別判別定義，考慮特征項(xiàng)的類(lèi)別內(nèi)和類(lèi)別間分布，并在復(fù)旦大學(xué)語(yǔ)料庫(kù)實(shí)驗(yàn)中驗(yàn)證了算法的有效性;張震等[10]分別從用戶(hù)和商家視角定義了有效關(guān)鍵詞，提出基于語(yǔ)言模型的關(guān)鍵詞抽取方法，通過(guò)實(shí)驗(yàn)證明所提模型挖掘出的關(guān)鍵詞在推薦系統(tǒng)中有著很好的推薦效果;謝瑋等[11]在詞語(yǔ)位置加權(quán)TextRank基礎(chǔ)上引入詞頻逆文本頻率，實(shí)現(xiàn)關(guān)鍵詞抽取并將其應(yīng)用于論文審稿自動(dòng)推薦中;劉竹辰等[12]將特征詞在文檔內(nèi)的詞距和位置分布信息融入到TextRank模型中，改進(jìn)了關(guān)鍵詞提取效果;寧建飛等[13]主要通過(guò)word2vec計(jì)算詞匯間的相似度，并改進(jìn)Tex-tRank算法中圖節(jié)點(diǎn)間的權(quán)重分配，以改善關(guān)鍵詞抽取效果;夏天[14]利用word2Vec模型將維基百科中文數(shù)據(jù)生成詞向量模型，對(duì)TextRank詞節(jié)點(diǎn)的詞向量進(jìn)行加權(quán)聚類(lèi)，實(shí)現(xiàn)關(guān)鍵詞抽取;He等[15]提取關(guān)鍵短語(yǔ)的控制詞匯及其先驗(yàn)概率作為先驗(yàn)知識(shí)，然后利用監(jiān)督學(xué)習(xí)算法對(duì)TFIDF、Tex-tRank和先驗(yàn)概率等特征進(jìn)行學(xué)習(xí)，并在Inspec、Krapivin、NUS和Ke20K 4個(gè)公共數(shù)據(jù)集上驗(yàn)證了先驗(yàn)知識(shí)對(duì)關(guān)鍵詞提取的有效性;劉嘯劍等[16]提出一種結(jié)合LDA與Tex-tRank的關(guān)鍵詞抽取模型，并在Huth200和DUC2001數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果表明了該方法的有效性;魏赟等[2]在TextRank算法基礎(chǔ)上，引入TFIDF計(jì)算詞語(yǔ)之間的權(quán)重得分，但該方法對(duì)權(quán)重的賦值仍存在缺陷。

本文在文獻(xiàn)[2]的基礎(chǔ)上引入瀏覽用戶(hù)對(duì)評(píng)論的有用性反饋，以提高有效評(píng)論中關(guān)鍵詞的權(quán)重，對(duì)TFIDF進(jìn)行改進(jìn)，然后結(jié)合TextRank算法挖掘評(píng)論中的關(guān)鍵詞。

1 改進(jìn)關(guān)鍵詞抽取方法

1.1 傳統(tǒng)TFIDF與TextRank

TFIDF（詞頻逆文本頻率）是計(jì)算特征權(quán)重最常用的方法[17]，用來(lái)評(píng)估指定詞匯在整個(gè)文本或語(yǔ)料庫(kù)中的重要程度。TF表示特征詞匯在整個(gè)文檔中出現(xiàn)的頻率，文檔中出現(xiàn)頻率越高的詞語(yǔ)重要性越強(qiáng)。對(duì)于某文本i中的詞語(yǔ)j，TF計(jì)算方式如式（1）所示。

1.3 基于改進(jìn)TFIDF的TextRank算法

傳統(tǒng)TextRank給每個(gè)節(jié)點(diǎn)賦予的初始權(quán)重都是一樣的。對(duì)于指定節(jié)點(diǎn)，在迭代計(jì)算鄰近節(jié)點(diǎn)重要性得分過(guò)程中，源節(jié)點(diǎn)將自身得分均分給鄰近節(jié)點(diǎn)，而未考慮節(jié)點(diǎn)之間的重要性差異，顯然是不符合實(shí)際情況的。因此，將改進(jìn)TFIDF算法引入到TextRank中，將其作為詞節(jié)點(diǎn)之間的特征權(quán)重，調(diào)整詞節(jié)點(diǎn)間的影響力。

如圖1所示，{v1，v2，v3，v4}5個(gè)詞構(gòu)成一個(gè)圖，根據(jù)改進(jìn)TFIDF算法計(jì)算出4個(gè)相鄰詞節(jié)點(diǎn)的詞匯特征權(quán)重依次為tfidj1、tfidf2、tfidf3和tfidf4。因此，對(duì)于指定詞節(jié)點(diǎn)v，指向該節(jié)點(diǎn)的權(quán)重分別為相鄰節(jié)點(diǎn)的詞特征權(quán)重，從而有效區(qū)分不同重要性詞節(jié)點(diǎn)對(duì)節(jié)點(diǎn)v的影響。

（4）融合評(píng)論的helpful反饋，根據(jù)式（6）計(jì)算候選關(guān)鍵詞的tfidf權(quán)重。

（5）構(gòu)建候選關(guān)鍵詞圖G=（V，E，其中V為節(jié)點(diǎn)集，由步驟（3）生成的候選關(guān)鍵詞組成，若詞匯在長(zhǎng)度為L(zhǎng)（原文本中的距離）的窗口中共現(xiàn)，則兩個(gè)詞匯節(jié)點(diǎn)之間通過(guò)邊相連。

（6）將所有候選關(guān)鍵詞節(jié)點(diǎn)重要性得分初始化為1，根據(jù)式（8）迭代計(jì)算新一輪節(jié)點(diǎn)重要性得分。如果節(jié)點(diǎn)誤差率小于0.000 l，或達(dá)到指定的迭代次數(shù)，則算法停止迭代。

（7）根據(jù)節(jié)點(diǎn)的重要性得分從大到小排序，選取前S個(gè)單詞作為關(guān)鍵詞。

（8）將步驟（7）得到的關(guān)鍵詞在原始文本中一一尋找標(biāo)記。如果關(guān)鍵詞位置相鄰，則將這兩個(gè)相鄰詞匯合并作為多詞關(guān)鍵詞。

2 實(shí)驗(yàn)

實(shí)驗(yàn)在Windows 10系統(tǒng)下進(jìn)行，硬件配置為Intel（ R）Core（TM）i7 CPU，內(nèi)存大小為8CB，硬盤(pán)大小為500GB，所用編程語(yǔ)言為Python語(yǔ)言。

2.1實(shí)驗(yàn)數(shù)據(jù)

本文選擇亞馬遜數(shù)據(jù)集的Kindle Store子集[19]研究關(guān)鍵詞抽取算法，該數(shù)據(jù)集是與電子書(shū)相關(guān)的數(shù)據(jù)集。原始數(shù)據(jù)集中包含評(píng)論者ID、產(chǎn)品ID、評(píng)論者名字、評(píng)分、評(píng)論文本、評(píng)論概述summary、評(píng)論有用性反饋、發(fā)表評(píng)論的Unix時(shí)間和評(píng)論時(shí)間戳共9個(gè)字段。Kindle Store原始數(shù)據(jù)集中不同電子書(shū)的受歡迎程度存在巨大差異，許多冷門(mén)電子書(shū)的評(píng)論數(shù)據(jù)數(shù)量過(guò)少，不利于進(jìn)行評(píng)論短文本挖掘。為了驗(yàn)證本文所提算法對(duì)電子書(shū)評(píng)論關(guān)鍵詞抽取的效果，特將用戶(hù)評(píng)論數(shù)超過(guò)100的電子書(shū)采樣出來(lái)，同時(shí)保留產(chǎn)品ID、評(píng)論文本和評(píng)論有用性反饋3個(gè)字段。該數(shù)據(jù)集采樣前后具體情況如表1所示。

將不同電子書(shū)的評(píng)論信息存儲(chǔ)到*.csv文件中，以產(chǎn)品ID作為文件名。文件每一行是評(píng)論有用性反饋及某一用戶(hù)對(duì)電子書(shū)的評(píng)論。利用Python的nltk自然語(yǔ)言處理包對(duì)每個(gè)文件中的用戶(hù)評(píng)論文本進(jìn)行文本預(yù)處理。首先進(jìn)行分詞與詞性標(biāo)注，然后去除評(píng)論文本中的停用詞，保留名詞、動(dòng)詞和形容詞，接著進(jìn)行詞干還原。經(jīng)過(guò)文本預(yù)處理之后，評(píng)論文本挖掘才進(jìn)入下一步驟——關(guān)鍵詞抽取。

2.2 對(duì)比算法及評(píng)估指標(biāo)

（1）評(píng)估指標(biāo)。所用亞馬遜數(shù)據(jù)集的Kindle Store子集不存在人工標(biāo)注的關(guān)鍵詞，對(duì)于算法自動(dòng)抽取出的關(guān)鍵詞，根據(jù)一定規(guī)則人工判別是否為有用關(guān)鍵詞。人工判別規(guī)則具體分為兩條：①是否與書(shū)籍的情節(jié)、人物、作者等組成元素相關(guān)，能否反映電子書(shū)特點(diǎn);②是否有利于對(duì)其他用戶(hù)進(jìn)行推薦。

為了驗(yàn)證算法對(duì)關(guān)鍵詞的抽取效果，采用信息檢索領(lǐng)域常用的P@k指標(biāo)作為算法性能評(píng)估指標(biāo)。P@k[20]是將算法自動(dòng)抽取前k個(gè)關(guān)鍵詞與人工標(biāo)注結(jié)果比較得到的查準(zhǔn)率，如式（9）所示。

P@k=N（k）/k

（9）

其中，分子N（k）表示抽取出k個(gè)關(guān)鍵詞中人工判別為有用的關(guān)鍵詞數(shù)目。

（2）對(duì)比算法。將改進(jìn)算法與3種經(jīng)典算法TFIDF[5]、TextRank[7]和TFIDF+TextRank[2]進(jìn)行比較。其中，TFIDF無(wú)參數(shù)設(shè)置，后兩種算法中d=0.85，詞共現(xiàn)窗口size=5。

2.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)一：詞共現(xiàn)窗口對(duì)改進(jìn)TextRank算法的影響。

TFTR作為非監(jiān)督性的關(guān)鍵詞抽取算法，詞共現(xiàn)窗口大小作為唯一參數(shù)，影響著算法抽取關(guān)鍵詞效果。當(dāng)詞共現(xiàn)窗口取size={3，5，7}，任意取100本電子書(shū)，利用TFTR算法對(duì)每本Kindle電子書(shū)的所有評(píng)論抽取候選關(guān)鍵詞，然后在重要性得分排名前10的詞匯中人工判斷并標(biāo)注有用關(guān)鍵詞，最后計(jì)算不同電子書(shū)抽取關(guān)鍵詞的查準(zhǔn)率情況并取平均值。TFTR算法計(jì)算得到的P@10如表2所示。

根據(jù)表2可知，當(dāng)窗口的size=5時(shí)，算法的P@10指標(biāo)最大。換言之，算法得到重要性得分排名前10關(guān)鍵詞中被人工標(biāo)注為有用關(guān)鍵詞的數(shù)目最多。所以為了使TFTR達(dá)到較為滿(mǎn)意的抽取效果，取size=5。

實(shí)驗(yàn)二：不同算法關(guān)鍵詞抽取結(jié)果比較。

首先利用4種算法對(duì)624本Kindle電子書(shū)的所有評(píng)論抽取候選關(guān)鍵詞，然后在重要性得分排名前5/10/15/20的詞匯中人工判斷并標(biāo)注有用關(guān)鍵詞，最后計(jì)算不同電子書(shū)抽取關(guān)鍵詞的查準(zhǔn)率情況，并對(duì)其求算數(shù)平均作為算法抽取關(guān)鍵詞的P@k指標(biāo)，具體結(jié)果如表3所示。需要注意的是，TextRank、TFIDF+TextRank以及TFTR的詞共現(xiàn)窗口大小固定為5。

為了更清晰地對(duì)比算法間的差異，將表3中的數(shù)據(jù)繪成直方統(tǒng)計(jì)圖，如圖2所示。

分析圖2可得出以下結(jié)論：

（1）TFIDF算法在抽取電子書(shū)評(píng)論關(guān)鍵詞時(shí)效果最差，這是因?yàn)樵撍惴▋H考慮了詞頻和逆文檔頻率特征計(jì)算詞匯的重要性得分。

（2）TextRank算法相比于TFIDF算法，查準(zhǔn)率略有提高，可能是因?yàn)樗惴ㄍㄟ^(guò)詞匯共現(xiàn)窗口構(gòu)建詞匯聯(lián)系圖，本質(zhì)上利用了詞匯短語(yǔ)間的語(yǔ)義信息。

（ 3）TFIDF+TextRank算法相比于前兩種單一算法，算法抽取查準(zhǔn)率明顯提高，說(shuō)明對(duì)TextRank算法引入TFIDF特征能彌補(bǔ)相關(guān)不足。

（4）TFTR算法的P@k指標(biāo)是4種算法中最高的。相比于TFIDF算法、TextRank算法和TFIDF+TextRank算法，TFTR算法提取出的產(chǎn)品評(píng)論關(guān)鍵詞在P@10標(biāo)準(zhǔn)下的準(zhǔn)確性分別提高了19.4%、15.7%和2.3%。

（5）隨著k值的增加，4種算法的P@k指標(biāo)都有一定程度降低，說(shuō)明隨著候選關(guān)鍵詞排序的靠后，算法抽取出的關(guān)鍵詞中引入了更多噪聲數(shù)據(jù)。為此，未來(lái)需要融入更多文檔內(nèi)部或外部信息以改善算法性能。

為了更清晰地觀察各個(gè)算法自動(dòng)抽取關(guān)鍵詞的效果，現(xiàn)隨機(jī)挑選出一本電子書(shū)，對(duì)其全部評(píng)論進(jìn)行挖掘。算法自動(dòng)抽取出的前20個(gè)候選關(guān)鍵詞結(jié)果如表4所示。

通過(guò)分析表4中從TFIDF算法抽取得到的結(jié)果，可以大致推斷出該電子書(shū)內(nèi)容是與科幻相關(guān)的，同時(shí)也包含了浪漫、打斗元素。然而與其它3種算法相比，由于抽取出的詞匯是一元詞匯，一些信息會(huì)變得模糊。例如對(duì)于plot（情節(jié)），從TFIDF算法抽取出的結(jié)果中并不能明確知道情節(jié)如何，而TextRank算法抽取出的候選關(guān)鍵詞可以是二元詞匯。從結(jié)果中可以發(fā)現(xiàn)，有些評(píng)論者想表達(dá)的是“fictionplot”，也即科幻情節(jié)。TFIDF+TextRank算法和TFTR算法沿襲了TextRank算法的優(yōu)點(diǎn)，即從評(píng)論中抽取出雙詞詞匯，從而使候選關(guān)鍵詞中包含更多評(píng)論信息。此外，相比于其它3種算法，TFTR算法抽取結(jié)果中人工標(biāo)注為有用關(guān)鍵詞的數(shù)目更多。同時(shí)，TFTR算法提取出的候選關(guān)鍵詞更加準(zhǔn)確、可靠，能更好地抓住不同評(píng)論者關(guān)注的焦點(diǎn)。

3 結(jié)語(yǔ)

產(chǎn)品評(píng)論關(guān)鍵詞抽取對(duì)產(chǎn)品推薦具有重要作用，關(guān)鍵詞抽取質(zhì)量對(duì)后續(xù)產(chǎn)品推薦有著直接影響。然而，產(chǎn)品評(píng)論因其具有文本短小、詞匯少及詞匯質(zhì)量參差不齊等特征，增大了關(guān)鍵詞提取難度。本文將評(píng)論的helpful反饋引入TFIDF中，以提高重要關(guān)鍵詞特征權(quán)重，并結(jié)合Tex-tRank算法，挖掘出評(píng)論文本中的產(chǎn)品關(guān)鍵特征。實(shí)驗(yàn)結(jié)果表明，相比于TFIDF算法、TextRank算法和TFID F+Tex-tRank算法，本文提出的TFTR算法挖掘出的產(chǎn)品特征關(guān)鍵詞在P@10標(biāo)準(zhǔn)下的準(zhǔn)確性分別提高了19.4%、15.7qe和2.3%。同時(shí)，提取出的候選關(guān)鍵詞更能抓住不同評(píng)論者關(guān)注的焦點(diǎn)，從而有利于將產(chǎn)品關(guān)鍵詞用于后續(xù)產(chǎn)品推薦。然而，TFTR算法自動(dòng)抽取出的關(guān)鍵詞中仍含有噪聲詞匯，人工識(shí)別剔除工作量大，未來(lái)可考慮選取可靠的“種子”詞匯，利用訓(xùn)練模型對(duì)自動(dòng)抽取出的關(guān)鍵詞作進(jìn)一步分類(lèi)。

參考文獻(xiàn)：

[1] 邱小花，李國(guó)俊，肖明.基于Sci-2的國(guó)外圖書(shū)館學(xué)情報(bào)學(xué)研究主題演變分析——以共詞分析為例[J].情報(bào)雜志，2013，32（12）：110-118.

[2]魏贇，孫先朋.融合統(tǒng)計(jì)學(xué)和TextRank的生物醫(yī)學(xué)文獻(xiàn)關(guān)鍵短語(yǔ)抽取[J].計(jì)算機(jī)應(yīng)用與軟件，2017，34（6）：27-30.

[3]胡學(xué)鋼，李星華，謝飛，等.基于詞匯鏈的中文新聞網(wǎng)頁(yè)關(guān)鍵詞抽取方法[J].模式識(shí)別與人工智能，2010，23（1）：45-51.

[4]趙京勝，朱巧明，周?chē)?guó)棟，等.自動(dòng)關(guān)鍵詞抽取研究綜述[J].軟件學(xué)報(bào)，2017， 28（9）：2431-2449.

[5]SPARCK J K.A statistical interpretation of term specificity and its ap-plication in retrieval [J]. Journal of Documentation， 1972， 28（1）：11-21.

[6]BLEI D M， NG A Y， JORDAN M I.Latent dirichlet allocation [J].Journal of Machine Learning Research. 2003，3：993-1022.

[7]MIHALCEA R， TARAU P. Textrank： bringing order into text[C]. Pro-ceedings of the 2004 Conference on Empirical Methods in Natural Lan-guage Processing. Association for Computational Linguistics， 2004：404-411.

[8] 張瑾.基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志，2014， 33（4）：153-155.

[9]YI J K， YANC G，WanJ. Category discrimination based feature selec-tion algorithm in Chinese text classification[J].Journal of InformationScience and Engineering， 2016， 32（5）：1145-1159.

[10] 張震，曾金.面向用戶(hù)評(píng)論的關(guān)鍵詞抽取研究——以美團(tuán)為例[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2019，3（3）：36-44.

[11]謝瑋，沈一，馬永征.基于圖計(jì)算的論文審稿自動(dòng)推薦系統(tǒng)[Jl.計(jì)算機(jī)應(yīng)用研究，2016，33（3）：798-801.

[12] 劉竹辰，陳浩，于艷華，等.詞位置分布加權(quán)TextRank的關(guān)鍵詞提取[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2018，2（9）：74-79.

[13] 寧建飛，劉降珍.融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù)，2016（6）：20-27.

[14] 夏天詞向量聚類(lèi)加權(quán)TextRank的關(guān)鍵詞抽取[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2017（2）：28-34.

[15]HE G X. FANC J W. CUI H R， et al. Keyphrase extraction based onprior knowledge[C].JCDL， 2018： 341-342.

[16] 劉嘯劍，謝飛，吳信東.基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J].情報(bào)學(xué)報(bào)，2016，35（6）：664-672.

[17]SOUCY P，MINEAU G W. Beyond TFIDF weighting for text categori-zation in the vector space model[ C]. IJCAI. 2005，5：1130-1135.

[18] 周錦章，崔曉暉.基于詞向量與TextRank的關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用研究，2019，36（4）：1051-1054.

[19]HE R， MCAULEY J. Ups and downs： modeling the visual evolutionof fashion trends with one-class collaborative filtering[C].Proceed-ings of the 25th International Conference on World Wide Web. Inter-national World Wide Weh Conferences Steering Committee， 2016：507-517.

[20] DAVIS J，GOADRICH M. The relationship between Precision-Re-call and ROC curves[C].Proceedings of the 23rd International Con-ference on Machine Learning. ACM， 2006： 233-240.

（責(zé)任編輯：黃健）

作者簡(jiǎn)介：尤苡名（1993-），女，浙江理工大學(xué)信息學(xué)院碩士研究生，研究方向?yàn)閿?shù)據(jù)挖掘、中文信息處理。