999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF和TextRank結(jié)合的中文文本關(guān)鍵詞提取方法

2023-08-20 03:22:47蘭曉芳劉卓許志豪肖毅
軟件工程 2023年8期
關(guān)鍵詞:單詞文本方法

蘭曉芳 劉卓 許志豪 肖毅

摘 要:利用文本挖掘技術(shù)進(jìn)行體育熱點(diǎn)分析,可以為體育領(lǐng)域的發(fā)展提供更多有用的信息。文中提出了一種基于TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)和TextRank(文本排序)的中文文本關(guān)鍵詞提取方法,該方法首先采用分詞、去除停用詞等對(duì)文本進(jìn)行預(yù)處理;其次使用TF-IDF算法計(jì)算每個(gè)詞的重要性并進(jìn)行歸一化處理,同時(shí)使用TextRank算法權(quán)衡單詞之間的關(guān)系并計(jì)算每個(gè)單詞的得分以進(jìn)行歸一化處理;最后將TF-IDF值和TextRank得分進(jìn)行加權(quán)和得到每個(gè)詞的綜合權(quán)重值,最終獲得權(quán)重值最高的N 個(gè)關(guān)鍵詞。應(yīng)用TF-IDF和TextRank結(jié)合的方法在F1 值上選擇5個(gè)關(guān)鍵詞時(shí)取得了更好的結(jié)果,相較于只使用TF-IDF方法或TextRank方法,其關(guān)鍵詞提取準(zhǔn)確率分別提高約40%和32%。該方法有效提高了關(guān)鍵詞提取的準(zhǔn)確性和提取效率。

關(guān)鍵詞:TF-IDF;TextRank;體育新聞;關(guān)鍵詞提取

中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A

0 引言(Introduction)

隨著互聯(lián)網(wǎng)的發(fā)展,人們可以方便地在互聯(lián)網(wǎng)上獲取各種類型的文本數(shù)據(jù),而提取中文文本新聞的關(guān)鍵字有重大意義,新聞的關(guān)鍵字可以作為新聞標(biāo)題和摘要的一部分出現(xiàn),吸引更多讀者點(diǎn)擊閱讀,進(jìn)而促進(jìn)新聞的傳播和推廣;還可以使讀者更快速地了解文章的主要內(nèi)容和重點(diǎn),提高閱讀效率。同時(shí),它可以作為搜索引擎的關(guān)鍵詞,提高搜索結(jié)果的精準(zhǔn)度和效果[1]。此外,通過對(duì)新聞文本的關(guān)鍵字進(jìn)行提取和分析,可以得到讀者關(guān)注的相關(guān)信息,提高廣告投放的精準(zhǔn)性和效果[2]。近年來,基于TF-IDF和TextRank的關(guān)鍵詞提取算法在中文文本領(lǐng)域得到了廣泛應(yīng)用。然而,由于中文語(yǔ)言的復(fù)雜性,傳統(tǒng)的TF-IDF和TextRank算法在中文文本的關(guān)鍵詞提取中存在一定的局限性[3]。因此本文提出了一種基于TF-IDF和TextRank的中文文本的體育新聞關(guān)鍵詞提取方法,可以提高關(guān)鍵詞提取的準(zhǔn)確性和覆蓋率。

1 相關(guān)工作(Related work)

關(guān)鍵詞提取是一個(gè)廣泛的研究領(lǐng)域,已經(jīng)有許多算法被提出。中文文本的關(guān)鍵詞提取與英文文本不同,主要因?yàn)橹形脑~匯具有復(fù)雜性和多義性。因此,中文文本的關(guān)鍵詞提取需要考慮詞匯的語(yǔ)義、詞頻、文本結(jié)構(gòu)等多方面因素。其中,基于頻率的TF-IDF算法是最常用的一種方法,它通過計(jì)算詞頻和文檔頻率衡量詞語(yǔ)的重要性。TextRank算法是一種基于圖的排序算法,它通過對(duì)文本中詞語(yǔ)之間的關(guān)系進(jìn)行建模,計(jì)算每個(gè)詞語(yǔ)的重要性。這兩種算法已經(jīng)被證明在關(guān)鍵詞提取任務(wù)中取得了良好的效果[4]。然而,這兩種算法各自存在一些缺陷。

TF-IDF算法只考慮了單詞的頻率信息,忽略了單詞之間的關(guān)系。TextRank算法考慮了單詞之間的關(guān)系,但是它沒有考慮單詞的頻率信息。因此,結(jié)合應(yīng)用兩種算法可以克服它們各自的缺點(diǎn),提高關(guān)鍵詞提取的準(zhǔn)確性。

本文方法首先對(duì)文本進(jìn)行預(yù)處理,包括分詞、去除停用詞等操作;其次使用TF-IDF算法計(jì)算每個(gè)詞的重要性并進(jìn)行歸一化處理,同時(shí)使用TextRank算法考慮單詞之間的關(guān)系,計(jì)算每個(gè)單詞的得分并進(jìn)行歸一化處理;最后,將TF-IDF值和TextRank得分進(jìn)行加權(quán)和得到每個(gè)詞的綜合權(quán)重值,按照權(quán)重值從大到小排序后選擇權(quán)重值最高的前N 個(gè)單詞作為關(guān)鍵詞。關(guān)鍵詞提取步驟如圖1所示。

2 方法實(shí)現(xiàn)(Method implementation)

2.1 數(shù)據(jù)集

為了評(píng)估本文所提方法的效果,使用來自清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的THUCNews數(shù)據(jù)集中的131 601篇體育新聞數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集中都是text文件,為了方便數(shù)據(jù)處理與計(jì)算,將數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)中,數(shù)據(jù)集基本信息見表1,數(shù)據(jù)庫(kù)表設(shè)計(jì)見表2。

2.2 數(shù)據(jù)預(yù)處理

將文本從數(shù)據(jù)庫(kù)中讀取出來,使用jieba.lcut()進(jìn)行分詞,同時(shí)使用百度停用詞表過濾停用詞等,方便后續(xù)處理。

(1)分詞。使用分詞工具(如jieba)對(duì)給定的中文文本進(jìn)行分詞,將文本轉(zhuǎn)化為詞語(yǔ)序列。使用默認(rèn)的精確模式words =jieba.lcut(sentence)。雖然Paddle模式(飛槳模式)對(duì)機(jī)構(gòu)團(tuán)體名的解析更準(zhǔn)確,但是對(duì)分詞效果不大。使用Paddle模式非常耗時(shí),性價(jià)比不高。通過實(shí)際測(cè)算,使用Paddle模式對(duì)100條語(yǔ)句進(jìn)行分詞的耗時(shí),約是不使用Paddle模式的103倍,如表3所示。

(2)去停用詞。在進(jìn)行新聞文本關(guān)鍵詞提取前,需要做停用詞處理,主要是為了去除一些無意義的高頻詞匯,如“的、是、了、而、和”等。這些詞語(yǔ)出現(xiàn)的頻率非常高,但它們本身并沒有太多的語(yǔ)義信息,對(duì)于關(guān)鍵詞提取沒有太大的幫助。同時(shí),去除這些無用的詞匯也可以減少文本處理的時(shí)間和計(jì)算量。停用詞處理的方法通常是通過建立一個(gè)停用詞表,包含需要去除的無用詞匯。在進(jìn)行文本處理時(shí),對(duì)于每一個(gè)詞語(yǔ)都需要和停用詞表中的詞匯進(jìn)行比對(duì),如果該詞語(yǔ)屬于停用詞,則將其去除,否則保留。這樣可以去除一些無用的高頻詞匯,提高關(guān)鍵詞提取的準(zhǔn)確性和效率。本文對(duì)比三個(gè)常用的中文停用詞表后,決定使用百度停用詞表過濾停用詞。停用詞表適用類型見表4。

2.3 計(jì)算TF-IDF得分

TF-IDF的中文名為“詞頻-逆文檔頻率”,是一種統(tǒng)計(jì)方法,用于評(píng)估一個(gè)詞語(yǔ)在文檔中的重要程度。由詞頻(TermFrequency,TF)和逆文檔頻率(Inverse Document Frequency,IDF)兩個(gè)部分組成,它的核心思想是一個(gè)詞語(yǔ)在一篇文檔中出現(xiàn)的次數(shù)越多,同時(shí)在其他文檔中出現(xiàn)的次數(shù)越少,那么就越能代表該文檔[5]。

TF(詞頻)指的是某個(gè)詞在一篇文檔中出現(xiàn)的頻率。TF越高,說明這個(gè)詞在文檔中出現(xiàn)的次數(shù)越多,越重要。

IDF(逆文檔頻率)指的是某個(gè)詞在所有文檔中出現(xiàn)的頻率的倒數(shù)。如果一個(gè)詞在所有文檔中都頻繁出現(xiàn),那么它的IDF就會(huì)很低,說明這個(gè)詞在區(qū)分文檔時(shí)并沒有太大的用處。相反,如果一個(gè)詞只在少數(shù)文檔中出現(xiàn),那么它的IDF就會(huì)很高,說明這個(gè)詞在區(qū)分文檔時(shí)具有很大的作用。

綜合考慮TF和IDF,可以計(jì)算一個(gè)詞的TF-IDF值,它越高就表示這個(gè)詞在文檔中越重要[6]。計(jì)算公式如下:

4 結(jié)論(Conclusion)

本文提出了一種基于TF-IDF和TextRank的中文文本體育新聞的關(guān)鍵詞提取方法。該方法結(jié)合了TF-IDF算法和TextRank算法的優(yōu)點(diǎn),提高了關(guān)鍵詞提取的準(zhǔn)確性。通過TF-IDF方法可以篩選出具有高重要性的單詞,而TextRank方法則可以通過考慮單詞之間的關(guān)系提高關(guān)鍵詞的準(zhǔn)確性。為驗(yàn)證該方法,使用體育新聞數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與只使用TF-IDF和只使用TextRank進(jìn)行提取關(guān)鍵詞準(zhǔn)確率結(jié)果的比較。實(shí)驗(yàn)結(jié)果表明,TF-IDF和TextRank結(jié)合的方法在F1 值上選擇5個(gè)關(guān)鍵詞時(shí)取得了更好的結(jié)果,相對(duì)于只使用TFIDF方法準(zhǔn)確性提高約40%,相對(duì)于只使用TextRank方法準(zhǔn)確性提高約32%。對(duì)基于TF-IDF和TextRank的方法進(jìn)行詳細(xì)分析發(fā)現(xiàn),使用TextRank算法可以捕捉單詞之間的關(guān)系,有助于識(shí)別出一些相關(guān)的關(guān)鍵詞,但是它也容易將一些不相關(guān)的單詞也包含進(jìn)來,而使用TF-IDF算法可以過濾一些常見的單詞,提高了關(guān)鍵詞的準(zhǔn)確性。結(jié)合這兩種算法可以更好地平衡準(zhǔn)確性和召回率,提高關(guān)鍵詞的提取效果。

基于TF-IDF和TextRank的方法還有一些改進(jìn)的空間,如將詞語(yǔ)的語(yǔ)義信息考慮進(jìn)來,使用深度學(xué)習(xí)等方法進(jìn)行建模等。在未來的研究中,可以繼續(xù)改進(jìn)基于TF-IDF和TextRank的方法,并在其他領(lǐng)域的關(guān)鍵詞提取任務(wù)中應(yīng)用。

參考文獻(xiàn)(References)

[1] 孟慶麟. 我國(guó)新聞出版的熱點(diǎn)關(guān)鍵詞分析與發(fā)展對(duì)策究研究[D]. 大連:大連海事大學(xué),2019.

[2] 蔣艷. 語(yǔ)料庫(kù)方法在新聞傳播研究中的發(fā)展應(yīng)用分析[J].新聞研究導(dǎo)刊,2022,13(24):23-26.

[3] 何傳鵬,尹玲,黃勃,等. 基于BERT和LightGBM 的文本關(guān)鍵詞提取方法[J]. 電子科技,2023,36(3):7-13.

[4] 張曉麗. 面向新聞?lì)I(lǐng)域的關(guān)鍵詞提取方法研究及系統(tǒng)實(shí)現(xiàn)[D].太原:山西大學(xué),2021.

[5] WANG Z H,WANG D, LI Q. Keyword extraction fromscientific research projects based on SRP-TF-IDF[J]. ChineseJournal of Electronics,2021,30(4):652-657.

[6] 張瑾. 基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志,2014,33(4):153-155.

[7] 趙占芳,劉鵬鵬,李雪山. 基于改進(jìn)TextRank的鐵路文獻(xiàn)關(guān)鍵詞抽取算法[J]. 北京交通大學(xué)學(xué)報(bào),2021,45(2):80-86.

[8] 李晨,趙燕清,于俊鳳,等. 基于詞向量與TextRank的政策文本關(guān)鍵詞匯抽取方法研究[J]. 現(xiàn)代計(jì)算機(jī),2023,29(2):68-72.

作者簡(jiǎn)介:

蘭曉芳(1998-),女,本科生。研究領(lǐng)域:數(shù)據(jù)處理,推薦算法。

劉 卓(2002-),男,本科生。研究領(lǐng)域:人工智能,數(shù)據(jù)處理。

許志豪(2001-),男,本科生。研究領(lǐng)域:機(jī)器學(xué)習(xí),數(shù)據(jù)處理。

肖 毅(1978-),男,博士生,講師。研究領(lǐng)域:數(shù)據(jù)處理,模式識(shí)別。本文通信作者。

猜你喜歡
單詞文本方法
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何快速走進(jìn)文本
最難的單詞
主站蜘蛛池模板: 久久亚洲国产视频| 一级毛片免费观看不卡视频| 少妇被粗大的猛烈进出免费视频| 欧美精品在线视频观看| 久视频免费精品6| 亚洲视频欧美不卡| 国产精品无码久久久久AV| 欧美亚洲国产精品久久蜜芽| 老色鬼久久亚洲AV综合| 欧日韩在线不卡视频| 亚洲美女一区| 最近最新中文字幕免费的一页| 国产精品私拍在线爆乳| 91午夜福利在线观看| AV无码国产在线看岛国岛| 在线人成精品免费视频| 久久青草视频| 国产专区综合另类日韩一区 | 亚洲一区二区视频在线观看| 国产精品无码AⅤ在线观看播放| 韩日免费小视频| 成人免费黄色小视频| 欧美a在线看| 国产真实乱了在线播放| 日本成人一区| 性喷潮久久久久久久久| 手机在线国产精品| 色婷婷成人| 中文字幕亚洲综久久2021| 日本午夜精品一本在线观看 | 欧美精品成人一区二区在线观看| 欧美啪啪视频免码| 四虎精品黑人视频| 重口调教一区二区视频| 久久国产精品嫖妓| 伊人AV天堂| 伊人成色综合网| 日本不卡在线| 久久综合伊人77777| 国产偷倩视频| 国产成人狂喷潮在线观看2345| 国产精品九九视频| 午夜影院a级片| 伊人久久婷婷| 欧美啪啪网| 久青草国产高清在线视频| 亚洲欧洲美色一区二区三区| 午夜国产理论| 亚洲中文在线视频| 国产91丝袜| 国产99在线观看| 国产导航在线| 成人看片欧美一区二区| 国产成人精品一区二区| 亚洲第一视频免费在线| 欧美中日韩在线| 亚洲码在线中文在线观看| 久久久久亚洲精品无码网站| 国产精品理论片| 中国一级毛片免费观看| 国产99久久亚洲综合精品西瓜tv| 玖玖精品在线| 国产精品久久久久久久伊一| 日本高清成本人视频一区| 国产精品区网红主播在线观看| 欧美福利在线观看| 秘书高跟黑色丝袜国产91在线| 高清亚洲欧美在线看| 国产全黄a一级毛片| 日本三级精品| 无码精品一区二区久久久| 久久精品无码中文字幕| 成人日韩精品| 99精品高清在线播放| a级毛片毛片免费观看久潮| 久久频这里精品99香蕉久网址| 亚洲手机在线| 精品免费在线视频| 青青操国产视频| 国产成人夜色91| 视频一区视频二区中文精品| 国产网站一区二区三区|