999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TextRank的新聞關鍵詞抽取系統的設計與開發

2020-02-22 03:09:35歐霖趙永標
現代信息科技 2020年18期
關鍵詞:文本系統

歐霖 趙永標

摘? 要:對新聞標注關鍵詞有助于用戶快速了解新聞內容,也有利于新聞的分類及檢索。鑒于人工選取關鍵詞效率太低,設計并實現了一個基于TextRank的新聞關鍵詞抽取系統。該系統包含五個模塊:用戶登錄、用戶注冊、分詞與詞性標注、候選詞提取、關鍵詞提取。該系統可以輔助新聞編輯人員進行關鍵詞抽取和篩選。經過測試,該系統達到了一定的準確度,而且界面友好,易于使用。

關鍵詞:TextRank;關鍵詞抽取;新聞

中圖分類號:TP391.3 ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)18-0023-04

Abstract:Tagging news with keywords helps users quickly understand the content of the news,and is also conducive to news classification and retrieval. In view of the low efficiency of manual keyword selection,a news keyword extraction system based on TextRank was designed and implemented. The system includes five modules:user login,user registration,word segmentation and part-of-speech tagging,candidate word extraction,and keyword extraction. The system can assist news editors in keyword extraction and screening. After testing,the system has reached a certain degree of accuracy,and the interface is friendly and easy to use.

Keywords:TextRank;keywords extraction;news

0? 引? 言

隨著互聯網的飛速發展,人們獲取新聞的方式發生了很大的改變,已從電視、報紙等傳統媒體轉向新聞網站等互聯網媒體。新聞關鍵詞能勾勒新聞的輪廓,反映新聞的主題;同時,新聞關鍵詞也可以用于新聞的分類和檢索,因此,對新聞標注關鍵詞是十分必要的[1]。人工選取關鍵詞雖然準確性高,但效率低。為了提高效率,必須利用相關算法自動抽取新聞關鍵詞。

關鍵詞抽取方法分為有監督和無監督兩種。有監督方法將關鍵詞抽取轉化為二分類問題,即首先構造一個詞表,再針對文檔集中的每一個文檔,標注詞表中的哪些詞是該文檔的關鍵詞,然后用標注的文檔集訓練分類器。有監督方法需要構造詞表,標注語料,代價太大,而無監督方法沒有這些要求,因而應用更廣泛。無監督關鍵詞抽取算法主要有三類:基于統計特征的抽取算法,常用的統計特征是TF-IDF;基于詞圖模型的抽取算法,如TextRank算法;基于主題模型的抽取算法,如LDA[2]。其中,基于詞圖模型的抽取算法,特別是TextRank算法具有理論完備、實現簡單、性能優良的特點而被廣泛應用。鑒于此,本文將其應用于新聞文本關鍵詞抽取,設計并實現了基于TextRank算法的新聞文本關鍵詞抽取系統。該系統可以輔助新聞編輯人員標注新聞關鍵詞,提高工作效率。

1? 關鍵詞抽取的相關技術

1.1? TextRank算法

TextRank算法的思想源于Google的PageRank算法[3]。用一個有向有權圖G=(V,E)來表示TextRank普通模型,由點集合V和邊集合E組成,E為V×V的子集。用wji表示任兩點vi,vj之間邊的權重,對于一個給定的點vi,In(vi)表示指向該點的點集合,Out(vj)表示點vi指向的點集合,點vi的權重ws定義為:

其中,d為阻尼系數,取值范圍為0到1,代表從圖中某一特定點指向其余任意點的概率,一般取值為0.85[4]。

基于TextRank的關鍵詞提取步驟為:

(1)把給定的文本T按照完整句子進行分割,即:T=[S1,S2,…,Sm],其中,m為句子數量。

(2)關于每個句子Si∈T,對其進行分詞和詞性標注處理,并除去掉停用詞,只留下指定詞性的單詞,如名詞、動詞、形容詞,即Si=[S(i,1),S(i,2),…,S(i,n)]為候選關鍵詞,n為候選關鍵詞的個數。

(3)構建候選關鍵詞圖G=(V,E),其中,V為節點集,由步驟(2)生成的候選關鍵詞組成,而后運用共現關系構造任兩點之間的邊,兩個節點之間存在邊僅當它們對應的詞匯在長度為K的窗口中共現,K為窗口大小,即最多共現K個單詞。其中,在這里K值的設定不同,可能導致抽取的關鍵詞可能會有所區別。

(4)根據上面的權重計算公式,迭代傳播各節點的權重,直至收斂。

(5)對節點權重進行倒序排序,從而得到最重要的T個單詞,即為關鍵詞。

1.2? 中文分詞與詞性標注

與英文不同,中文文本詞語之間沒有界限。在對中文文本進行處理前,一般需要對其進行分詞,根據具體情況還需要同時進行詞性標注。經過多年的研究,中文分詞技術取得了很大的進展,出現了不少成熟的分詞軟件,例如:結巴分詞、哈工大的LTP、復旦大學的FudanNLP、北京理工大的NLPIR-ICTCLAS等。本系統選擇NLPIR-ICTCLAS系統,該分詞系統采用層疊形馬爾科夫模型(CHMM)進行分詞,通過分層,既增加了分詞的準確性,又保證了分詞的效率。NLPIR-ICTCLAS系統采用北大標準/中科院標準的詞性對照表。表1展示了本系統涉及的名詞、動詞、副詞、形容詞的詞性對照表。

2? 基于TextRank的新聞關鍵詞抽取系統

2.1? 系統總體設計

系統的功能模塊圖如圖1所示。

系統主要包含5個功能模塊,分別是“用戶登錄”“用戶注冊”“分詞與詞性標注”“候選詞提取”“關鍵詞提取”。

系統啟動后,首先進入“用戶登錄”界面,如果登錄成功,即進入“分詞與詞性標注”界面,然后依次進入“候選詞提取”界面,“關鍵詞提取”界面,如果是新用戶,則首先需要注冊,然后才能登錄。系統的運行流程圖如圖2所示。

2.2? 系統詳細設計與實現

本軟件用Java語言編寫,包含5個界面,分別對應于5個功能模塊。其中“用戶登錄”“用戶注冊”功能與一般軟件類似,在此略過,重點介紹另外3個模塊的功能。

2.2.1? 分詞與詞性標注模塊

首先在文本框中輸入或者粘貼新聞文本,“分詞與詞性標注”模塊通過調用NLPIR-ICTCLAS漢語分詞系統(2016版)對待提取關鍵詞的文本進行分詞和詞性標注,并顯示結果,如圖3所示。

2.2.2? 候選詞提取模塊

“候選詞提取”模塊用于從已分詞和標注詞性的文本中挑選出候選關鍵詞。候選關鍵詞一般為名詞,也可以增加動詞,形容詞或者副詞,用戶可以根據實際情況選取,名詞必選。選擇候選關鍵詞的詞性后,點擊候選詞提取,所有候選關鍵詞即出現在下部文本框中,如圖4所示。

2.2.3? 關鍵詞提取模塊

“關鍵詞提取”是本軟件的核心模塊。關鍵詞提取采用TextRank算法。對于關鍵詞提取功能,需要設置兩個參數,一個是TextRank算法所需要的窗口大小,另一個是關鍵詞的個數。參數設置好后,點擊“提取關鍵詞”按鈕,左邊的文本框即顯示所提取的關鍵詞以及關鍵詞的TextRank值,如圖5所示。

2.3? 軟件性能測試

為了測試本軟件對新聞文本抽取的關鍵詞的準確性,本文從鳳凰網新聞板塊隨機選取了10篇新聞進行測試。這些新聞均已標注了關鍵詞,以下為其中一篇新聞的部分頁面HTML代碼:

泰國街頭抗議示威持續,總理巴育稱愿意談判解決問題_鳳凰網

上述HTML代碼中,名稱為“keywords”的meta數據即為關鍵詞。

通過觀察,這10篇新聞的關鍵詞均為名詞,個數平均為6個。基于此,將系統中三個的參數分別設置為:候選關鍵詞的詞性只選名詞,窗口大小設置為10個,關鍵詞個數設置為6個。將系統抽取的關鍵詞與已標注的關鍵詞進行對比,準確率為69%,即6個關鍵詞中平均有約4個屬于已標注的關鍵詞。

3? 結? 論

本文設計并實現了基于TextRank的新聞關鍵詞抽取系統。設置相關參數后,系統可以運用TextRank算法抽取新聞文本中的關鍵詞。通過在一定數量的實際新聞文本上進行測試,結果表明該系統具有較高的準確性。本系統采用的是經典的TextRank算法。雖然該算法簡單高效,但也具有主題相關性不高以及忽視新詞等缺點,下一步將考慮引入改進的TextRank算法。

參考文獻:

[1] 陶潔.基于新聞文本的關鍵詞提取 [D].武漢:華中師范大學,2019.

[2] 田脈.新聞文本關鍵詞提取算法研究與實現 [D].武漢:中南財經政法大學,2019.

[3] MIHALCEA R,TARAU P.TextRank:Bringing Order into Texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing.Barcelona:Association for Computational Linguistics,2004:404-411.

[4] Together_CZ.TextRank雜談 [EB/OL].(2017-04-09).https://blog.csdn.net/together_cz/article/details/69935286.

作者簡介:歐霖(1998—),男,漢族,廣東惠州人,本科,研究方向:自然語言處理;趙永標(1980—),男,漢族,湖北洪湖人,講師,碩士,研究方向:自然語言處理。

猜你喜歡
文本系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
基于PowerPC+FPGA顯示系統
在808DA上文本顯示的改善
半沸制皂系統(下)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲欧美天堂网| 日本日韩欧美| 天天色综合4| 天堂成人在线视频| 欧美特黄一级大黄录像| 国产欧美视频在线| 91精品福利自产拍在线观看| 欧洲日本亚洲中文字幕| 自偷自拍三级全三级视频| a级免费视频| 国产特级毛片aaaaaaa高清| 亚洲欧美自拍中文| 成人va亚洲va欧美天堂| 欧美亚洲国产精品久久蜜芽| 免费在线色| 国产尤物jk自慰制服喷水| 强奷白丝美女在线观看| 成人小视频在线观看免费| 日本欧美午夜| 亚洲美女高潮久久久久久久| 欧美日韩一区二区三| 蝌蚪国产精品视频第一页| 女人18毛片久久| 国产福利免费视频| 成人午夜视频网站| 欧美一级夜夜爽| 精品国产成人国产在线| 伊人色综合久久天天| 又大又硬又爽免费视频| 欧美日韩国产高清一区二区三区| 九九九精品成人免费视频7| 欧美三級片黃色三級片黃色1| 国产麻豆另类AV| a毛片在线免费观看| 麻豆精品视频在线原创| 狼友视频一区二区三区| 亚洲精品天堂自在久久77| 日本伊人色综合网| 亚洲va在线∨a天堂va欧美va| 一区二区三区在线不卡免费| 欧美精品亚洲精品日韩专区va| 91美女视频在线观看| 亚洲欧美人成电影在线观看| 午夜免费小视频| 免费大黄网站在线观看| 狠狠躁天天躁夜夜躁婷婷| 亚洲综合一区国产精品| 欧美精品1区| 性视频久久| 成人在线观看不卡| 国产激爽爽爽大片在线观看| 午夜a视频| 四虎亚洲国产成人久久精品| 欧美怡红院视频一区二区三区| 国产亚洲精久久久久久无码AV| 精品小视频在线观看| 亚洲精品久综合蜜| 欧美在线视频不卡| 亚洲全网成人资源在线观看| 欧美亚洲香蕉| 8090成人午夜精品| 亚洲AV无码乱码在线观看代蜜桃 | 99热这里只有精品免费| 精品撒尿视频一区二区三区| 国产情精品嫩草影院88av| 91在线播放国产| 国产亚洲精品资源在线26u| 青青国产成人免费精品视频| 久久人妻系列无码一区| 国产又粗又爽视频| AV天堂资源福利在线观看| 国产精品一区在线观看你懂的| 五月天久久婷婷| yy6080理论大片一级久久| 欧美综合激情| 亚洲欧美成aⅴ人在线观看| 在线国产毛片| 91国内外精品自在线播放| 欧美成人午夜影院| 干中文字幕| 成人久久精品一区二区三区| 欧美日韩在线国产|