999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF—IDF算法的文本信息提取

2018-10-27 11:25:08于韜王洪巖
科技視界 2018年16期

于韜 王洪巖

【摘 要】隨著大數據時代的到來,數據量呈幾何倍增長。文本信息是人們接觸最多的信息,關鍵信息作為對文本主題的高度概括,成為用戶了解文本主題的快速渠道,如何快速有效的挖掘文本關鍵信息成為研究的關鍵問題。本文以本溪市政府工作報告為研究對象,將文本信息進行抽象,利用TF-IDF算法實現對文本中頻繁出現的短語進行批量自動提取,統計頻繁短語出現的頻次,進而提取關鍵信息。通過對政府工作報告的提取,可以看出政府建設本溪的總體趨勢,并且積極響應國家號召,總體推進本溪政府工作不斷向前。

【關鍵詞】關鍵信息提取;TF-IDF算法;頻繁短語;詞頻統計

中圖分類號: TP391.1 文獻標識碼: A 文章編號: 2095-2457(2018)16-0117-002

DOI:10.19694/j.cnki.issn2095-2457.2018.16.053

【Abstract】With the advent of the big data era,the volume of data has increased exponentially.Text information is the most accessible information, and the key information,as a high summary of the text theme,has become a fast channel for users to understand the theme of the text.How to quickly and effectively excavate the key information of the text has become the key issue of the research.This paper takes the Benxi municipal governments work report as the research object and abstracts the text information.TF-IDF algorithm is used to automatically extract frequent phrases in the text,and the frequent occurrences of frequent phrases are extracted, and the key information is extracted. Through the extraction of the government work report,we can see the general trend of the governments construction of benxi,and actively respond to the national call,so as to push forward the work of benxi government.

【Key words】Key information extraction;TF-IDF algorithm;Frequent phrases;Word frequency statistics

0 引言

人們每天通過網絡了解國內外事件,獲取自己所需信息。網絡早已成為人們了解信息的重要方式,隨著大數據時代到來,信息量暴增,信息交換、傳遞的方式也隨之增多,但在眾多信息傳遞方式中,文本信息在目前依然占據上風。如何快速有效地了解文本關鍵信息成為關鍵問題。在大數據時代,我們對大數據和數據挖掘已然不陌生,數據挖掘是主動地挖掘大數據中價值信息,文本也是數據挖掘的重點研究領域,因此提取文本中關鍵信息十分關鍵。

TF-IDF(Term Frequency-Inverse Document Frequency)算法是是一種用于信息檢索與數據挖掘的常用加權技術[1],是一種統計方法,用以評估字詞對于文本集的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。也就是說一個詞語在一篇文章中出現次數越多, 同時在所有文檔中出現次數越少, 越能夠代表該文章。本文通過TF-IDF算法對政府工作報告進行提取,得到了可靠的結果,結果可信度強,適合對文本進行關鍵詞提取的工作。

1 TF-IDF算法

TF-IDF算法是經典的關鍵詞提取方法[2-3],是目前應用最多的基于統計信息的關鍵詞提取方法。分為三大模塊:

1.1 文本預處理模塊

輸入文本a,首先進行分詞等預處理操作,然后把文本a的內容看成由特征詞組成的集合,文本a可以用特征詞的集合表示為ai=(t1,t2…,ti,…tn)其中ti是特征項。

1.2 權重計算模塊

根據各個項ti在文本ai中的重要性給其賦予一定的權重wi,TF-IDF算法通過特征詞的詞頻(TF)和反文檔頻率(IDF)來計算特征詞ti的權重wi,文本ai的特征詞的權重計算公式如下:

TF(ai,ti)表示特征詞在文本中出現的次數,DF(ti)表示在文本數據集中出現特征詞的文本個數,M表示文本數據集總的文本數,IDF(ti)表示反文檔率。

1.3 提取關鍵信息模塊

按照權重wi從大到小對特征詞ti進行排序,選擇前m個詞作為文本a最終的關鍵詞。

2 實驗設計

通過實驗驗證本文提出的詞頻統計規律的正確性,驗證TF-IDF算法的有效性和可行性。本文實驗均在 Windows 10系統下運行,CPU 主頻 3. 40 GHz,內存8 GB,開發工具pycharm,運行環境Python3.6,算法實現采用Python語言。

2.1 實驗數據集

在對詞頻分布規律進行研究時,沒有固定、標準的數據集。在以往有關詞頻分布規律的實驗中,多以文章、文獻或書籍作為實驗數據。本文以政府工作報告作為實驗數據集。

本文實驗數據具有以下特點:

(1)實驗數據質量高: 為保證數據質量,本文選擇的是高質量的政府工作報告。

(2)實驗文本說服性強:本文選擇具有權威性的政府工作報告作為實驗數據集。

(3)實驗文本數量多:本實驗以本溪市9年的政府工作報告作為實驗數據。

2.2 算法驗證

本文在中文文本上驗證TF-IDF算法的可行性[4-5],通過與真實值的趨近程度來判斷算法的準確率。首先將每個政府工作報告抽象為一個文本a,進行輸入。然后將文本a化成特征項組成的集合,方便提取關鍵詞,接著計算每一項的權重,通過權重計算公式計算出每一項的權重,接著按照每一項的權重大小進行排序,取出排名靠前的幾項作為關鍵詞。

3 實驗結果

接下來對提取結果進行簡要分析:結果包含了2010-2018年間的提取關鍵詞。2010年政府工作報告的重點是推進項目發展、抓好招商產業、實現產值20億元以上、完善沈本工作等。2011年主要工作重點是抓好新城工作,并堅持發展文化。2012年主要工作重點是加快全市重點集群產業工作,完成企業工程增長10億元,并發展旅游業等……2018年重點在加快企業改革,發展旅游等。通過9年間的提取結果,可以看出在這9年間政府以建設本溪、推進項目發展工作貫徹始終,積極響應國家號召,在堅持大方向的前提下,不斷完善每個基本點,總體堅持改革與發展。并通過對企業、旅游、文化等的促進,總體推進本溪政府工作不斷向前。

4 結語

本文將TF-IDF算法與關鍵信息提取相結合,提出基于TF-IDF算法的文本信息提取方法。首先對TF-IDF算法進行研究,利用文本預處理模塊、權重計算模塊、提取關鍵信息模塊對文本進行處理,提取了政府工作報告的關鍵信息,得到了大致的發展方向與研究重點,并且驗證結果與真實值基本吻合,此種方法為快速獲取文本關鍵信息提供了支持。

【參考文獻】

[1]孫飛.基于論壇關鍵字搜索的改進TF-IDF算法及其應用,江西師范大學,2015.5.

[2]羅燕,趙書良,李曉超,等.基于詞頻統計的文本關鍵詞提取方法,計算機應用,2016.3.

[3]張旭成,宋傳寶.基于文本類別信息熵的中文文檔關鍵詞提取,中國中文信息學會會議論文集,2007.10.

[4]許夢馨.基于復雜網絡的文本關鍵詞提取分析平臺,南京郵電大學,2017.10.

[5]楊玥.中文文本主題關鍵短語提取算法研究,西安理工大學,2017.6.

主站蜘蛛池模板: 激情网址在线观看| 色偷偷av男人的天堂不卡| 国产精鲁鲁网在线视频| 日本国产在线| 亚洲国产成人精品无码区性色| 亚洲一区二区无码视频| 人妻91无码色偷偷色噜噜噜| 国产男女免费完整版视频| 久久久久久久97| 99无码熟妇丰满人妻啪啪| 中文字幕色站| 日韩中文字幕免费在线观看| 久久精品国产免费观看频道| 99热在线只有精品| 国产裸舞福利在线视频合集| 婷婷亚洲天堂| 五月婷婷丁香综合| 亚洲免费人成影院| 538精品在线观看| 亚洲第一成年网| 亚洲天天更新| www.youjizz.com久久| …亚洲 欧洲 另类 春色| 999精品视频在线| 91在线播放国产| 伊人成人在线| 精品91视频| 无码区日韩专区免费系列| 免费国产高清视频| 国产精品久久久久鬼色| 秘书高跟黑色丝袜国产91在线 | 欧美另类图片视频无弹跳第一页| 制服丝袜一区二区三区在线| 中国成人在线视频| a级高清毛片| 无码人妻免费| 国产激情在线视频| 成人91在线| 欧美一级夜夜爽www| 亚洲一区精品视频在线| 亚洲成人精品在线| 日韩在线成年视频人网站观看| 伊人五月丁香综合AⅤ| 91黄色在线观看| 一本大道无码日韩精品影视| 香蕉久久永久视频| 中文字幕无线码一区| 国产不卡国语在线| 福利在线不卡一区| 亚洲女人在线| 国产三级国产精品国产普男人| 色精品视频| 青青极品在线| 欧美视频在线观看第一页| 日韩欧美中文字幕在线精品| 免费一级毛片| 在线播放国产一区| 亚洲精品不卡午夜精品| 久久免费观看视频| 久久一日本道色综合久久| 毛片在线看网站| 无码福利日韩神码福利片| 国产特级毛片aaaaaaa高清| 一本色道久久88| 亚洲精品你懂的| 久久久精品国产亚洲AV日韩| 亚洲婷婷丁香| 99精品一区二区免费视频| 国产幂在线无码精品| 国产欧美日韩综合在线第一| 国产主播一区二区三区| 色香蕉影院| 国产午夜不卡| 亚洲精品无码AⅤ片青青在线观看| 国产福利免费在线观看| 全裸无码专区| 国产精品视频3p| 丁香六月激情婷婷| 欧美区国产区| 国产欧美日韩免费| 超碰aⅴ人人做人人爽欧美| 国产精鲁鲁网在线视频|