999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

哈薩克文網絡熱點關鍵詞提取方法研究

2017-03-01 04:26:10胡冰瑤古麗拉阿東別克
計算機應用與軟件 2017年1期
關鍵詞:文本方法

胡冰瑤 古麗拉·阿東別克

(新疆大學信息科學與工程學院 新疆 烏魯木齊 830046)

哈薩克文網絡熱點關鍵詞提取方法研究

胡冰瑤 古麗拉·阿東別克

(新疆大學信息科學與工程學院 新疆 烏魯木齊 830046)

(新疆多語種信息技術實驗室 新疆 烏魯木齊 830046)

針對目前少數民族語言方面熱點關鍵詞提取算法研究較少,而且精度和效率不高這一問題,提出一種哈薩克文網絡熱點關鍵詞提取方法。將預處理后得到的文本利用多重因子加權改進的TF-IDF算法進行關鍵詞提取,后續根據其位置和頻率信息進行關鍵詞組配,得到候選熱點關鍵詞集合;結合TF-PDF算法和媒體關注度思想,構造關鍵詞熱度評分標準公式KHD(Keywords Hot Degree),實現對熱點關鍵詞的提取。實驗結果證明此方法可行有效,并且在提取精度和效率上都有顯著提高。

哈薩克文 詞頻 文檔頻率 媒體關注度 熱點關鍵詞

0 引 言

近年來,隨著互聯網的普及,我們進入了一個信息爆炸的大數據時代。新疆是一個多民族聚居的省份,在這里多種語言被廣泛使用。哈薩克語作為新疆幾大主流語言之一,其使用人數也在逐年上升,哈薩克文網頁數量的增長速度也越來越快。如何在海量的哈薩克文網絡文本中快速準確地找到人們感興趣的熱點信息成為了關注的焦點。本文探討如何對互聯網上的海量哈薩克文網頁信息進行分析、處理,從而獲取近期流行熱點關鍵詞的相關技術問題。

1 相關工作

1.1 關鍵詞提取

就目前來看,國內外相繼提出了多種關鍵詞自動提取方法,主要有3類:基于語義;基于機器學習;基于統計。如王立霞等人在關鍵詞提取過程中將詞語語義特征融入,利用居間度密度來度量語義關鍵程度[1]。王錦波等人采用樸素貝葉斯模型對標記好關鍵詞的文本進行訓練,獲得各個特征項出現的概率,用來提取文本的關鍵詞[2]。統計方法上,林滿山等人使用多線程多重因子加權的文本關鍵詞提取算法,提高了關鍵詞的提取精度[3]。

1.2 熱度計算

關于熱度計算,李渝勤等人將候選短語分為命名實體和非命名實體串,通過基礎權值和波動權值來綜合評估候選短語的熱度[4]。翟東海等人采用互信息作為熱點詞突發性的度量手段,使用類間離散度作為調節因子構建突發性度量公式來提取熱點詞[5]。程肖對傳統的TF-PDF算法進行了改進,取得了一定的效果,但會出現非熱點的高頻詞權值過高的問題[6]。

1.3 本文方法

哈薩克語屬于黏著語類型,跟漢語有很大不同,但與英語有一定的相似之處,每個詞之間都以空格或者標點符號隔開,而且都是由詞干和詞綴組成,所以哈薩克文在文本預處理時必須進行詞干提取。由于哈薩克文的基礎研究還不是特別成熟,還沒有開發出類似中文分詞器的工具,因此本文是利用空格和標點符號對詞進行切分。這種切分方法可能會出現詞語分離的現象,故本文在關鍵詞提取后又進行了組配工作,盡可能減少了詞語分離。

經過預處理后的語料中仍然會存在大量的對文章主題意義不大的詞,而使用TF-PDF算法進行詞語熱度計算時對詞頻的依賴程度又比較高,大量高頻出現且本身意義不大的詞會大大降低該算法的正確率,效果不理想。所以本文在結合哈薩克文的特點及其研究現狀的基礎上,先選擇對預處理過的網絡文本語料進行關鍵詞的提取和組配,得到候選熱點關鍵詞集。這樣在過濾大量非關鍵的高頻詞的同時,又減少了后續工作的計算量;后續在傳統TF-PDF算法的基礎上結合媒體關注度的思想對詞集中的候選熱點關鍵詞進行熱度計算,實現熱點關鍵詞的提取。實驗結果證明該算法可行有效,在提取準確率和時間效率上都有顯著提高。

2 熱點關鍵詞提取

2.1 數據獲取及預處理

本文通過網絡爬蟲對多個哈薩克文新聞網站進行抓取來獲得真實新聞語料。由于網頁中存在大量噪音信息,必須對網頁進行正文抽取,后續對抽取的正文文本進行位置標注、分詞、詞干提取、詞性標注、停用詞過濾等預處理,得到候選關鍵詞集合。

2.2 關鍵詞提取

傳統的TF-IDF算法是由Salton和McGill針對向量空間信息檢索樣例提出的一種用來表示文本特征的方法[7]。前人運用傳統TF-IDF權重計算公式提取關鍵詞有一定的效果,但是此方法還存在一些問題,如:

(1) 同一個候選關鍵詞wi在長文檔中可能會比短文檔有更高的詞頻,從而偏向長文檔。

(2) 詞條出現在文檔的不同位置時,其重要程度也是不一樣的。

(3) 傳統方法沒有對候選詞詞性進行考慮,通過查閱文獻可知,在總數量上,名詞和包含名詞性成分的關鍵詞占了絕大部分[8],因此需要對不同詞性的候選詞賦予不同的權重。

針對上述問題,本文在傳統的TF-IDF算法的基礎上,對其進行多重因子綜合加權后得到了一個新的權重公式Score(wi),利用此公式來計算候選關鍵詞的權值。

2.2.1 歸一化處理

不管重要與否,同一個候選關鍵詞wi在長文檔中可能會比短文檔有更高的詞頻,為防止它偏向長的文檔,須進行歸一化處理。下面是比較常用的一種歸一化處理的TF-IDF公式,如式(1)所示:

(1)

其中,w(ti,d)為詞ti在文本d中的權重,而tf(ti,d)為詞ti在文本d中的詞頻,N為文本集中文本的個數,nti是詞ti在文本集中出現詞ti的文本個數,分母為歸一化因子。

2.2.2 位置加權

除了TF-IDF值,候選關鍵詞的重要程度還受其出現位置的影響。由于不同位置的詞對文本的作用是不一樣的。因此,對于不同位置的詞應該進行加權處理。位置權重設為αti,其值如式(2)所示:

(2)

其中,各分段的系數需多次實驗進行調節,以達到較好的效果。

設Sti為該詞在相應位置出現的次數,加入了位置權重后的詞權重計算如式(3)所示:

(3)

2.2.3 詞性加權

由于不同詞性的詞語在表達文本信息能力方面重要性不同,本文引入了P(wi)來表示詞語的詞性權重系數,通過多次實驗,規定名詞的權重系數P(wi)=2.5,動詞和形容詞的權重系數P(wi)=1,其他詞性的權重系數為0。

2.2.4 綜合加權

結合式(1)-式(3)及詞性系數P(wi),將新聞文檔中任意候選關鍵詞wi,進行綜合加權,權值函數如式(4)所示:

Score(wi)=w(ti,d)×Loc(wi)×P(wi)

(4)

利用式(4)計算得到每一個候選關鍵詞的權重,該權重即候選關鍵詞重要性和代表文檔能力。

2.2.5 關鍵詞組配

在新聞網頁中一些關鍵詞通常連在一起,但在分詞過程中被切分,導致其不能完整表示其原來的意義,所以本文根據候選關鍵詞在文中出現的位置和頻率情況對其進行了組配。

組配過程如下:

1) 根據綜合加權公式計算所有候選關鍵詞的評分,選出每篇文檔評分最高的10個詞語作為組配關鍵詞的初始集合。

2) 由于在分詞過程中已經對每個詞進行了位置標注并以其第一次出現時的順序編號,此步驟我們對初始集合里的候選關鍵詞進行編號匹配,規則為:編號相鄰的進行組合,小號在前,大號在后。如兩個號相鄰組成二元詞,三個編號相鄰則組成三元詞,依次類推。

3) 對新組成的詞組,在本篇文檔中進行掃描,統計其頻次,大于閾值S時,我們認為這一詞組組配成功的概率較大,將其取出。此處閾值S的取值為多次實驗后確定。

4) 利用式(4)計算組配成功的候選關鍵詞的權值,將一元候選關鍵詞與新組配的多元候選關鍵詞按權值高低排序,取每篇文檔權值最高的前10個詞作為此文檔正式抽取的關鍵詞。

關鍵詞提取模塊,本文改進了傳統的TF-IDF方法,先進行歸一化處理,再引入位置因子和詞性因子進行綜合加權計算,后續根據其位置和頻率信息進行了關鍵詞組配,得到正式的關鍵詞。經過關鍵詞提取后的文本組成了候選熱點關鍵詞集,過濾掉了大量非關鍵的高頻詞,為后續熱點關鍵詞提取準確率和整體運算效率的提高打下了基礎。

2.3 熱度計算

2.3.1 傳統TF-PDF算法

TF-PDF算法是Bun和Ishizuka提出的,其中心思想是一個熱點新聞話題必然會被多篇新聞報道,并且關于這個話題的新聞報道頻度和數量都相對較高[9]。

傳統的TF-PDF算法中,某個渠道詞匯的權重與它在該渠道出現的頻率呈線性比,與該渠道包含該詞匯的文檔比率呈指數比,詞匯的總權重為其在每個渠道的權重之和,如下所示:

(5)

(6)其中:Wj表示詞匯j的權重;Nc表示渠道C中文檔的總數量;njc表示詞匯j所在渠道包含的文檔數量;Fjc表示詞匯j在渠道C出現的頻率;D表示渠道的數量;K表示一個渠道詞匯的總數量。

2.3.2 本文熱度計算方法

文獻[10]提出了基于話題媒體關注度的計算方法。簡要地說,如果一個新聞話題在單個網站中相關新聞越多,說明此話題受到這個網站的關注程度就越高;如果一個新聞話題被越多網站報道,那這個話題被網絡媒體關注的程度越高。

結合TF-PDF算法和話題媒體關注度的思想,本文構造了關鍵詞熱度公式KHD(Keywords Hot Degree),來定量地描述關鍵詞受關注的程度。影響關鍵詞熱度的因素主要有兩點:關鍵詞相關文檔數目和詞頻。關鍵詞的熱度與其出現的頻度及其相關的文檔數成正比。關鍵詞熱越高,說明用戶對該關鍵詞的興趣越大,越容易形成熱點關鍵詞。

改進后的計算公式如式下所示:

(7)

(8)其中,KHDi為關鍵詞i的熱度;TF為候選關鍵詞的詞頻;N是文檔總數;Di是關鍵詞i的相關文檔數目;|Di|表示關鍵詞i的標準頻度,C為該文檔中的關鍵詞總數。

熱度計算模塊,使用式(7)、式(8)對候選熱點關鍵詞進行計算,選取權值排名前X的候選詞條作為熱點關鍵詞。

3 實驗結果與分析

3.1 實現流程

本文的實現流程如圖1所示。

圖1 實現流程圖

3.2 實驗數據

本文選取了一個包含2526篇文檔的測試集來檢測本文方法的有效性。測試集中的文檔是利用網絡爬蟲對多個哈語版新聞網站進行爬取獲得的,時間段為2015年5月1日-15日。

3.3 實驗結果與分析

3.3.1 關鍵詞提取結果分析

此部分我們采用了準確率、召回率、F-measure三項指標來對實驗結果進行度量。將提取結果與文章中擬定好的關鍵詞進行比較,此過程有精確匹配和近似匹配兩種方式。其中近似匹配,就是相似的或存在包含關系的詞語之間我們認為其可以匹配。

本文選用單獨基于詞頻TF和傳統TF-IDF這兩種方法作為基準方法進行哈薩克文關鍵詞提取對照性實驗。選取5個關鍵詞時,實驗結果見表1所示。

表1 基準方法和本文方法實驗結果

經過多次實驗比對發現,對關鍵詞提取結果進行近似匹配的評價更有實際意義。三種方法在近似匹配比較下的結果分析柱狀圖,如圖2所示。

圖2 近似匹配結果分析

從表1和圖2的統計結果可以看出,經過改進后的TF-IDF算法不管是精確匹配還是近似匹配,在查準率、召回率、F-measure上都高于基準算法。另外每篇文檔關鍵詞提取個數對應的準確率也做了統計,當關鍵詞提取個數為10個時,準確率達到了95.8%,證明采用每篇文章權值排名靠前的10個詞來代替原文章,作為后續熱度計算的測試集合這一方法是可行的,如表2所示。

表2 不同關鍵詞提取個數對應的查準率

3.3.2 熱點關鍵詞提取結果分析

此部分選用單獨使用改進的TF-PDF算法來進行熱點關鍵詞提取這一方法作為對照實驗。本文采用的是將兩種算法進行結合的方法,先進行關鍵詞提取再進行熱度計算,在關鍵詞提取階段采用了基于多重因子加權的TF-IDF算法,進行過關鍵詞提取后,由每篇文章權值排名靠前的10個詞來代替原文章,作為后續熱度計算的測試集合;熱度計算階段結合了TF-PDF算法和媒體關注度的思想構造了關鍵詞熱度評分公式KHD,實現對熱點關鍵詞的提取,此處計算TF時直接調用關鍵詞提取階段保存好的詞頻數據。傳統TF-PDF算法和本文方法提取出的排名前15位的熱點關鍵詞,如表3、表4所示。

表3 單獨使用TF-PDF算法提取的熱點關鍵詞

表4 本文方法提取的熱點關鍵詞

因為缺乏統一的評價標準,對得到的網絡熱點關鍵詞進行評價是比較困難的,而且目前沒有對少數民族語言的網絡熱點新聞主題進行收集分析的平臺。為驗證本文方法的有效性,選擇了新浪網的中文熱點新聞來進行比照,本文將表3、表4中提取出的哈薩克文熱點關鍵詞翻譯成中文,根據其實際意思來確定其是否在熱點新聞中出現。5月1日-15日之間各類別排名靠前的新浪網熱點新聞主題,如表5所示。

表5 新浪網熱點新聞

從表3、表4和表5可以看出,按照本文兩種算法結合的方法排名前15的熱點關鍵詞翻譯成中文后出現在了新浪網上的9個熱門新聞主題中,而單獨使用改進的TF-PDF算法排序的15個熱點關鍵詞只出現在了新浪網上的5個熱門新聞主題中,這說明本文方法在提取準確度上要優于基準方法,同時有助于熱點話題的發現。

另外,隨著文檔數目的不斷增加,本文方法在時間效率方面的優勢也得到了體現,這在大數據時代是非常重要的,如圖3所示。

圖3 基準方法和本文方法時間效率折線圖

4 結 語

本文在結合哈薩克文特點的基礎上,創新性地將TF-IDF和TF-PDF這兩種統計算法進行了有機結合,先用多重因子加權改進的TF-IDF算法進行文檔關鍵詞提取并組配,得到候選熱點關鍵詞集,為后續關鍵詞熱度計算打下了良好的基礎;熱度計算階段,結合TF-PDF算法和媒體關注度的思想,在傳統TF-PDF公式的基礎上構造了關鍵詞熱度評分公式KHD,使用此公式對候選熱點關鍵詞進行計算,選取排名前X的詞作為熱點關鍵詞。結果表明,本文方法在準確率和時間效率上都優于基準方法,并且有助于網絡輿情熱點話題的發現。文本數據的預處理過程對熱點關鍵詞提取的準確度有很大的影響,后續工作中,將結合更多哈薩克文的語言特點對文本預處理及熱點話題發現方面做進一步研究。

[1] 王立霞,淮曉永. 基于語義的中文文本關鍵詞提取算法[J]. 計算機工程, 2012, 38(1):1-4.

[2] 王錦波,王蓮芝,高萬林,等. 一種改進的樸素貝葉斯關鍵詞提取算法研究[J]. 計算機應用與軟件, 2014, 31(2):174-176,181.

[3] 林滿山,韓雪嬌,宋威. 基于多線程多重因子加權的關鍵詞提取算法[J]. 計算機工程與設計, 2013, 34 (7) : 2398-2402,2407.

[4] 李渝勤,孫麗華. 面向互聯網輿情的熱詞分析技術[J]. 中文信息學報, 2011, 25(1) : 48-53,59.

[5] 翟東海,王佳君,聶洪玉,等. 基于互信息的熱點詞發現和突發性話題檢測研究[J]. 西藏大學學報(自然科學版), 2013 ,28 (1) :82-87.

[6] 程肖. 網絡輿情熱點主題詞提取研究[D]. 杭州:杭州電子科技大學, 2010.

[7] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J]. 計算機應用, 2009, 29:167-170,180.

[8] 錢愛兵,江嵐. 基于改進TF-IDF的中文網頁關鍵詞抽取_以新聞網頁為例[J]. 情報理論與實踐, 2008, 31(6): 945-950.

[9]BunKK,IshizukaM.TopicExtractionfromNewsArchiveUsingTF-PDFAlgorithm[C]//Proceedingsofthe3rdInternationalConferenceonWebInformationSystemsEngineering, 2002: 73-82.

[10] 王永恒.海量短語信息挖掘技術的研究與實現[D]. 長沙:國防科學技術大學, 2006.

RESEARCH ON THE KAZAKH NETWORK HOT KEYWORDS EXTRACTION METHOD

Hu Bingyao Gulia·Altenbek

(CollegeofInformationScienceandEngineering,XinjiangUniversity,Urumqi830046,Xinjiang,China) (Multi-lingualInformationTechnologyLaboratoryofXinjiang,Urumqi830046,Xinjiang,China)

In order to improve the accuracy and efficiency of the hot key words extraction algorithm for minority language,a new hot keywords extracting method is proposed.Firstly,this method extracts the keywords of the preprocessed text by the improved TF-IDF weighting algorithm and tries to link them together in the light of their location and frequency information,then the candidate hot keywords are obtained.Then,it constructs the KHD (Keywords Hot Degree) formula based on the combination of TF-PDF algorithm and the thought of media attention to achieve the extraction of hotkeywords.Experimental results show that this method is feasible and effective and the extraction accuracy and efficiency has been significantly improved.

Kazakh Term frequency Document frequency Media attention Hot keywords

2015-10-09。國家自然科學基金項目(61063025,61363062)。胡冰瑤,碩士生,主研領域:自然語言信息處理。古麗拉·阿東別克,教授。

TP3

A

10.3969/j.issn.1000-386x.2017.01.008

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧美不卡视频一区发布| 国产91丝袜| 综合亚洲网| 亚洲bt欧美bt精品| 人妻夜夜爽天天爽| 国产丰满大乳无码免费播放 | 777午夜精品电影免费看| 婷婷综合缴情亚洲五月伊| 手机在线看片不卡中文字幕| 五月婷婷丁香综合| 久久国产高潮流白浆免费观看| 国产中文在线亚洲精品官网| 成人av专区精品无码国产 | 最新午夜男女福利片视频| 白浆视频在线观看| 91热爆在线| 成人在线观看不卡| 为你提供最新久久精品久久综合| av在线人妻熟妇| 中文字幕久久亚洲一区 | 国产人成在线观看| 欧美日韩亚洲国产| 小说 亚洲 无码 精品| 国产黄色片在线看| 亚洲国产精品成人久久综合影院| 免费人成又黄又爽的视频网站| 午夜精品国产自在| 国产中文在线亚洲精品官网| 日韩A∨精品日韩精品无码| 日韩高清一区 | 亚洲成人一区在线| 亚洲无线一二三四区男男| 国产成人三级在线观看视频| 久夜色精品国产噜噜| 精品亚洲国产成人AV| 亚洲日本中文字幕乱码中文 | 19国产精品麻豆免费观看| 成人毛片在线播放| 日韩二区三区无| 国产欧美日韩91| 日韩成人午夜| 亚洲天堂网视频| 亚洲第一视频免费在线| 国产精选自拍| 精品伊人久久久大香线蕉欧美| 综合色区亚洲熟妇在线| 日韩精品一区二区三区视频免费看| 国产v欧美v日韩v综合精品| 亚洲欧美日韩精品专区| 9999在线视频| 久久精品人人做人人爽电影蜜月 | 91精品国产自产在线观看| 久久99热这里只有精品免费看| 福利视频久久| 激情国产精品一区| 日韩精品亚洲人旧成在线| 久久91精品牛牛| 最新加勒比隔壁人妻| 免费观看亚洲人成网站| 亚洲天堂福利视频| 久久美女精品国产精品亚洲| 国产色伊人| 欧美在线导航| 国产精品毛片一区视频播| 久久久亚洲国产美女国产盗摄| 亚洲aⅴ天堂| 人妻无码中文字幕第一区| 国产成人亚洲无码淙合青草| 九色视频最新网址| 久久香蕉国产线看精品| 国产精品成人免费视频99| 丰满人妻一区二区三区视频| 日韩少妇激情一区二区| 亚洲男人在线天堂| 国产精品无码一区二区桃花视频| 精品午夜国产福利观看| 99成人在线观看| 色135综合网| 欧美亚洲一区二区三区导航| 免费在线国产一区二区三区精品| 伊人中文网| 欧美精品成人一区二区视频一|