999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向互聯網新聞的話題檢測與追蹤

2011-01-01 00:00:00許志凱徐志明李棟李生
智能計算機與應用 2011年3期

摘要: 為了更加準確有效地從海量的互聯網網頁中獲取感興趣的信息,設計并實現了一個面向互聯網新聞的話題追蹤與檢測系統,并在該系統的基礎上提出了面向海量互聯網網頁時話題檢測中聚類算法選擇策略以及一個基于多重特征的話題追蹤模型,該模型能夠很好地區分相似與相同的話題,并且話題追蹤正確率達到了85.7%,實驗結果表明文中系統能夠有效地檢測和追蹤互聯網上的話題。

關鍵詞:

中圖分類號: TP391 文獻標識碼:A 文章編號:2095-2163(2011)01-0059-04

0引言

互聯網因其時效性強,交互性好等特點,已經成為人們日常獲取信息的重要途徑,但是面對每天新增的海量的互聯網網頁,人們往往難以從中準確有效地獲取到自己感興趣的信息,在這種情況下,話題檢測與追蹤受到了越來越多研究者的關注。

話題檢測與追蹤的主要任務是在缺乏話題先驗知識的前提下,檢測出系統未知的話題,并追蹤已知話題的后續報道,所以話題檢測和追蹤系統必須在假設沒有話題的先驗知識的前提下構造話題模型,并且該模型必須適用于所有話題,而不是局限于某一話題[1]。在這一領域已經有很多研究者做了許多深入的工作,KUMARAN[2]用自然語言處理的技術輔助統計策略來提高話題檢測和追蹤的正確率,并驗證了命名實體名詞對區分不同的話題有著重要的作用;PAPKA[3]對話題檢測中不同的聚類算法進行了對比研究,并提出了一種融合各自優點的聚類策略;ALLAN J[4]的話題追蹤系統嵌入了自學習模塊,利用后續報道更新話題模型;YANG[5]在計算兩個話題相似度時引入了時間衰減函數。相對于國外學者更側重于以統計概率模型為主體進行的研究,國內學者的研究則主要側重于研究話題檢測與追蹤本身的特點。賈自艷等[6]提出標注時間、地點、人物等命名實體,在權重計算時提高命名實體的權重系數;駱衛華[7]針對層次化話題模型進行了研究;宋丹[8]則基于地點名詞建立地理樹,并根據地點名詞在地理樹中的路徑覆蓋率來計算兩個話題的相似度。

基于以上討論,可以看出目前國內外的研究主要集中在話題檢測與追蹤(TDT)評測數據上,而面向互聯網新聞的話題檢測與追蹤的研究卻較少。雖然一系列改善話題檢測和追蹤效果的模型及算法被相繼提出,有效地提高了話題檢測與追蹤的正確率,但是這些模型大多只適用于評測數據,并不能完全適用于互聯網的海量數據。針對互聯網上的新聞報道冗余性高、數據量大、易漂移,持續時間長等特點,本文進行了面向互聯網新聞的話題檢測與追蹤系統研究,實驗結果證明文中的系統達到了實用的程度,能夠正確地檢測并追蹤到互聯網上出現的熱點話題。

1話題檢測與追蹤

本文所討論的面向互聯網網頁的話題檢測和追蹤系統主要包含:數據層、話題層、分析層、用戶層等模塊,如圖1所示。

1.1數據層

數據層的任務是抽取爬蟲抓取到的互聯網網頁中新聞正文文本、標題、時間、URL等結構化信息,然后進行分詞、

過濾停用詞、詞性標注等處理。因為新聞報道中最重要的是人物、時間、地點等命名實體,所以在此引入了命名實體識別的工具來標示命名實體。

1.2話題層

1.2.1向量空間模型(VSM)

話題層的輸入是經過數據層預處理后的新聞文本集合?;跁r間與正確率的考慮,采用向量空間模型來表示新聞文本。假設Di是一個預處理后的新聞文本,則Di可以表示為(term1,wi1;term2,wi2,…;termk,wik)。wik表示第k個詞在文檔Di中的權重,采用公式(1)中定義的TF?觹IDF公式來計算特征詞的權重wik。

式中,tfik代表termk在新聞文本Di中出現的次數,idfk代表termk在所有文檔中出現的次數。

在經過對大量新聞語料的分析后,發現人物、地點和時間等命名實體是區分不同新聞文本的重要因素[2],而一篇新聞的標題往往就是一篇新聞文本的主旨,所以本文在計算權重時增加了這些詞在相應文檔中的權重,采用了如公式(2)所示的改進的TF?觹IDF計算公式。

式中,采用權重系數W來控制wik的大小。在計算命名實體以及新聞標題權重時,需賦予W>1,以提高這些詞在相應的文檔中的權重;N代表新聞文檔的總數。

1.2.2話題檢測

話題檢測的關鍵技術是文檔聚類算法[9],聚類算法的選擇直接影響到話題檢測的正確率和召回率。與傳統的TDT評測數據相比,本文所處理的海量的新聞文本具有冗余性高、數量龐大、動態更新的特點。

針對互聯網海量網頁的這些特點,對各種聚類算法進行了深入的研究:基于劃分的方法需要預先提供劃分的個數;基于密度的方法時間復雜度為O(n2);基于網格的方法算法效率較高,但是聚類的精確度較低[3],等。綜合評判后,文中選用了BIRCH(Bala-nced Iterative Reducing and Clustering using Hierarchies)聚類算法[10],因其較好地滿足了研究工作的要求:

首先,BIRCH是一種層次聚類算法,不需要預先給出劃分的個數,滿足互聯網上每天產生的熱點話題數目不固定的要求。

其次,BIRCH聚類算法的I/O花費與數據量成線性關系,因此BIRCH算法的聚類速度較快,滿足互聯網上每天海量網頁、大數據量、高復雜性的要求。

最后,BIRCH聚類算法具有增量式聚類的特性,當遇到新的文檔集時,不需要全部重新聚類,滿足話題隨著時間而動態更新的需求。

1.2.3話題追蹤

話題追蹤是整個系統的核心部分,其流程如圖2所示。

話題追蹤的主要任務是:判斷一個話題是否為已有話題。如果是已有話題,則更新該話題信息;反之,如果是首次出現的話題,則將其添加到已有話題集。

話題追蹤的關鍵技術是話題間的相似度計算。一個有效的度量兩個話題之間相似度的方法是:如果兩個話題在“距離”上越近,則其相似度就越高。基于這個原理,采用了余弦相似度計算公式,即兩個話題ti,tj之間的相似度定義如公式(3)所示。

式中,wki是第k個詞 在話題 i中的權重,wkj是第k個詞在話題j中的權重.。

經過實驗后,分析可知兩個話題發生的時間間隔越小,是同一話題的概率就越高[5]。基于上述原理,引入了如公式(4)所示的時間衰減函數。

T(ti,tj)=1-tm (4)

公式中,參數m是衰減因子,用來控制衰減速度和話題追蹤的最大間隔時間,t代表了兩個話題的間隔時間。最終的兩個話題之間的相似度計算公式如公式(5)所示。

sim(ti,tj)=cos(ti,tj)+T(ti,tj)(5)

由進一步的實驗分析獲知:采用公式(5)仍難以區分相似與相同的話題,再經過大量的語料分析,推證可得:命名實體與其他詞在確定一個話題時起著不同的作用。命名實體主要描述話題中的時間、地點、人物信息,而其他詞則主要描述話題中發生了什么。通過上述分析,提出了基于多重特征的話題追蹤模型來計算兩個話題的相似度,特征定義如下所示。

(1)利用話題中所有的詞,計算兩個話題的相似度,定義為d1;

(2)利用話題中命名實體,計算兩個話題的相似度,定義為d2;

(3)利用話題中命名實體以外的詞,計算兩個話題的相似度,定義為d3。

話題相似度的綜合計算公式如公式(6)所示。

d=(d1>λ1)∧(d2>λ2)∧(d3>λ3) (6)

λ1,λ2,λ3是設定的閾值,只有公式(6)中的三個特征都滿足閾值要求時,即d=1,才認為兩個話題描述的為同一話題;如果d=0,就認為兩個話題不是相同話題。第三部分的實驗證明,本文的話題追蹤模型能夠有效地區分相似與相同的事件,正確地追蹤互聯網上已經出現的話題。

1.3分析層

在分析層中,系統根據話題的上榜天數、報道數目等信息計算話題的熱度,話題的熱度計算公式如(7)所示。

公式中,參數t代表時間單元的總數,ni代表時間單元i內新聞報道的總數,hi代表時間單元i內話題新聞報道的數目,λ是調整因子,ti代表話題出現的時間單元的數目。在此基礎上,系統可以根據話題熱度指數、新聞報道數量的變化預測話題下一步的發展趨勢。

1.4用戶層

在用戶層中,管理員可以管理自動生成的話題,比如更正話題的摘要、編輯話題的其他信息,增加編輯選擇等。普通用戶可以通過可視化界面查閱系統檢測和追蹤到的熱點話題。

2實驗分析

本文采用騰訊新聞頻道報道的從2011-04-01至2011-04-10的8 478個新聞文本作為實驗數據。

為了評估系統話題檢測模型的效果,本文采用人工識別的話題作為參考標準,采用正確率(正確識別的話題/識別到的所有話題)和錯誤關聯率(被錯誤分類的文檔/總文檔數)來評估文中的系統,得到話題檢測的正確率為85.3%,錯誤關聯率為5.52%。因此認為該系統達到了實際應用的水平。

為了評估基于多重特征的話題追蹤模型(記為M2)的效果,本文選擇只基于話題中所有詞這一單一特征的話題追蹤模型(記為M1)作為比較對象,用正確率、召回率以及F值來評價文中的模型。每兩天對話題追蹤的結果做一次統計,所得曲線圖如圖3所示,表1是從2011-04-01到2011-04-10對話題追蹤進行統計得到的結果。圖4則是由文中設計系統檢測和追蹤到的兩個熱點話題。

開展研究的目的是為了幫助用戶更加快速有效地從互聯網中獲取感興趣的信息,而用戶往往只關心幾個熱點的

話題,所以相對于系統的召回率,用戶更加關心系統的正確率。從圖3中,可以看到從2011-04-01到2011-04-10,每次話題追蹤的正確率與F值均有不同程度的提高,而且通過統計這10天的話題追蹤結果(如表1所示),可以看到話題追蹤在召回率基本不變的情況下,正確率提高了9.78%,F值也有顯著的提高,這得益于文中系統正確地區分了相似的話題與相同的話題。實驗結果證明此系統可以有效地追蹤到互聯網上出現的話題,滿足了實際應用的要求。

3結束語

本文設計并實現了一個面向互聯網新聞的話題檢測與追蹤系統,該系統能夠適應互聯網上的新聞事件冗余性高、數據量大、易漂移、持續時間長的特點,在系統中選擇了BIRCH聚類算法用于話題檢測,并提出了一個基于多重特征的話題追蹤模型。實驗結果表明系統達到了實用的程度,能夠有效地檢測和追蹤到互聯網上出現的話題,從而幫助用戶更加快速有效地獲得感興趣的信息。

參考文獻:

[1] 洪宇,張宇,劉挺,等. 話題檢測與追蹤的評測及研究綜述[J].中文信息學報,2007,11(6):71-87.

[2] KUMARAN G,ALLAN J. Text classification and named entit- ies for new event detection[C]// Proceedings of the SIGIR Con- ference on Research and Development in Information Retrieval. Sheffield, South Yorkshire: ACM, 2004:297-304.

[3] Ron PAPKA. On-line New Event Detection, Clustering and T- racking [D]. Amherst: Department of Computer Science, UMA- SS, 1999.

[4] ALLAN J,LAVRENKO V,FREY D,et al. UMass at TDT 20- 00[C]// Proceedings of Topic Detection and Tracking Workshop. USA: National Institute of Standar and Technology, 2000:109- 115.

[5] YANG Y, PIERCE T,CARBONELL J. A study on Retrospec- tive and On-Line Event detection[C]// Proceedings of the 21st annual international ACM SIGIR conference on Research anddevelopment in information retrieval. CMU,USA:ACM,1998:28- 36.

[6] 賈自艷,何海,張俊海,等. 一種基于動態進化模型的事件探測 和追蹤算法[J]. 計算機研究與發展,2004,41(7):1273-1280.

[7] 駱衛華,劉群,程學旗. 話題檢測與跟蹤技術的發展與研究[C]// 全國計算語言學聯合學術會議(JSCL-2003)論文集. 北京:清 華大學出版社,2003:560-566.

[8] 宋丹,衛東,陳英. 基于改進向量空間模型的話題識別與追蹤 [J]. 計算機技術與發展,2006,9(16):62-67.

[9] MEYER zu EISSEN S,STEIN B. Analysis of clustering algo- rithms for web-based search [J]. Lecture Notes in ComputerScience,2002, 2569:168-178.

[10] ZHANG Tian, Raghu Ramakrihnan and Miron Livny. BIRCH:A New Data Clustering Algorithm and Its Applications[J]. D-ata Mining and knowledge discovery, 1997,1(2):141-182.

主站蜘蛛池模板: 青青草91视频| 免费观看欧美性一级| 亚洲精品自拍区在线观看| 亚洲无码高清视频在线观看| 国产美女91呻吟求| 国产无吗一区二区三区在线欢| 亚洲精品午夜天堂网页| 亚洲欧美日韩另类| 91国内外精品自在线播放| 国产主播在线观看| 免费看美女毛片| 成人国产精品视频频| 99er这里只有精品| 久久综合色视频| 中文字幕伦视频| 国产成人免费手机在线观看视频| 亚洲综合色区在线播放2019| 色婷婷啪啪| 日韩在线欧美在线| 日本午夜影院| 正在播放久久| 激情亚洲天堂| 亚洲浓毛av| 日韩A∨精品日韩精品无码| 伊人激情综合网| 国产在线无码一区二区三区| 91无码视频在线观看| 亚洲国产精品无码AV| 亚洲福利网址| 91精品国产综合久久香蕉922| 在线欧美日韩| 日韩视频福利| 国产乱人激情H在线观看| 精品国产一区二区三区在线观看 | 国产91小视频在线观看| a级毛片网| 色香蕉影院| AV天堂资源福利在线观看| 国产综合另类小说色区色噜噜| 成人毛片免费在线观看| 亚洲综合极品香蕉久久网| 日韩中文字幕亚洲无线码| 毛片在线区| 中文字幕在线一区二区在线| 色综合中文综合网| 亚洲AV无码久久精品色欲| 丰满人妻久久中文字幕| 免费女人18毛片a级毛片视频| 国产精品区视频中文字幕| 亚洲一区二区三区在线视频| 亚洲欧洲日本在线| 欧美中文字幕在线视频| 丁香六月综合网| 精品国产成人三级在线观看| 国产人前露出系列视频| 全色黄大色大片免费久久老太| 国产性生大片免费观看性欧美| 国产欧美日韩视频怡春院| 熟妇丰满人妻av无码区| 激情综合激情| 亚洲日本一本dvd高清| 国产91视频免费| 午夜视频www| 亚洲一级毛片在线播放| 国模视频一区二区| 免费国产高清视频| 精品少妇人妻无码久久| 欧美日韩中文国产va另类| 欧美一区二区三区香蕉视| 激情无码字幕综合| 欧美一区精品| 最新国产网站| h视频在线播放| 亚洲欧美h| 精品国产www| 波多野结衣在线se| 久久中文字幕2021精品| 日韩精品无码免费专网站| 欧美成a人片在线观看| 视频一本大道香蕉久在线播放| 女人18毛片水真多国产| 亚洲精品综合一二三区在线|