999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯網新聞話題特征選擇與構建

2015-12-25 08:07:04趙旭劍鄧思遠李波張暉楊春
軟件 2015年7期

趙旭劍++鄧思遠++李波++張暉++楊春明++喻瓊++王耀彬

摘要:新聞話題的特征表示是建立話題模型以及進行話題聚類(融合)的基礎,傳統的特征構建一般采用關鍵字構成的向量表示模型,未對特征的選取、分類以及質量等方面進行完整的研究,因此本文擬針對互聯網新聞文檔進行特征提取、特征構建以及話題聚類質量分析等方面的系統研究,闡明話題特征的選擇與構建對文本話題研究的影響,為后續的話題檢測與追蹤等應用提供更科學的特征理論模型。實驗結果表明經過話題特征優選后的聚類效果有助于提高話題模型的準確性,避免噪聲特征帶來的話題歧義。

關鍵詞:話題特征;話題模型;話題聚類;特征選擇

中圖分類號:TP391

文獻標識碼:A

DOI: 10.3969/j.issn.1003-6970.2015.07.004

0 引言

信息技術的快速發展以及互聯網的迅速普及,在線新聞文檔數據成爆炸式增長。然而,這些文檔數據大部分是半結構化或者非結構化的文本數據,人們要想從中快速、準確地找到自己所想要的內容極其困難。因此,如何合理、有效地組織和管理這些信息,從而提高人們檢索數據的速度和準確程度,已經成為信息檢索和數據挖掘領域中的熱點課題,文本聚類和分類作為處理這一難題的有力手段,已經成為研究的熱點課題。文本聚類、分類等針對互聯網新聞的分析和挖掘技術在推薦系統、信息過濾、輿情分析和個性化推薦等領域具有較高的應用價值。實現對新聞話題的挖掘應用,需要首先對新聞報道構建話題模型,將話題轉化為可進行計算和比較的信息表示模型,因此,如何有效選擇話題特征構建話題模型將對互聯網的新聞話題挖掘研究產生重要影響。

有效的特征選擇方法不僅可以降低文本的特征向量維數,刪除冗余特征,保留類別區分能力較強的特征,而且在處理非平衡數據集分類時,也應該能夠克服類別當中特征分布不平衡的問題,提高正類樣本的識別率,從而有助于提高分類器的整體性能;合理的特征加權方法可以扼制噪聲特征對分類的負面影響,并將特征代表文檔屬于某個類別的能力差別最大化。從話題模型的類別來看,目前話題特征的選擇主要采用三種方式。首先,作為信息檢索領域一種重要的文本表示模型,向量空間模型(Vector Space Model, VSM)以其結構簡單、方便計算等特點得到了諸多學科和應用的廣泛關注,該模型主要采用詞項作為話題特征,而概率主題模型(Probabilistic Topic Model,PTM)則根據詞項、文檔和話題三者的貝葉斯概率來表示話題特征,具有扎實的數學基礎。詞項與詞項之間的語義關聯體現了話題的線索,因此,采用詞匯鏈的方式構建話題特征也具有一定代表性。然而,傳統的話題特征選擇方法未闡明特征選擇與構建對話題挖掘性能的影響,沒有考慮特征的分類和選擇策略,針對該問題,本文擬針對互聯網新聞文檔進行特征提取、特征構建以及話題聚類質量分析等方面的系統研究,建立面向互聯網新聞話題的話題特征選擇和構建機制,為話題挖掘研究提供科學的特征模型。

1 話題特征提取

對于新聞文檔,我們采用報道中的詞項作為話題特征的基本對象,通過對詞項的選擇構建新聞報道的話題特征。因此,本文首先利用自然語言處理技術對新聞文本進行話題特征提取。

1.1 停用詞過濾和命名實體識別

在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。對于一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'iS'、at、'which'、'on'等。另一類詞包括詞匯詞,這些詞應用十分廣泛,但是對詞搜索引擎無法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索范圍,同時還會降低搜索的效率,所以通常會把這些詞從文本中移去,從而提高搜索性能。中文中常見的停用詞包括“一下”,“一直”,“三番兩次”,“不僅…而且”,“具體地說”等等。

而命名實體識別(NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。本文正是基于不同命名實體的類別,并結合詞項的其余特征,進行話題特征的選擇,因此,命名實體的識別性能將影響話題特征的選擇。命名實體識別的過程通常包括兩部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構名或其他)。英語中的命名實體具有比較明顯的形式標志(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加復雜,而且相對于實體類別標注子任務,實體邊界的識別更加困難。

1.2 詞性標注

詞性標注即判定給定句子中每個詞的語法范疇,確定其詞性并加以標注的過程。因為在中文中一個詞語往往會有很多種詞性,為了更加精準的區分每個詞在句中的含義,所以我們需要使用詞性標注。在本文的研究中,我們認為詞性體現了話題的語義信息,通過對詞項詞性進行篩選,有助于提高話題特征的準確性。針對600篇中文新聞的新聞標題,我們進行了中文分詞和詞性標注,得到如表1所示的統計結果。從表格數據不難發現新聞核心四元素主要集中來源于五類詞語,即名詞、動詞、非謂語形容詞、時態詞以及數詞。因此,對于標注后的結果我們只需要關注以上五類詞語,在細化抽取對象的同時排除助詞、連詞等噪聲詞語對于話題抽取的干擾。

1.3 特征權重計算

構建話題特征模型后,每一維特征值根據詞項的TF-IDF模型計算得到。文檔的權重向量d表示為 ,其中

是詞組t在文檔d中出現的頻率(一個局部參數), 可是逆向文件頻率(一個全局參數),IDI是文件集中的文件總數, 是含有詞組t的文件數。因此,文件 和q之間的余弦相似度可通過公式3計算得到。

主站蜘蛛池模板: 亚洲另类第一页| 无码AV高清毛片中国一级毛片| 波多野结衣无码中文字幕在线观看一区二区 | 国产精品欧美亚洲韩国日本不卡| 国产精品美人久久久久久AV| 久久这里只精品国产99热8| 国内精品小视频福利网址| 九色综合伊人久久富二代| 97青青青国产在线播放| 啪啪免费视频一区二区| 亚洲精品视频免费| 久久亚洲国产一区二区| 欧美激情视频一区二区三区免费| 日韩av资源在线| 91精品网站| 亚洲视频免费播放| 乱人伦中文视频在线观看免费| 亚洲综合18p| 中文国产成人精品久久| 国产成人91精品免费网址在线| 色综合天天视频在线观看| 中国特黄美女一级视频| 在线免费亚洲无码视频| 亚洲欧洲日韩久久狠狠爱| 亚洲精品无码久久毛片波多野吉| 国产黄色片在线看| 国产亚洲现在一区二区中文| 人人91人人澡人人妻人人爽| 99在线视频精品| 亚洲精品在线91| 欧美日韩亚洲综合在线观看 | 成人午夜久久| 人妻中文久热无码丝袜| 欧美午夜理伦三级在线观看| 成人在线视频一区| 日日噜噜夜夜狠狠视频| 亚洲男人在线| 免费在线色| 美女国产在线| 国产激爽大片高清在线观看| 亚洲欧美在线综合图区| 国产91特黄特色A级毛片| 中美日韩在线网免费毛片视频 | 国内毛片视频| 99热最新网址| 久久精品免费看一| 一级毛片免费不卡在线| 91久久偷偷做嫩草影院| 国产丝袜无码精品| 九九九久久国产精品| 热久久综合这里只有精品电影| 国产精品久久久久无码网站| 九九九九热精品视频| 色首页AV在线| 国产精品原创不卡在线| 欧美在线网| 2022精品国偷自产免费观看| 久久国产乱子伦视频无卡顿| 尤物精品视频一区二区三区| 激情影院内射美女| 久久香蕉欧美精品| 国产毛片高清一级国语| 国产成人8x视频一区二区| 狠狠v日韩v欧美v| 国产男人的天堂| 为你提供最新久久精品久久综合| 亚洲国产成人精品无码区性色| 亚洲中文制服丝袜欧美精品| 亚洲精品免费网站| 国禁国产you女视频网站| 69综合网| 色哟哟国产精品| 精品一区二区三区水蜜桃| 2048国产精品原创综合在线| 国产制服丝袜91在线| 毛片一级在线| 在线a视频免费观看| 亚洲精品欧美重口| 国产成人一区在线播放| 久久久久亚洲精品无码网站| 久久天天躁狠狠躁夜夜躁| 久久国产高潮流白浆免费观看|