999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于多重因子加權的文本特征項權值計算方法

2007-01-01 00:00:00周經野
計算技術與自動化 2007年1期

摘要:根據中文文本的特點,不僅考慮文本中詞匯概率信息,還結合文本語義等多方面信息來計算文本特征項的權值,從而提出一種基于多重因子加權的特征項權值計算方法,并給出具體算法#65377;通過與基于詞頻及基于TF-IDF的特征項權值計算方法的比較試驗,證明文中提出的特征項權值計算方法能有效提高文本聚類的正確率#65377;

關鍵詞:特征項;文本聚類;中文文本;自然語言處理

中圖分類號:TP301

文獻標識碼:A

1引言

隨著Internet的日益發展和網上各類信息的迅猛增長,文本聚類成為處理和組織大量文本數據的關鍵技術之一[1]#65377;因此,研究利用計算機進行文本聚類成為自然語言處理和人工智能領域中一項具有重要應用價值的課題#65377;

但是,在現在的文本自動信息處理的研究中,研究者往往只試圖從改進后期的處理算法來提高其效率或精度,而忽略了特征項權值計算方法的重要性#65377;因此,文章對特征項的權值計算方法進行了研究,并提出了一種基于多重因子加權的特征項權值計算方法#65377;在該方法中,首先不是簡單的依據詞頻來計算特征項的權值,而是對詞匯在文本中的出現概率及語義特點進行分析并通過多重加權的方法來確定特征項的權值#65377;文章將此特征項權值計算方法應用于文本聚類,并進行了對比實驗,實驗表明這種特征項權值計算方法提高了聚類精度#65377;這說明好的特征項權值計算方法能夠更好地反映文本類型的根本特點和屬性,對于提高文本信息處理的性能有著重要的作用#65377;

2特征項分析及多重加權

通常文本數據具有有限的結構, 甚至大部分沒有結構, 而文本的內容是用自然語言描述, 計算機無法直接理解其語義和進行相應的處理,所以需要對文本進行特征表示,抽取代表其特征的元數據#65377;在中文文本中,詞是具有獨立語義特性的最小單位,因此,在文本的特征值提取中都是按詞來抽取特征項,然后將這些特征項用結構化的形式表示#65377;目前, 在文本信息處理領域中, 向量空間模型(Vector Space Model, VSM)是應用較多且效果較好的表示方法之一[2]#65377;在VSM中,文本被形式化為多維空間中的一個點,其形式為:d=d(t1,w1,t2,w2,…,tn,wn),其中ti為特征項,wi為特征項的權值,簡記為d=d(w1,w2,…,wn)#65377;可見,向量空間模型中每一維的值表示該詞語在此文本中的權重,用以刻畫該詞語在描述文本內容時所起作用的重要程度#65377;傳統計算詞語權重的方法是詞頻,但是詞頻只是反映詞語的出現頻率,不能真正反映詞語在文本中出現的重要程度#65377;因此,文章從文本特征項的出現頻率和語義兩個角度來考慮提出了一種基于多重因子加權的文本特征項權值計算方法#65377;下面,先介紹頻率加權因子#65377;

2.1頻率加權因子

頻率加權因子是指特征項在文本中出現的概率(即詞頻)及特征項在文本集中出現的頻率(即文本頻數)兩個權重因子#65377;

將這兩個因子結合在一起,就得到了頻率加權因子的計算公式,也就通常的TF-IDF公式[3],如公式(1)所示:

其中,tf(ti,d)表示ti在文本d中出現的頻率,如果一個詞在這個文本中出現得非常多,那么它就非??赡芘c這個主題密切相關,所以重要性就高,反之重要性就低#65377;N是文本集中文本的個數,df(ti)是詞ti在文本集中出現詞ti的文本個數,N/df(ti)是逆文本頻數,說明特征項在較多的文本出現,它的重要性就越低,集中在少數文本中,就具有較高的權重#65377;

在得到w(ti,d)之后,下一步就來考慮詞語的語義信息,并且通過不斷修改權值w(ti,d)的方式來反映詞匯不同的特點#65377;

2.2語義加權因子

對于自然語言(這里指中文),詞語與詞語之間存在著大量的語義關系,如同義#65380;近義#65380;同現等,另外,詞語出現在文中的不同位置也有不同的語義特點#65377;語義分析,就是從中文文本的語義角度出發,希望能用對相應權值的改變來反映文本的語義特征#65377;文章主要從下面三個方面來將語義信息反映到向量權值中#65377;

2.2.1位置權重

國內有人抽樣統計,國內中文期刊自然科學論文的標題與文本的基本符合率為98%,新聞文本的標題與主題的基本符合率為95%[4]#65377;美國一學者進行過統計,反映主題的句子,80%出現在段首,10%出現在段尾#65377;這說明不同位置的詞對文本的作用也是不一樣的,有些詞雖然出現頻率不高,但卻很能反映文本的特性#65377;因此,對于不同位置的詞進行加權來處理#65377;位置權重設為σti,其值為:σti=1.0如果ti出現在標題中0.8如果ti出現在第一段中0.4如果ti出現在其它段中0.6如果ti出現在段尾(2)設sti為詞在相應位置出現的次數,加入了位置權重的詞權重計算公式如公式(3)所示:

2.2.2詞長權重

一般說來,短詞具有較高的頻率和更多的含義, 是面向功能的;而長詞的頻率較低,是面向內容的, 增加長詞的權重, 有利于詞匯進行分割, 從而更準確地反映出特征詞在文章中的重要程度#65377;例如,“計算機”,“電子計算機”,“數字電子計算機”三個詞專指性依次增強,而概括性依次減弱#65377;因此,長詞應該具備較高的權重,加入了詞長權重的計算公式如公式(4)所示:其中,ɑ表示詞ti的長度,如“電子計算機”中ɑ=5

2.2.3詞同現頻率

在中文文本中,句義的表達是由組成句的詞義以及詞與詞的關系表達,而同現關系是詞與詞之間最直接的關系#65377;根據文獻[5]:在同一詞中出現的所有字兩兩之間的同現關系是詞所表現的意義所在#65377;

如果兩個詞出現在同一句子中,這兩個詞具有最直接的相關性,所以文章指的同現頻率是指句內同現頻率#65377;

設詞ti在文本d中出現的總次數為si,即詞頻tf(ti,d),詞tj在文本d中出現的總的次數為sj,即詞頻tf(tj,d),詞ti與詞tj同現頻率記為sij(句內不重復計數),可知

其中,pij為詞ti與詞tj的同現概率,可知pij=pji,pii≡1#65377;

最終,在一篇文本中我們能夠得到一個詞空間內的詞與詞之間的一個同現概率矩陣,它是一 個n 行n 列的對稱矩陣,n 表示的該文本特征項的數量#65377;

利用該矩陣對w(ti,d)的權值進行修正,特征項ti的權值修正為:

這樣,對同現概率大的詞的權重就得到了加強,同現概率大就表示該詞經常修飾其他詞或被其他詞修飾,那么,就認為這是一個比較重要的詞,對反映文本的主題思想具有重要的貢獻,相應的該詞的權重應該得到加強,并且與之關聯比較大的詞的權重也得到了加強,新得到的文本特征描述蘊涵了詞的同現特點,突出了該文本的語義信息,與人的思維習慣相符#65377;

2.3基于多重因子加權的特征項權值計算算法

設待聚類的文本集為D, D={d1,d2,…,dN},N為文本集中的文本個數,文本集中的特征項集為T,特征項權值計算方法如下:

對于每個tr∈T,其中r=1,…,v#65377;

步驟1 計算tr在di中出現的次數及它與其它詞同時出現在一個句子內的次數,在文本集D中出現該詞的文本數及位置信息以及tr的詞長ɑ;

步驟2 分別計算出tr的詞頻tf(tr,di)#65380;文本頻數df(tr);

步驟3 利用詞頻和文本頻數計算tr的權值w(tr,di) (公式(1));

步驟4 利用步驟1中給出的位置信息,計算加入了位置權重的特征項的權值(公式(2))

步驟5 利用步驟1計入的詞長,擴充w(tr,di) (公式(3),(4));

步驟6 計算tr的同現概率矩陣(公式(5),(6));

步驟7 根據詞的同現頻率矩陣修正w(tr,di)((公式(7));

步驟8 tr的最終權值為w(tr,di),程序結束#65377;

3實驗與結果

文本來源:人民網(www.people.com.cn)聚類算法:k-means聚類算法;

評價指標:F-meɑture=2×準確率×查全率準確率+查全 率;

測試結果:如表1所示#65377;表1比較實驗結果基于詞頻的特征 項權值計算方法基于TF-IDF的特征項權值計算方法基于多重因子加權的特征項權值計算方法類型名稱文本數目測試分析:從實驗結果可以看出,基于多重因子加權的特征項權值計算方法的準確率要比基于詞頻的特征項權值計算方法的F—measure值平均高15~20個百分點;比基于TF-IDF的特征項權值計算方法的F—measure值平均高6~10個百分點#65377;

當然,文中采取k-means算法來聚類,由于k-means算法是隨機選擇初始聚類中心,使得在聚類時正確率并不是很好,這些方面將在今后的工作中加以改進#65377;

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 亚洲综合色婷婷中文字幕| 一本色道久久88亚洲综合| 国产麻豆91网在线看| 综合色区亚洲熟妇在线| 欧美不卡在线视频| 亚洲天堂精品视频| 亚洲一区毛片| 色妞www精品视频一级下载| 国产成人a在线观看视频| 久久这里只有精品66| 日韩二区三区| aⅴ免费在线观看| 亚洲天堂在线免费| 在线精品视频成人网| 免费观看亚洲人成网站| 手机精品福利在线观看| 亚洲一区二区无码视频| 孕妇高潮太爽了在线观看免费| 久热中文字幕在线| 国产福利免费视频| 国产成人夜色91| 成人午夜精品一级毛片| 欧美成人综合视频| 午夜精品一区二区蜜桃| 国产主播在线一区| 亚洲性视频网站| 日韩精品一区二区三区中文无码| 亚洲一区网站| 91av成人日本不卡三区| 日韩色图区| 国产美女一级毛片| 国产在线自乱拍播放| 中文字幕日韩久久综合影院| 一本大道视频精品人妻| 国产高清在线丝袜精品一区| 国产福利在线观看精品| 激情国产精品一区| 日韩精品久久无码中文字幕色欲| 第九色区aⅴ天堂久久香| 不卡视频国产| 一级成人a做片免费| 重口调教一区二区视频| 2021国产精品自产拍在线观看 | 亚洲国产精品一区二区第一页免| 自慰网址在线观看| 亚洲色图另类| 国产欧美日韩va另类在线播放| 亚洲精品国产精品乱码不卞| 91午夜福利在线观看| 福利小视频在线播放| 亚洲天堂区| 欧美亚洲欧美| 欧美综合区自拍亚洲综合绿色| 亚洲国产综合自在线另类| 国产精品视频系列专区| www.youjizz.com久久| 国产一区二区三区免费观看| 久久一日本道色综合久久| 日本人又色又爽的视频| 亚洲成人高清在线观看| 国产在线视频二区| 免费午夜无码18禁无码影院| 欧美一级在线播放| 99久久99视频| 国内黄色精品| 久久综合伊人77777| 在线一级毛片| 午夜免费小视频| 亚洲国产日韩在线成人蜜芽| 成人日韩精品| 国产精品第三页在线看| 欧美中出一区二区| h视频在线观看网站| 国产麻豆aⅴ精品无码| 免费va国产在线观看| 午夜人性色福利无码视频在线观看| 四虎亚洲国产成人久久精品| 欧美怡红院视频一区二区三区| 欧美日韩在线第一页| 中文国产成人久久精品小说| 四虎在线高清无码| 亚洲精品日产AⅤ|