999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于瑤湖論壇的關鍵字搜索的應用與研究

2014-04-29 00:44:03孫飛謝旭升
電子世界 2014年17期

孫飛 謝旭升

【摘要】本文是基于瑤湖論壇的關鍵字搜索應用,在進行文本的選擇與分詞、關鍵字權重的計算、文本向量空間模型的表示和帖子分類算法的選擇上都充分考慮了論壇的性質,并且在分詞時增加了人工干預的形式,使得更好的滿足論壇的需要。

【關鍵詞】關鍵字搜索;中文分詞;文本聚類

1.引言

隨著科技的發展,計算機技術的應用也越來越普及,中文分詞、文本分類,信息檢索等各項技術在各大搜索引擎公司都得到了很好的應用,但是商業引擎的處理信息量大,處理文本的信息各種各樣,它們有很強的通用性,但對于特定的領域或者特定信息空間的處理確有很大的提升空間[1]。本文基于瑤湖論壇,根據論壇的特點,在文本的分詞、文本的向量模型表示、文本分類算法的選擇等方面都因地制宜的進行了改動,以期望達到更好的效果。

2.文本的分詞與關鍵字權重的計算

2.1 文本內容的選取

提取計算帖子中關鍵字對帖子內容而言所承載的信息量,和建立帖子空間向量模型的第一步是對帖子文本內容進行分詞。在文本內容的選取上,充分考慮到論壇中帖子的語言表達方式基于學生生活用語,并且帖子的文本篇幅長度較短,同時對于帖子的回帖,其內容較為固定和單一,帖子之間的區分度不高,噪聲較大。所以只將帖子的標題和帖子的內容作為帖子的文本信息進行分詞。

2.2 分詞工具的選擇

我們將IK Analyzer作為分詞工具對取得的文本信息進行處理,IK Analyzer是一個開源的,基于java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經推出了4個大版本。最初,它是以開源項目Luence為應用主體的,結合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始,IKAnalyzer發展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優化實現。在2012版本中,IKAnalyzer實現了簡單的分詞歧義排除算法,采用了特有的“正向迭代最細粒度切分算法”,支持細粒度和智能分詞兩種切分模式,詞典支持中文、英文、數字混合詞語。

2.3 關鍵字權重的計算

查詢中每一個關鍵字的權重應該反映這個詞對于查詢來講提供了多少信息,搜索關鍵字權重的科學度量是TF-IDF。其主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TF-IDF實際上是:TF×IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。一篇帖子中關鍵字的權重公式如公式(1)所示。

(1)

其中|D|為語料庫中的文件總數,表示包含詞語ti的文件數目(即的文件數目)如果該詞語不在語料庫中,就會導致被除數為零,因此一般情況下使用都會加上1。并且由于文本長度的不同進行了歸一化處理。

2.4 分詞與關鍵字權重中的人工干預

由于中文特殊的語言語境模式,雖然中文分詞已經取得很大的發展,但是但無論按照人的智力標準,還是同實用的需要相比較,差距還很大。為了彌補機器分詞的不足,我們先將文本內容進行分詞并計算出每個詞語的IDF值,將IDF值大于一定閾值的設為關鍵字,存入關鍵字表,將IDF值小于一定閾值的設為停止詞,這些詞大部分是沒有意義的虛詞。并且提供了可以通過的導入關鍵字詞典和停止詞典及修改詞典的方式來輔助分詞器在分詞時判斷哪些詞可以作為關鍵字,并且將停止詞典中的詞語作為無意義的詞而忽略掉。其后臺處理界面如圖1所示。

圖1 后臺處理界面

3.文本向量空間模型的建立與分類

3.1 文本向量空間模型的建立

最常用的文本表示模型是G..Salton在1975年提出的向量空間模型(VectorSpaceModel),其基本思想是把文本d看作向量空間中的一個n維向量(w1,w2,w3...wn),其中w1,w2,...wn為表示該文本的n個特征所對應的權重,一般取為詞頻的函數。文本分類的第一步是對文本集進行基于詞典的分詞處理。由于通用的的詞典收錄詞條數共有116921,如果把每個帖子表示成一個116921維的向量,由于帖子文本內容較少且語言較為生活化,所以很多詞語都不會在帖子中出現,導致生成的向量極為稀疏,浪費的存儲空間,影響了分類時的計算效率和分類精度,所以要進行文本的特征選擇[2]。

常用的文本特征選擇的方法有很多,如信息增益、期望交叉熵、互信息、文檔頻率[3],其核心都是基于信息論,基本思想都是對每一個特征中文詞,計算某種統計度量值,然后設定一個閾值T,把度量值小于T的那些特征過濾掉,剩下的即認為是有效特征。我們第二小節已經做了相關的工作[4],通過設置停止詞典的方式,在分詞時忽略了很多沒有意義的虛詞,有效的降低了文本向量的維度。將帖子文本的結果按照“關鍵字=tfidf值”的形式表示成空間向量存入SQL Server數據庫中。部分數據如圖2所示。

圖2 帖子的向量空間模型的存儲

3.2 帖子文本的聚類

將主題內容相似的帖子分成一類,實現上認為同一類的帖子含有的相同的關鍵字就較多。以此思想對帖子進行分類。帖子的相似度就表示為兩個帖子的余弦值,既有:

(2)

圖3 帖子之間的余弦值

通過對論壇的一定帖子之間余弦值的計算和前期人工類別的核實發現當閾值大于0.18時,帖子之間表現出了一定的相關性。部分數據如圖3所示。

文本分類是事先定義好類別,類別數不變。分類器需要由人工標注的分類訓練語料訓練得到,由于論壇中帖子的文本內容隨意且文本長度較短,單一類型的特征向量難以確定,類別數也不好判斷,所以我們使用聚類的方法來處理,將比較相似的文章或文本信息歸為同一組。文本的聚類算法采用K-means算法,是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大[5]。算法過程如下:

(1)從n個數據對象任意選擇k個對象作為初始聚類中心。

(2)根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分。

(3)重新計算每個(有變化)聚類的均值(中心對象)。

(4)循環(2)到(3)直到每個聚類不再發生變化為止。

根據上面的理論基礎,在NetBeans平臺下用java實現了該系統的的相關功能,界面截圖如圖4所示。

圖4 關鍵字搜索界面

4.結束語

本文的應用是基于特定的論壇,在系統實施的每個方面如文本的分詞、關鍵字權重的計算、文本向量空間模型的建立、分類算法的選擇都充分的考慮的論壇的性質,并且增加了人工干預的方式,使得應用更加靈活和準確。但是限于原始帖子的測試數據較小,從論壇抓取的數據類型還不夠多樣,導致在帖子分類算法的選擇上沒有提供很好的參照。系統的完善和改進將是我們下一步的工作。

參考文獻

[1]李銀松,施水才等.用戶興趣分類在個性化搜索引擎中的應用[J].情報學報,2008,27(4):535-540.

[2]孫建濤.Web挖掘中的降維和分類方法研究.北京:清華大學計算機科學與技術系,2005.

[3]YangYiming,Pederson J O.AComparative Study on Feature Selection inText Categorization[A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.

[4]余俊英.文本分類中特征選擇的研究.江西:江西師范大學計算機信息工程院,2007,36(l):35-41.

[5]姚明宇,皮德常等.基于k-means的中文文本聚類算法[A].Proceedings of 2010 International Conference on Services Science,Management and Engineering(Volume 2)[C].2010.

作者簡介:

孫飛(1988—),男,江蘇人,碩士研究生,現就讀于江西師范大學計算機信息工程學院。

謝旭升(1963—),男,江西人,教授,現供職于江西師范大學計算機信息工程學院,主要研究方向:分布式數據庫。

主站蜘蛛池模板: 亚洲三级视频在线观看| 国产精品自在在线午夜| 国产二级毛片| 久久香蕉国产线看观看精品蕉| 露脸真实国语乱在线观看| 丁香婷婷久久| 色悠久久久| 国产96在线 | 中文字幕中文字字幕码一二区| 永久毛片在线播| 亚洲人妖在线| 亚洲91在线精品| 十八禁美女裸体网站| 成人噜噜噜视频在线观看| 美女高潮全身流白浆福利区| 亚洲色欲色欲www网| 久久婷婷五月综合色一区二区| 毛片在线播放a| 国产女人在线| 日韩精品亚洲人旧成在线| 国产浮力第一页永久地址| www亚洲精品| 国产精品30p| 婷婷色婷婷| 精品视频第一页| 国产视频欧美| 操操操综合网| 人妻丰满熟妇αv无码| 影音先锋亚洲无码| 青草视频网站在线观看| 国产菊爆视频在线观看| 欧美a在线| 扒开粉嫩的小缝隙喷白浆视频| 国产va免费精品观看| 国产精品久久国产精麻豆99网站| 免费无码网站| 亚洲免费人成影院| 亚洲欧洲一区二区三区| 大乳丰满人妻中文字幕日本| 欧美曰批视频免费播放免费| 久久国产精品波多野结衣| 久久综合丝袜长腿丝袜| 国产乱人伦AV在线A| jizz在线观看| 亚洲综合婷婷激情| 亚洲熟女中文字幕男人总站| 最新日本中文字幕| 天天综合天天综合| 欧美日韩福利| 国产一区二区福利| 一本大道香蕉中文日本不卡高清二区| 农村乱人伦一区二区| av一区二区三区高清久久| 不卡午夜视频| 国产一区二区福利| 激情综合图区| 四虎国产精品永久在线网址| 欧美成人看片一区二区三区| 久久久亚洲国产美女国产盗摄| AV无码国产在线看岛国岛| 亚洲国产日韩在线观看| 99视频精品在线观看| 97在线公开视频| 婷婷五月在线| 视频二区中文无码| 免费中文字幕一级毛片| www.亚洲国产| 欧美日韩理论| 制服丝袜亚洲| 国产精品一区二区在线播放| 又粗又大又爽又紧免费视频| 米奇精品一区二区三区| 亚亚洲乱码一二三四区| 亚洲一区波多野结衣二区三区| 深爱婷婷激情网| 亚洲成人手机在线| 亚洲第一视频网| 国内熟女少妇一线天| 久久国语对白| 国产毛片久久国产| 成人午夜久久| 色天堂无毒不卡|