999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文檔聚類算法改進及效果測試文檔聚類研究

2013-12-31 00:00:00朱一
消費電子·下半月 2013年7期

摘 要:本文提出一種利用文本間相似度進行主題的語義合并,對文本進行語義抽象聚類的算法。該模型充分利用現狀網上一些開源工具,并對已有的聚類算法進行改進,最后給出了該算法與其他算法的測試比較效果。

關鍵詞:文檔聚類;算法改進;測試

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1674-7712 (2013) 14-0000-02

一、研究背景

在日常生產和生活中,人們面對非常復雜的事物,往往希望能夠把相似的東西歸為一類,有明顯區別的事物分屬在不同的類別中,這樣處理起來就大為簡便。隨著人類對自然和社會的認識不斷深入,要處理的數據量規模越來越大,相互關系也越來越復雜,分類越來越細,對分類的要求也越來越高,這時僅僅依靠定性分析就不能滿足要求。

聚類分析是一種數學工具引入后,形成的基于數值分類學的一種多元統計方法,也是文獻計量研究中經常用到的數據結構挖掘技術。

聚類是對無標簽的數據進行分類,優勢是無標簽,就是不需要在訓練前對訓練集集中的數據點進行人為的事先分類,缺點是聚類得到的模型不一定反映數據的真實模型。

聚類相當于將一大群人按照他們的距離(這里的距離可能是他們的相似程度或者其他,越相似距離越短)進行分類,聚類分析可以獲得數據的分類,但是這個分類不一定反映數據的真實模型。適用于目標分類。聚類是對數據樣例進行劃分,形成若干個簇。

隨著科技文獻檢索能力的加強,人們能夠直接從網上和眾多英文數據庫中獲取的科技文獻越來越多。如何從海量的英文資料中發現更多隱含的信息,這也是國內外眾多學者研究的一個熱點問題之一。例如,做文獻綜述時需要從檢索到的科技文獻中分析本課題的主要研究方向,在以前文獻量較少的情況下可以人工提煉和總結,但面對大量的文獻時則已超過了人的閱讀和分析能力,往往耗費大量的時間和精力也不能找到學科的主要研究領域。

二、聚類模型

收集文檔資料,對這些文檔中的文本信息進行分詞和統計詞頻,為下一步進行主題詞提取做準備。

單個網頁文本信息抽取與統計的詳細步驟如下:

將經過 Crunch 過濾后的網頁解析成 DOM Tree,然后根據該 DOM Tree,取得文本;

利用Charniak's parser對網頁的文本進行分詞;

利用Lucene的snowball組件對分詞后的各個單詞取詞根;

統計詞根的詞頻;

對所有的keyword進行基于語義相似度的聚類,當聚類結果中的keywords之間的語義相似度大于某個閾值的時候,對這些keywords進行語義層次的合并,詞頻數相加;

按詞頻從大到小排序,每個頁面取前N個詞根;

將處理以后的N個詞作為輸入,參與下一小節的主題詞提取的運算。經過過濾后網頁中的文本內容需要進行分詞與詞頻統計,我們這里采用的是共指消解系統所采用的預處理系統:Charniak's parser(英語語法分析器)。作為一種應用系統的數據預處理工具,它的功能有:(1)劃分出一個句子以及一個詞的起始位置與結束位置;(2)區分出詞或者短語的詞性;(3)檢測出名詞短語,如人名;(4)檢測出專有名詞,如the Summer Palace這樣的短語。這個工具改進了我們原本采用的簡單利用Lucene組件的進行分詞的技術,使得許多名詞短語和專有名詞的分詞更加的準確。另外,經過Charniak's parser處理以后的文本的詞性也已經知道,因此,我們直接忽略了介詞以及副詞等無關主題的詞過濾掉,對實驗結果的效率也改進不少。

在使用Charniak's parser分完詞之后,如果直接進行詞頻統計,同一名個詞可能會因為單復數形式的不同,或者是同一個動詞因為時態的不同,被統計成為兩個不同的詞。因此,需要再對得到詞或者詞組進行取詞根的操作。這里本文使用的是Snowball算法。Snowball是Lucene SandBox里的一個組件,它是信息檢索中用于處理字符串的處理的一個算法,可以將一個句子進行分詞運算,并取其詞根的操作。

我們對根據分詞,取詞根,利用共指消解工具后得到的指代關系處理以及原始的詞頻統計這系列的步驟處理之后,得到的詞或詞組的統計信息,接下來再進行語義相似度的計算:如果兩個經過分詞處理得到的文本都是是單個詞,并且在WordNet中可以查詢到它們的語義信息,我們就應用WordNet進行語義相似度計算;否則,則利用Wiki進行相應的語義相似度計算。

當兩個概念之間的語義相似度大于某個域值的時候,對兩個概念進行合并,詞頻數相加。這樣,我們就在主題抽取的步驟中引入了語義。對于單個網頁內 的keyword進行語義合并的算法,本文采用了層次聚類的方法。兩個聚類之間的 距離,我們用了兩個類中任意兩個元素的距離的平均。每一個聚類Ci為一個 keyword的集合,即Ci={ki,1 ki,2 ki,3 ...ki,n }, 兩個聚類Ci Cj的距離記為davg(Ci, Cj),

1.每一個keyword作為一個初始類,設定一個類之間的距離閾值d0;

2.計算任意兩個類之間的距離;

3.將所有兩兩之間的距離大于閾值d0的類合并;

4.重復2,3步,直到第 3步不再有類合并為止,算法結束。通過語義相似的文本的聚類處理以后,我們得到了一些Keyword的聚類。接下來進行語義合并的處理。通過檢索WordNet,判斷聚類里的Keyword,如果ki kj是同義詞的話,用ki kj里詞頻大的Keyword作為代表,詞頻數為兩者之和;如果ki kj有共同的上位詞(深度小于 4),則用它們的上位詞作為代表,詞頻數為兩者之和。

由于通過鏈接分析得到的網頁集,它們只是因為互相有著緊密的鏈接相互指向,而被挖掘出來,分到同一個網頁集當中,其結果可能并不只是一個社區,因此我們需要再進行一次網頁集的聚類。

通過無關內容塊的過濾之后,抽取出文本信息的網頁集,與平常的文檔集有著比較多的相似之處,因此,在網頁集的聚類方面,本文借鑒了文檔集的聚類方法。文本聚類在本質上是一種通過對對象集合按照某種規則進行劃分或覆蓋從而發現隱含的潛在有用的信息的一種知識發現的方法。聚類算法通常有以下幾類:(1)通過構建類別層次或者構造一棵類別樹進行聚類的層次聚類算法;(2)將數據集進行劃分的分割聚類算法;(3)按其連接分量的密度定義類別的基于密度的聚類方法;(4)通過對屬性空間進行單元劃分,然后對單元進行聚類的網絡聚類算法;(5)其他聚類算法還有基于“核”的聚類算法以及利用進化算法,梯度下降法等的聚類算法。各種不同的應用對聚類質量、效率以及結果可視化程度等方面往往都有特定的要求,因此要根據應用場合和目的選用適合的聚類算法。

由于一個網頁集中主題的個數是不確定的,因此本文選用層次聚類作為網頁集聚類的算法。因為層次聚類算法首先假設所有文檔自成一類,然后將最相似的兩類合并,并繼續這一過程,直到最后將所有文檔合并為一類,因而可以形成一棵聚類樹。層次聚類的優點在于可以適用于任意形狀的類別并且適用于任意形式的相似度或距離形式。另外,聚類粒度比較靈活性,聚類質量比較高,在信息檢索的應用背景下,層次聚合聚類在檢索相關文檔方面要比基于劃分的算法要好。

從網頁集中獲取主題詞,許多方法是將單個網頁頁面主題詞提取技術用于網頁集主題詞的提取。目前,網頁集主題詞的提取常見的方法有:

1.先建立特定領域的模板,再從文檔中提取信息填充模板,通過比較模板的內容,獲取共同部分生成主題詞;

2.建立文檔中的實體名對,通過分析實體名的出現頻率確定網頁集中各網頁的相關程度;

3.先建立詞的活動網絡,再從中提取文本的中心內容。另外,當前網頁集主題詞提取研究的主要方向是基于統計的機械式文摘方法。但是,越來越多的現象表明,統計并不能完全取代語義分析。不考慮句子的含義和句子間的關系機械抽取,必然導致主題詞的準確率低,連貫性差,產生一系列問題。因此,理想的網頁集主題詞提取模型應當將兩種方法相結合。

三、試驗設計與結果分析

為了測試我們的算法,我們選擇了兩組不同的數據。

第一組數據是體育方面的文章,是通過spider從fm365網站上搜集的,包含485篇文章。經過切詞處理,去掉停用詞(stop words)后保留了2719個特征詞。通過人類專家手工分類,將文檔分為六類,如下:

第二組數據是文藝類的文章,也是通過spider從互聯網上獲取的,包含了1199篇文章。在去掉停用詞后保留了15171個特征詞。通過預處理,將在文章中出現頻率少于0.1%或多于90%的詞過濾后(見第四章),保留了7542個特征詞。通過人類專家手工分類,這1199篇文章被分到六個不同的類別中:

值得注意的是,文藝類數據中各個類別的區分不像體育類中那么明顯,特別是某些類別涵蓋面非常廣泛,比如時尚、笑話、其他的范圍非常大,因而在幾百篇文章中并不能使其統計規律得到充分的體現,由此會帶來較大的誤差。如果沒有對語義的理解,可以想象即使是人類專家要對他進行合理的分類也有相當的困難。

對這兩組數據,我們用K-means,Ward’s method,HBC,以及本文提出的聚類算法分別作了測試(K-means,Ward’s method使用SPSSv10.0 進行的測試)。

使用K-means算法聚類,對于文藝類數據,聚類目標為6個類別時,最大的類別包括了974篇文章,并且準確率只有54.13%。對于體育類數據,當聚類目標為6時,最大的類別包括了446篇文章,準確率為53.28%。使用Ward’s method進行聚類,進行聚類,對文藝類數據達到的最高的準確率為62.41%,對體育類的準確率為61.41%。

這兩種算法的準確率均遠低于HBC算法和本文介紹的其他算法,因而下面的討論中不再考慮它們,而只與HBC算法進行對比。

對于文藝類數據:

三種算法在恰好分為六個類別時每個類別的文章數量,如下表所示:

總體來看三個算法產生的結果都沒有明顯的失衡,MED與HBC算法的分類都非常均勻,這兩個算法的第一個類別出現了較大的偏差,經對比,此類別中的文檔主要來自“其他”類。各種聚類方法的準確率如下:

從總體結果來看,MED算法取得了最佳的效果,相對MEI有了一定的改進。與HBC算法相比準確率也有明顯的提高。

四、結論

本文所采用的分詞技術,并不是簡單的按照空格,標點來進行英文單詞的分詞,而是采用了Brown大學的Charniak's parser。這個工具可以將輸入的文本的句子結構解析出來,同時可以把句中的名詞短語,動詞,以及介詞,副詞劃分出來,標上詞性。因此,這樣很多名詞短語,如人名、專有名詞都可以很好的解釋出來,對比普通的分詞工具,對主題的抽取的準確性有了很大的改進。并且我們引入了共指消解,利用了著名的共指消解系統GuiTAR進行了文本的共指消解的處理,使得我們可以知道文本中的代詞所指代的名詞,因此在詞頻統計時,將代詞所指代的名詞的詞頻加上相應的代詞出現的次數。這樣就既解決了主題抽取的結果中會出現無謂的高詞頻的代詞的現象,同時還增加了主題抽取的準確性。另外,本文在進行網頁集的主題抽取之前,利用單個網頁本身的主題詞進行了基于語義相似度的網頁的聚類,使得擁有不同主題的網頁聚集到不同的類中,從而減少了不同主題的網頁產生的噪聲。而且,利用主題詞之間的語義相似度,而不是單純的計算關鍵字的內積,使得網頁之間的語義信息得以保留,也提高了主題抽取的準確性。

參考文獻:

[1]Georgios Paliouras. Discovery ofWeb user communities and their role in personalization[J].Springer Science+Business Media B.V.10 March 2012.

[2]唐煥玲.文本分類系統SECTSCS中若干技術問題的探討[J].計算機工程與應用,2003(11).

[3]陳克利.基于大規模真實文本的平衡語料分析與文本分類方法[C].Advances in Computation of Oriental Languages.北京:清華大學出版社,2003.

[4]Nazir,A.,Raza,S,Chuah, C.N.: Unveiling facebook:ameasurement study of social network based applications.In: Papagiannaki,K.,Zhang,Z.L.(eds.)Proceedings of the Eighth ACM SIGCOMM Conference on Internet Measurement, Vouliagmeni,43-56(2008).

[5]Chris Fraley and Adrian E.Raftery, Model-Based Clustering, Discriminate Analysis, and Density Estimation,Technical Report NO.380,Department of Statistics, University of Washington,October 2000

[作者簡介]朱一(1964-),女,河南開封人,碩士,高級講師,研究方向:研究方向為數據庫等。

主站蜘蛛池模板: 依依成人精品无v国产| 国产在线啪| 国产中文在线亚洲精品官网| 久久久受www免费人成| 国产精品污污在线观看网站| 久久久久亚洲精品成人网 | 亚洲中文精品久久久久久不卡| 欧美精品色视频| 日本国产精品| 国产亚洲精品va在线| 久久人妻系列无码一区| 精品国产Av电影无码久久久| 91精品国产91久久久久久三级| 成人在线综合| 午夜天堂视频| 欧美日韩国产在线人| 男女性色大片免费网站| 国产精品一区在线麻豆| 国产精品30p| 污污网站在线观看| 国产高清国内精品福利| 日本国产在线| 成人年鲁鲁在线观看视频| 婷婷伊人五月| 国产人免费人成免费视频| 亚洲丝袜中文字幕| 色男人的天堂久久综合| 尤物午夜福利视频| 国产福利小视频高清在线观看| 国产18在线| 日本日韩欧美| 丁香婷婷综合激情| 国产精品毛片在线直播完整版| 国产一级毛片在线| 91外围女在线观看| 91国内在线视频| 55夜色66夜色国产精品视频| 玖玖精品视频在线观看| 自拍欧美亚洲| 亚洲第一福利视频导航| 手机看片1024久久精品你懂的| 色天天综合| 欧美亚洲国产精品久久蜜芽| 亚洲无码精彩视频在线观看 | 91在线精品免费免费播放| 99热这里只有精品在线播放| 国产精品亚洲αv天堂无码| 啦啦啦网站在线观看a毛片| 国产综合另类小说色区色噜噜| 国产日韩欧美精品区性色| 无码精品国产dvd在线观看9久 | 国产精品浪潮Av| 亚洲h视频在线| 天天色天天综合| 亚洲成人精品久久| 午夜国产在线观看| 91精品aⅴ无码中文字字幕蜜桃| 免费人欧美成又黄又爽的视频| 亚洲国产无码有码| 久久黄色一级片| 91精品国产一区| 天天躁夜夜躁狠狠躁图片| 永久免费AⅤ无码网站在线观看| 58av国产精品| 亚洲国产综合第一精品小说| 国产精品 欧美激情 在线播放 | AV无码无在线观看免费| 99久久99这里只有免费的精品| 欧美a级完整在线观看| a网站在线观看| 国产精品第一区在线观看| 国产丝袜无码一区二区视频| 一级高清毛片免费a级高清毛片| 精品久久高清| 精品国产电影久久九九| 免费国产小视频在线观看| 亚洲一级毛片在线观播放| 亚洲精品国产首次亮相| 日韩在线视频网站| 亚洲欧美另类色图| 国产人成在线观看| 欧美精品一二三区|