999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析文本聚類有效性評價的方法

2018-05-30 11:50:08金濤戴玉剛
中文信息 2018年5期
關鍵詞:標準評價

金濤 戴玉剛

摘 要:文本聚類技術是一種對文本信息進行重新組織的重要手段,隨著人工智能的發(fā)展,文本聚類技術得到了廣泛的研究,文本聚類技術的算法眾多,標準眾多,但是沒有一個標準的評價體系,無法準確的、科學的評價文本聚類結果。因此本文通過對文本聚類的評價方法進行了一定的探討。

關鍵詞:文本聚類 評價 標準

中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082(2018)05-000-01

當今是一個信息爆炸的時代,互聯(lián)網信息種類繁多、內容豐富,如何能夠在這樣繁雜的互聯(lián)網信息中提取有價值的、人們感興趣的信息是現階段的主要問題。目前,人們對于文本聚類技術的研究非常之多,但是目前研究中對于文本聚類分析結果的有效性評價方法機制比較混亂,文本聚類的算法不斷地涌現,各說各的好處,但是當我們應用到實際過程中的時候,這么多的算法中我們應該選擇哪一個算法呢?因此,本文在通過大量研究前人的文獻中,總結了一些觀點與想法。

一、評價標準

在傳統(tǒng)的聚類研究當中,大致可以分為三個評價標準,分別是外部評價標準、內部評價標準和相對評價標準,本文在過大量分析研究這些標準后,總結出了兩個評價的標準,一是在聚類結果分析研究中,團內越緊密、團外越分離越好,另一種標準是聚類分析的結果與人工評價的結果越接近越好。本文認為,在不同的場合應該使用不同的評價標準,在某些情況下不能使用單一的標準,必須將兩個或者幾個標準結合來使用才能達到更好地效果。首先是在更加緊密結合人工判定結果當中,基于人工判定的結果表現更好,另外,基于人工判定的方法還能對不同的算法進行橫向的比較,同時能夠對算法的性能進行分析,最重要的是能夠在我們設定算法參數時給予一定的指導作用,讓聚類的結果更加的符合人工的判定結果。其次,函數指標本身就可以作為算法的一部分,能夠更好地適用于計算目標的選擇當中去。實際在評價機制上,并不是直接使用這兩個指標,而是在這兩個指標的指導下,衍生出來的一系列評價標準與方法。基于此標準的判定,本文通過研究發(fā)現以下兩種評價標準在傳統(tǒng)評價當中結果最好。

1.基于文檔的準確率、召回率和F-Measure值的評價標準

2.熵的評價標準

針對語料X上的聚類結果C={C1,C2,…,Cm},單獨衡量每一個簇Ci,計算簇Ci的熵 (人工判定結構為 P={P1,P2,…,Ps}):

熵是一個非常好的指標,不僅能應用到單獨一個簇的評價,同時也可以利用簇的大小進行加權計算,然后通過加權值對整個聚類結果進行評價,該指標具有很好的可比性,并且可以用于評價一個文檔屬于多個簇的聚類結果。但是在實際的運用過程中,單單一個熵是不能很好的評價的,必須與F值相結合使用,才能更加準確的對聚類結果進行評價。

二、基于目標函數的指標

在我們上述的兩個標準中,我們提出了團間越分離越好的觀點,基于這個大的指標,可以衍生出的指標可以稱為是基于目標函數的指標,在算法的設計當中,函數的指標是可以作為算法的其中一部分的,該指標融入算法當中,可以通過該指標來判斷在聚類算法當中下一步的最優(yōu)的迭代方向,與此同時,我們可以根據該指標來判斷我們的算法是否滿足要求,得到結果是否達標。

1.誤差平方和

K-means算法的目的就是通過自身的迭代去尋找一個能搞滿足誤差平方和最小的聚類的方法。在上述公式當中S表示的是一個聚類的結果,我們可以用S={s1,s2…sk}表示聚類的結果,其中的Sr表示的是一個簇,Cr表示的是簇的中心,應用這個標準,我們可以最小化簇與簇之間的內部距離,使得聚類文本當中內部之間的距離最小,獲得更好地聚類結果。

從前面的討論我們可以知道,在實際運用過程中,基于人工判定的指標更加適合分析文本聚類分析結果的質量,基于函數的指標有很多,這里只是簡單提出了一種方法,函數指標更加適用于作為算法的一部分。如果在算法設計過程中,遇到了難以設定的參數,這時候我們就需要不斷的改變參數的值來獲得不同的試驗及結果,然后利用例如K-Means算法中的方法,對結果進行分析,選擇最優(yōu)的參數。

結語

隨著時代的發(fā)展,文本聚類技術的研究也越來越重視,作為一種無監(jiān)督的機器學習方法,聚類文本技術具有一定的靈活性和自動性,可以被廣泛的應用到引擎搜索、自然語言處理等相關領域,這也是未來人工智能的一個重要的研究方向。

參考文獻

[1]周昭濤. 文本聚類分析效果評價及文本表示研究[D].中國科學院研究生院(計算技術研究所),2005.

[2]曹曉.文本聚類研究綜述[J].情報探索,2016(01):131-134.

[3]劉務華,羅鐵堅,王文杰.文本聚類算法的質量評價[J].中國科學院研究生院學報,2006(05):640-646.

作者簡介:金濤,(1991.10-),男,漢族,安徽省合肥人,學歷:在讀碩士研究生,研究方向:云計算。

猜你喜歡
標準評價
2022 年3 月實施的工程建設標準
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統(tǒng)評價再評價
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
你可能還在被不靠譜的對比度標準忽悠
一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標準清單
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
主站蜘蛛池模板: 一区二区影院| 99热国产这里只有精品无卡顿"| 国产农村妇女精品一二区| 成人91在线| 国产色伊人| 在线免费a视频| 婷婷五月在线| 中文字幕色在线| 91久久国产综合精品| 国产一区二区精品高清在线观看 | 国产精品男人的天堂| 国产va免费精品观看| 日本在线亚洲| 黄色污网站在线观看| 高清无码不卡视频| 日韩视频免费| 狼友视频一区二区三区| 日韩在线第三页| 午夜一区二区三区| 国产SUV精品一区二区6| 成人va亚洲va欧美天堂| 久久这里只有精品23| 99免费在线观看视频| 日韩欧美网址| 91网红精品在线观看| 精品久久久久久久久久久| 国产乱人乱偷精品视频a人人澡| 免费女人18毛片a级毛片视频| 不卡无码h在线观看| 欧美在线天堂| 国产精品三级av及在线观看| 欧美成a人片在线观看| 日本午夜影院| 国产黄视频网站| 综合社区亚洲熟妇p| 少妇露出福利视频| 久久综合激情网| 麻豆精品在线| 免费aa毛片| 国产呦视频免费视频在线观看 | 亚洲欧美自拍中文| 亚洲第一成年网| 成人国产一区二区三区| 国产又色又爽又黄| 久热这里只有精品6| 亚洲欧美日韩高清综合678| 国产精品亚洲一区二区三区在线观看| 香蕉国产精品视频| 亚洲国产清纯| 伊人久久久大香线蕉综合直播| 波多野结衣一区二区三区四区| 91福利片| 国产欧美日韩一区二区视频在线| 91无码网站| 五月天久久综合国产一区二区| 免费高清自慰一区二区三区| 欧洲熟妇精品视频| 97视频免费在线观看| 内射人妻无码色AV天堂| 亚洲最大情网站在线观看| 91人妻日韩人妻无码专区精品| 国产精品久久精品| 青青青国产免费线在| 亚洲侵犯无码网址在线观看| 国产精品丝袜视频| 久久天天躁狠狠躁夜夜2020一| 欧美成人在线免费| 在线欧美日韩国产| 精品国产成人av免费| 国产成人综合在线观看| 久久99热这里只有精品免费看| 午夜福利亚洲精品| 国产精品无码影视久久久久久久| 久草热视频在线| 一级毛片无毒不卡直接观看| 日韩欧美国产精品| 国产精品人莉莉成在线播放| 人妻出轨无码中文一区二区| 国产鲁鲁视频在线观看| 全免费a级毛片免费看不卡| 丰满人妻久久中文字幕| 在线国产91|