999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于類別覆蓋集的改進蟻群算法研究

2017-04-13 01:34:40焦莉娟宗春梅
軟件導刊 2017年3期
關鍵詞:分類文本信息

焦莉娟,宗春梅

(忻州師范學院 計算機系,山西 忻州 034000)

基于類別覆蓋集的改進蟻群算法研究

焦莉娟,宗春梅

(忻州師范學院 計算機系,山西 忻州 034000)

結合蟻群算法在解決分類問題方面的優勢,以及中文網頁內容特征值的離散性特點,提出一種改進的基于蟻群算法的網頁分類方法。該算法通過攜帶類別信息的種群螞蟻的爬行,在迭代過程中尋找一條最佳路徑與之匹配,實現了Web頁面的分類。最佳路徑通過計算測試文檔與每一類別的覆蓋集合,進而比較最優覆蓋集合得到。其中類別權重計算中引入了文字鏈接比和標簽權值,進一步提高了分類精度。實驗證明,引入類別覆蓋集的蟻群分類算法能夠取得更好的分類效果。

蟻群算法;文本分類;類別覆蓋集;詞義相似度

0 引言

基于文本分類的網絡頁面分類是根據頁面文本內容,由計算機依照某種分類算法,把文本自動映射到一個或多個預先定義好的類別。網頁標記與頁面鏈接是影響網絡頁面分類的主要元素,采用文本與網頁特征有機結合的分類方法是網頁分類的研究趨勢[1]。目前常用的文本分類方法有支持向量機[2]、樸素Bayes[3]、KNN[4]等。

蟻群算法ACA(Ant Colony Algorithm)是20世紀90年代意大利學者M Dorigo,V Maniezzo,A Colorni等[5]通過模擬真實螞蟻尋找路徑的行為,而提出的一種成熟的模擬進化算法。蟻群算法最初主要用于求解TSP問題、分配問題、Job-shop調度問題等,目前已有學者將其應用于文本分類問題,并取得顯著效果。本文利用蟻群算法在解決分類問題方面的優勢,將其引入Web頁面分類領域,并提出類別覆蓋集概念。

1 蟻群算法

研究發現,螞蟻在尋找食物時,會在走過的路上留下一種分泌物產生氣味,用來進行信息交互,以此進行相互合作共同完成任務。后來的螞蟻會選擇氣味最重的路徑行進并釋放同樣的分泌物,如此循環往復。由于最短路徑上的螞蟻最先返回蟻穴,這樣單位時間內的螞蟻流量最大,氣味揮發量最少,路上留下的氣味最重,因而有越來越多的螞蟻選這條路徑,直到所有螞蟻都趨向這條路徑。

用蟻群算法解決經典問題與網頁分類問題的關聯可描述如下:

(1)一類螞蟻可對應一個目標類別,該類別名稱由分類機制決定。此時應使螞蟻有針對性地攜帶某種類別信息。

(2)城市間的距離可對應為特征結點之間存在的類別關聯程度,即相似度,其計算公式為[5]:

(1)

(3)信息素對應為結點詞條的類別權重。

這樣,只要通過帶有類別信息的種群螞蟻的爬行,便可找到每種類別的最佳路徑,通過比較選擇一條信息素濃度最高的最佳路徑所對應的類別即為該文檔所屬類別。

2 構造分類器

2.1 分類算法

算法基本原理是,當螞蟻類別與文檔類別一致時聚合效果好,生成的聚類數量較少,因而信息素濃度高;相反其類別一致性越差,聚合結果越雜亂,信息素濃度越低。算法中引入類別覆蓋集來描述聚類結果。首先使螞蟻自身帶有類別信息并遍歷所有結點,將測試文檔中的一個特征詞條作為一個結點。當某一類螞蟻k全部迭代完后,便生成一條類別路徑Ik作為類別k的覆蓋集合,即描述該類別的最優解。所有蟻群迭代結束后,可通過比較每一類對應各自類別覆蓋集合上的信息素濃度b得出分類結果,信息素濃度最大者的路徑Ik所描述的類別k即為該文檔所屬類別。

算法實現過程中需要解決如下問題:

(1)確定路徑的下一節點。分別計算當前節點與剩余節點的相似度概率積:X=S·Pij,其中S為兩點的余弦值,轉移概率計算公式為:

(2)

(2)更新結點j的信息素τj。在螞蟻已經走過的路徑上信息量增加的同時,各邊路徑上的原有信息量還會隨時間有一定的丟失。因此更新信息量的公式如下:

(3)

其中,ρ表示信息量τ隨時間的推移而衰減的程度。分類問題中期望螞蟻走過的路徑能夠對應一個文檔類別的覆蓋集合,因此本文取△τ=wjk,為類別k對于詞條j的權重值。

(3)確定最優覆蓋集合。每一個類別覆蓋集合記錄了此類別對應的一條最優路徑的所有結點,通過引入信息素濃度來比較各路徑與文本類別的關聯程度,即單位距離內信息素最多的路徑被認為是與文本類別關聯性最強的一條路徑,即最優覆蓋集合。信息素濃度計算公式為:

(4)

算法描述:①按分類機制取m只類別螞蟻a1,a2,……,am,將測試文檔的特征詞條隨機散列;②初始化第k類的類別覆蓋集為空集φ;③隨機選擇首結點;④計算當前詞條與其余所有詞條的相似度轉移概率積X;⑤選擇X值最大者作為下一詞條,并與當前詞條連通,更新信息素濃度;⑥重復④、⑤,直到Max(X)小于標準值,轉下一步;⑦將通路聚合為一個新結點,該結點信息素為原通路中所有結點信息素之和;⑧重復③~⑦,直到不再產生新聚類為止;⑨重復②~⑧m次,得到m個類別覆蓋集合;⑩求每一類別覆蓋集的信息素濃度b,其最大值所對應的類別k=argMaxb(k)即為所求類別。

2.2 分類過程

訓練過程中,若當前訓練文檔類別為k,則利用TFID方法計算類別k對于詞條i的權重wik。計算時引入“權重因子”可得到一個精度更高的詞條權重值。其中權重因子由網頁中標簽權重和文字鏈接比的乘積計算得到。訓練結果得到一個權重類別詞庫。

測試過程引入基于類別覆蓋集的分類算法將測試語料進行分類,分類過程如圖1所示。

3 實驗

實驗選取了200篇文檔,其中140篇作為訓練語料,包括財經類40篇、體育類40篇、文化類30篇、軍事類30篇、60篇作為測試語料。經過特征提取可得到6 217個特征項,訓練過程就是計算這些特征項結點相對于每一類別的權重值w。測試過程中,依照上述算法,對每一篇測試文檔進行迭代、計算,并采用國際上通用的準確率、召回率對分類效果進行評估。實驗結果如表1所示。表1中參數A、B分別表示螞蟻種群平均數量和標準值。

圖1 分類過程模型

表1 分類結果比較

財經體育文化軍事平均值P0.900.790.770.861000.58R0.880.830.800.800.84BPR0.890.810.790.83P0.920.930.960.91AB2000.70R0.900.910.950.920.93BPR0.910.920.960.91P0.920.930.810.915000.90R0.880.910.850.920.89BPR0.900.920.830.91

實驗證明,對種群螞蟻規模、確定是否停止本次迭代的標準值的大小、權重因子等參數的取值都會直接影響分類精度。圖2給出了A、B值分別取200和0.70時,算法改進前后分類精度的對比。

圖2 引入類別覆蓋集前后分類精度對比

4 結語

本文主要研究了用蟻群算法進行文本分類,并提出一種切實可行的分類算法。實驗證明,用基于類別覆蓋集的改進蟻群算法進行文本分類具有強魯棒性和優良的分布式計算機制等優勢,是一個值得深入研究的課題。種群螞蟻規模確定以及如何選擇最佳相似度、標準值及詞性因子等參數,以便達到最優的分類效果等,則是下一步需要解決的問題。

[1] 鳳麗洲.文本分類關鍵技術及應用研究[D].長春:吉林大學,2015.

[2] WANG F,WANG Z,LI Z,et al.Concept-based short text classification and ranking[C].Proceeding of the 23rd ACM International Conference on Information and Knowledge Management.ACM,2014:1069-1078.

[3] 邸鵬,段利國.一種新型樸素貝葉斯文本分類算法[J].數據采集與處理,2014,29(1):11-15.

[4] 鐘將,劉榮輝.一種改進的KNN文本分類[J].計算機工程與應用,2012,48(2):142-144.

[5] 段海濱.蟻群算法原理及其應用[M].北京:科學出版社,2005.

(責任編輯:孫 娟)

焦莉娟(1978-),女,山西忻州人,碩士,忻州師范學院計算機系副教授,研究方向為自然語言處理、數字圖像處理;宗春梅(1977-),女,山西忻州人,碩士,忻州師范學院計算機系講師,研究方向為數據挖掘。

10.11907/rjdk.162540

TP312

A

1672-7800(2017)003-0054-02

猜你喜歡
分類文本信息
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 九九久久精品国产av片囯产区| 黄色一级视频欧美| 亚洲成人黄色在线| 亚洲一级毛片在线播放| 超清无码一区二区三区| 情侣午夜国产在线一区无码| 亚洲中文字幕在线一区播放| 国产免费羞羞视频| 国产欧美日韩专区发布| 亚洲美女一区| 精品国产黑色丝袜高跟鞋| 日本影院一区| 久久综合色天堂av| 成人久久精品一区二区三区 | 日本免费a视频| 女人爽到高潮免费视频大全| 欧美日韩在线第一页| 国产精品无码AV中文| 精品国产网| 成人欧美日韩| 亚洲高清国产拍精品26u| 色欲国产一区二区日韩欧美| 无码高潮喷水专区久久| 国产欧美高清| 不卡无码网| 国产成人1024精品下载| 精品久久蜜桃| 精品欧美视频| 亚洲中文字幕23页在线| 久久人妻xunleige无码| 97久久免费视频| 久草国产在线观看| 国产成人精品日本亚洲| 欧美有码在线观看| 全免费a级毛片免费看不卡| 毛片手机在线看| 超碰色了色| 亚洲一区二区三区在线视频| 国产精品丝袜在线| 亚洲无码高清一区二区| 日韩在线永久免费播放| 欧美精品影院| 看看一级毛片| 国产成人精彩在线视频50| 四虎影视国产精品| 亚洲欧美精品日韩欧美| 波多野结衣中文字幕一区二区| 欧美成人精品一级在线观看| 国产精品夜夜嗨视频免费视频| 亚洲AV无码精品无码久久蜜桃| 国产精品女主播| 97精品国产高清久久久久蜜芽 | 99久久精品美女高潮喷水| 黄色网页在线播放| 动漫精品啪啪一区二区三区| 国产精品v欧美| 久久精品66| 国产h视频在线观看视频| 国产不卡在线看| 国产女人爽到高潮的免费视频| 国内精品久久久久鸭| 五月天综合婷婷| 精品国产成人高清在线| 国产精品九九视频| 国产自在线播放| 午夜a级毛片| 国产午夜无码片在线观看网站| 国产乱码精品一区二区三区中文| 国产精品亚洲а∨天堂免下载| 国产亚洲视频免费播放| 国产精品亚洲а∨天堂免下载| 五月丁香伊人啪啪手机免费观看| 国产精品一线天| 色精品视频| 波多野结衣中文字幕一区| 日韩 欧美 小说 综合网 另类 | 黄色网站在线观看无码| 在线不卡免费视频| 国产香蕉在线视频| 天天综合色网| 国产在线观看一区二区三区| www.精品国产|