999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯分類算法的設計與分析

2019-05-24 14:13:16王陽周云才
電腦知識與技術 2019年11期
關鍵詞:文本挖掘

王陽 周云才

摘要:隨著信息技術的日益發展,特別是信息技術應用的日漸普及,電子文本信息數量急劇增加。如何對這些文本數據做有效的管理和高效的利用是目前信息技術領域所面臨的一項重大挑戰。文本分類是目前對電子文本進行管理的一種常用方法和是基本步驟。目前在信息過濾、信息檢索、數字圖書館等方面對文本分類是應用非常廣泛,同時需求也在與日俱增。貝葉斯分類算法,由于有貝葉斯理論作為理論支撐,分類過程可追溯,具有諸多優點,被眾多文本處理專家所喜愛。基于貝葉斯方法的分類器的研究和應用,目前已經是模式識別和數據挖掘等領域的研究熱點。本文主要是對貝葉斯分類模型進行了分析與實現。

關鍵詞:文本挖掘;文本分類;概率分布;貝葉斯分類;分析與實現

中圖分類號:TP311 文獻標識碼:A

文章編號:1009-3044(2019)11-0206-03

1 引言

文本分類技術的研究目標就是實現自動化的文本分類,用來到降低分類成本、改善分類效率等目的。作為信息檢索和文本信息管理的技術基礎,文本分類技術有著非常廣泛的應用前景。

2 國內外研究現狀

國內文本分類的起步可以認為是在1981年,由侯漢清首先對計算機在文獻分類工作中應用作了探討。國內的主流高校包括清華大學在內的多個重點高校都在從事該領域的研究,目前已經進入到自動化分類階段,其中中科院開發的智多星中文文本分類器是目前來說比較好用的中文文本分類器。

樸素貝葉斯分類器是目前公認的一種簡單有效的概率分類方法,在某些領域中表現出很好的性能。在樸素貝葉斯分類方法中,有一個“獨立性假設”:即實例的屬性之間是相互獨立的。在這個獨立性假設,使得樸素貝葉斯方法特別適合處理屬性個數很多的任務,而文本分類恰恰就是屬于這種多屬性的分類任務。Friedman等人提出了一種新的樹狀結構模型TAN(Tree Augmented Naive),其基本思路是通過對素貝葉斯中的獨立性假設條件進行放松,借鑒貝葉斯網中表示依賴關系的方法擴展樸素貝葉斯的結構,使得能夠存在屬性間的依賴關系,但對其表示依賴關系的能力進行限制,使學習模型成為可能。

3 算法主要簡介

3.1思想簡介

樸素貝葉斯法(Naive Bayesian Model,NBM)是基于貝葉斯定理與特征條件獨立假設的分類模型方法,和決策樹模型相比,樸素貝葉斯分類器有著堅實的數學理論基礎和比較穩定的分類效率。其分類過程如下:

(1)將每一個數據樣本用一個n維特征向量d={x1,x2,...,xn}表示,分別是n個屬性d1,d2,...,dn樣本的n個度量值。

3.3.5結果輸出

代碼結果的輸出主要是通過java集合Collections自帶的sort方法,對得到的結果進行排序,比較各個結果的大小,并對其進行排序,選擇可能性最大的類別進行輸出。由于貝葉斯算法的是根據概率的可能性大小來選擇所屬類別,根據貝葉斯算法得到的分類結果不一定是正確分類,只是可能性最大的分類。

4 總結

簡單的貝葉斯分類采用簡單的貝葉斯假設,即假設一組數據中任何兩個數據之間的出現概率計算都是相互獨立。簡單貝葉斯模型在實際應用中,不僅對貝葉斯網絡構建的復雜性以指數級的速度降低,同時在諸多領域,在不同于假定條件的情況下,簡單貝葉斯分類算法也有著極強的魯棒性和高效性。

本文細致分析了貝葉斯在文本分類中的應用,分析了貝葉斯分類的數學模型,以及其中涉及到的關鍵算法都做了詳細分析,完成了貝葉斯文本分類的系統的設計與實現。但是由于時間有限,分類系統還存在有缺陷,例如本系統的文本分類不支持多分類功能,這部分功能在今后的工作中將對其進行持續性的改進。

參考文獻:

[1]王雙成,苑森森.具有丟失數據的貝葉斯網絡結構學習研究[J].軟件學報,2004,15(7):1042-1048.

[2]黃解軍,萬幼川,潘和平.貝葉斯網絡結構學習及其應用研究[J].武漢大學學報(信息科學版),2004,29(4):315-318.

[3]陳劍敏.基于Bayes方法的文本分類器的研究與實現[J].重慶大學,2007.

[4]于瑞萍.中文文本分類相關算法的研究與實現[J].西北大學,2007.

[5] 王雙成.混合貝葉斯網絡隱藏變量學習研究[J].計算機學報,2005,28(9):1564-1569.

[6] 邢永康,馬小平.統計語言模型綜述[J].計算機科學,2003,30(9):22-26.

[7] 張曉引,岳麗華.改進的 Native Bayes方法[J].中國科學技術大學學報,1999,29(1).

[8]龐劍峰.基于向量空間模型的自反饋的文本分類系統的研究和實現[J].中國科學院, 2001.

[9]魯晨光.廣義信息論研究[M].合肥:中國科技大學出版社,1993.

[10]Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[11]黃營著,吳立德,石崎洋之等.獨立于語種的文本分類方法[J].中文信息學報,2010,14(6):1-7.

[12]卜東波,白碩,李國杰.聚類/分類中的粒度原理[J].計算機學報,2002,25(8):810-816.

[13]李榮陸.文本分類及其相關技術研究[J].上海復旦大學,2004,4.

[14]邊肇棋,張學工.模式識別(第二版)[M].北京清華大學出版社,2000.

[15]李東,張湘輝.中文軟件漢語分詞研究與應用[R].微軟中國研究開發中心,2002.

【通聯編輯:梁書】

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 国产噜噜噜| 欧美在线天堂| 国产精品内射视频| 成年A级毛片| 亚洲午夜福利在线| 国产极品嫩模在线观看91| 女人18毛片水真多国产| 国产91熟女高潮一区二区| 色有码无码视频| 免费av一区二区三区在线| 欧美日韩国产成人高清视频| 欧美成人免费午夜全| 亚洲swag精品自拍一区| 亚洲浓毛av| 国产爽歪歪免费视频在线观看| 成年看免费观看视频拍拍| 91外围女在线观看| 91精品久久久久久无码人妻| 毛片视频网址| 国产成人综合久久精品下载| 亚洲AV免费一区二区三区| 久久综合丝袜长腿丝袜| 真实国产乱子伦视频| 精品欧美视频| 香蕉久久国产精品免| 国产靠逼视频| 夜夜爽免费视频| 日本手机在线视频| 97超爽成人免费视频在线播放| 欧美亚洲第一页| 国产精品欧美激情| 国产99视频免费精品是看6| 全免费a级毛片免费看不卡| 免费高清自慰一区二区三区| 人妻无码中文字幕第一区| 日本高清视频在线www色| 91精品啪在线观看国产91九色| 久久国产成人精品国产成人亚洲 | 欧美日韩国产高清一区二区三区| 精品無碼一區在線觀看 | 国产在线八区| 中文国产成人精品久久一| 国产精品国产主播在线观看| 成年人视频一区二区| 香蕉eeww99国产在线观看| 亚洲三级色| 秘书高跟黑色丝袜国产91在线| 国产成人调教在线视频| 欧美在线观看不卡| 国产乱子伦无码精品小说 | 日本一区二区三区精品视频| 国产精品天干天干在线观看| 国产高清自拍视频| 91精选国产大片| 国产精品永久免费嫩草研究院| 亚洲欧美自拍视频| 国产亚洲欧美在线人成aaaa| 亚洲欧美h| 精品无码人妻一区二区| 欧美在线综合视频| 亚洲有无码中文网| 亚洲日本韩在线观看| 欧美成人区| 思思99思思久久最新精品| 日韩欧美国产成人| 国产午夜一级淫片| 91日本在线观看亚洲精品| 2021精品国产自在现线看| 国产精品自在在线午夜| 伊人激情综合网| 人妻少妇乱子伦精品无码专区毛片| 日本一区二区不卡视频| 国产欧美日韩资源在线观看| 成人国产免费| 色屁屁一区二区三区视频国产| 国产成人一区免费观看| 亚洲一区二区三区香蕉| 亚洲精品天堂自在久久77| 国产精品自在在线午夜区app| 十八禁美女裸体网站| 国产自在自线午夜精品视频| 日韩精品亚洲人旧成在线|