999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于信息論的文本數(shù)據(jù)挖掘算法

2017-07-05 17:10:45方玉峰
電子技術(shù)與軟件工程 2017年12期
關(guān)鍵詞:數(shù)據(jù)挖掘

方玉峰

摘 要隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和應(yīng)用,很多領(lǐng)域已經(jīng)積累了海量數(shù)據(jù)資源,文本數(shù)據(jù)占據(jù)了85.6%,因此文本數(shù)據(jù)挖掘和分析成為人們研究的熱點(diǎn),并且引起了百度、Google、京東、騰訊等互聯(lián)網(wǎng)公司關(guān)注。可以在文本數(shù)據(jù)挖掘中引入支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)、K均值算法,但是這些算法需要依賴經(jīng)驗(yàn)知識,不能夠從多維度挖掘文本數(shù)據(jù)。因此,為了解決上述問題,本文提出構(gòu)建一種基于信息論的文本數(shù)據(jù)挖掘算法,該算法可以從海量文本數(shù)據(jù)集中發(fā)現(xiàn)潛在的有價(jià)值的信息,提高文本分類的準(zhǔn)確度。

【關(guān)鍵詞】信息論 文本數(shù)據(jù) 數(shù)據(jù)挖掘 準(zhǔn)確度

1 引言

文本數(shù)據(jù)挖掘包括兩個(gè)大類別,一種是有監(jiān)督學(xué)習(xí)方法,比如BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯理論;一種是無監(jiān)督學(xué)習(xí)方法,比如譜聚類、密度聚類、K均值、信息論等方法。有監(jiān)督文本數(shù)據(jù)挖掘方法需要利用人們的經(jīng)驗(yàn),預(yù)先構(gòu)建一個(gè)分析模型,然后盡可能地提高這個(gè)學(xué)習(xí)模型的準(zhǔn)確性,從而保證文本數(shù)據(jù)挖掘的精確度;無監(jiān)督學(xué)習(xí)方法卻不需要任何先驗(yàn)知識,系統(tǒng)自動(dòng)地將文本數(shù)據(jù)按照不同的關(guān)注角度進(jìn)行分類。

2 文本數(shù)據(jù)處理發(fā)展現(xiàn)狀

文本數(shù)據(jù)處理自從誕生之后,從簡單的人工標(biāo)注發(fā)展到當(dāng)前的自動(dòng)挖掘,文本數(shù)據(jù)挖掘取得了顯著的應(yīng)用成效。本文結(jié)合筆者實(shí)踐知識,簡要介紹BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、K均值三種具有代表性的文本數(shù)據(jù)挖掘算法。BP神經(jīng)網(wǎng)絡(luò)能夠按照統(tǒng)計(jì)學(xué)規(guī)則,實(shí)現(xiàn)文本數(shù)據(jù)處理,輸入層可以接收所有數(shù)據(jù),并且將這些數(shù)據(jù)傳輸給中間層的神經(jīng)元,神經(jīng)元負(fù)責(zé)數(shù)據(jù)信息處理、變換,并且能夠根據(jù)信息變化能力的需求,改變和整合中間層結(jié)構(gòu)。文本數(shù)據(jù)流經(jīng)過識別和處理之后,就可以從中間層分發(fā)到輸出層,這樣就可以完成一次學(xué)習(xí)過程,將BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為一個(gè)準(zhǔn)確度非常高的模型,還可以通過誤差梯度下降等修正各個(gè)層次的權(quán)值,向隱藏層逐級反饋,實(shí)現(xiàn)反向傳播和修正,提高文本數(shù)據(jù)識別精確度。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的模式識別算法,是一個(gè)二類分類模型,在文本數(shù)據(jù)分析過程中,可以將文本數(shù)據(jù)劃分為正常數(shù)據(jù)或非法數(shù)據(jù),并且可以對文本數(shù)據(jù)進(jìn)行深度分析。支持向量機(jī)是一種性能強(qiáng)大的文本數(shù)據(jù)分析技術(shù),其可以解決樣本數(shù)量較少、非線性或高維模式數(shù)據(jù)分析的問題,比如推廣到函數(shù)擬合的其他類型數(shù)據(jù)分析問題中,可以更好地分析數(shù)據(jù)、識別模式,用于分類和回歸分析。K均值(K-means)算法是一種基于距離的聚類算法,其可以把距離作為相似性評價(jià)和度量指標(biāo),采用無監(jiān)督學(xué)習(xí)模式,通常兩個(gè)文本數(shù)據(jù)對象的距離越近,這兩個(gè)文本數(shù)據(jù)對象的相似性就會(huì)越高,不需要指定數(shù)據(jù)的類別標(biāo)簽就可以獲取文本內(nèi)部結(jié)構(gòu),將文本數(shù)據(jù)匯聚在一起,實(shí)現(xiàn)數(shù)據(jù)解釋。

3 一種基于信息論的文本數(shù)據(jù)挖掘算法設(shè)計(jì)

在信息論中,熵是最基本的概念之一,熵可以用來度量隨機(jī)變量中的各種不確定性,服從p(x)分布的離散隨機(jī)變量X的熵H(X)的計(jì)算過程如公式1所示。

(1)

互信息可以描述任意兩個(gè)概率分布之間的信息量,假設(shè)給定了任意兩個(gè)隨機(jī)變量(X,Y)服從概率分布p(x,y),同時(shí)變量X的邊緣概率分布p(x)=∑Y p(x,y),變量Y的邊緣概率分布p(y)=∑X p(x,y),則隨機(jī)變量X和隨機(jī)變量Y之間包含的互信息如公式2所示。

(2)

其中,如果隨機(jī)變量X和隨機(jī)變量Y之間是相互獨(dú)立的,則兩個(gè)隨機(jī)變量之間的互信息I(X;Y)=0。

在使用文本數(shù)據(jù)挖掘算法的過程中,可以使用變量X描述文本數(shù)據(jù)對象集合,x可以具體指代某一篇文檔;使用變量Y描述單詞特征變量集合,y可以具體指代某一篇文檔的單詞特征。基于互信息的文本信息處理算法從X和Y兩個(gè)方向開始聚類,詳細(xì)描述如下:

從X方向挖掘文本數(shù)據(jù)過程中,可以將Y作為相關(guān)信息;從Y方向挖掘特征數(shù)據(jù)過程中,可以將X作為相關(guān)信息;X和Y在聚類過程中都是動(dòng)態(tài)地減少,如果將所有的文本數(shù)據(jù)劃分為多層聚類模式,就可以更加準(zhǔn)確地挖掘數(shù)據(jù)內(nèi)容,實(shí)現(xiàn)對數(shù)據(jù)的操作和處理。具體地,為了能夠度量文本數(shù)據(jù)挖掘的內(nèi)容,可以把互信息作為信息保存的量進(jìn)行設(shè)置,如果互信息損失達(dá)到閾值,則可以停止算法執(zhí)行。

為了能夠驗(yàn)證本文算法的有效性,采用Lang收集2000篇信息文檔進(jìn)行實(shí)驗(yàn),分為9個(gè)子數(shù)據(jù)集,每一個(gè)文本數(shù)據(jù)集包含了500篇文檔,Binary_1,2,3表示擁有兩個(gè)真實(shí)類別的文檔數(shù)據(jù)集;Multi5_1,2,3可以描述擁有五個(gè)真實(shí)類別文檔數(shù)據(jù)集;Multi10_1,2,3可以描述擁有十個(gè)真實(shí)類別文檔數(shù)據(jù)集。通常情況下,文本數(shù)據(jù)挖掘采用精確度作為評價(jià)算法運(yùn)行結(jié)果的標(biāo)準(zhǔn),算法運(yùn)行結(jié)果精確度評價(jià)公示如公式3所示。

(3)

其中,t∈T,其可以描述相關(guān)的數(shù)據(jù)對象;c∈C,其可以描述相關(guān)的類別號或簇標(biāo)號;A1(c,T)可以描述相關(guān)的已經(jīng)正確分配到c中的文檔或元組的數(shù)量;A2(c,T)可以描述相關(guān)的算法不正確的分配到c中的文檔或元組的數(shù)量;A3(c,T)可以描述相關(guān)的不正確的沒有分配到c中的文檔或元組的數(shù)量。

4 結(jié)束語

實(shí)驗(yàn)結(jié)果顯示,本文提出的基于信息論的文本數(shù)據(jù)挖掘算法可以精準(zhǔn)發(fā)現(xiàn)文檔類別,文本數(shù)據(jù)挖掘精確度達(dá)到了96.7%,能夠根據(jù)用戶的輸入請求推薦更加準(zhǔn)確地挖掘結(jié)果,可以為百度搜索、搜狗、騰訊、京東等網(wǎng)站的搜索引擎提供服務(wù),具有重要的作用和意義。

參考文獻(xiàn)

[1]黃蓉.基于聚類分析的數(shù)據(jù)挖掘方法研究[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,48(01).

[2]張軍,劉文杰.一種新的基于鄰居樣本分布特征的異常值檢測算法研究[J].科技通報(bào),2017(01):86-88.

[3]尹治華,張大鵬,譚明,等.一種改進(jìn)的基于FP-Tree的高效挖掘最大頻繁項(xiàng)目集算法[J].濟(jì)南大學(xué)學(xué)報(bào):自然科學(xué)版,2017,31(02).

作者單位

云南科技信息職業(yè)學(xué)院 云南省昆明市 650224

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 欧美α片免费观看| 国产在线一二三区| 91在线播放国产| 国产一区二区三区在线精品专区| 国产精品尤物在线| 少妇精品在线| 国产成人乱无码视频| 日韩欧美国产精品| 日韩毛片免费| 无码精品一区二区久久久| 亚洲无码在线午夜电影| 国产精品蜜臀| 欧日韩在线不卡视频| 在线观看国产黄色| 伊人丁香五月天久久综合| 日韩精品成人在线| 91午夜福利在线观看| 麻豆国产原创视频在线播放| 色播五月婷婷| 91视频精品| 久青草国产高清在线视频| 成人一级黄色毛片| 亚洲精品天堂在线观看| 黄色三级网站免费| 精品伊人久久久香线蕉 | 亚洲女人在线| 国产欧美日韩视频怡春院| 日本一区二区三区精品AⅤ| 一级毛片免费观看久| 香蕉网久久| 97se亚洲综合在线韩国专区福利| 最新精品久久精品| 天堂成人在线| 99re视频在线| 国产精品毛片一区| 日日拍夜夜嗷嗷叫国产| 手机看片1024久久精品你懂的| 欧美黄网站免费观看| 欧美精品导航| 日本久久网站| 欧美激情成人网| 国产一区二区色淫影院| 91小视频在线观看| 欧美a级完整在线观看| a级毛片免费看| 久久成人免费| 久久久久国产一级毛片高清板| 国产精品分类视频分类一区| 亚洲国产精品一区二区第一页免| 漂亮人妻被中出中文字幕久久| 亚洲午夜片| 六月婷婷激情综合| 国产精鲁鲁网在线视频| 色视频久久| 欧美色综合久久| 欧美性精品| 亚洲精品午夜天堂网页| 免费一级成人毛片| 色偷偷男人的天堂亚洲av| 亚洲视频一区| 中国一级毛片免费观看| 亚洲欧美成人| 国产乱码精品一区二区三区中文 | 九九久久精品国产av片囯产区| 亚洲an第二区国产精品| www精品久久| 亚洲第一成网站| 凹凸国产熟女精品视频| 精品午夜国产福利观看| 国产高潮流白浆视频| 国产乱子伦视频在线播放| 欧美中文字幕无线码视频| 日韩精品亚洲精品第一页| 被公侵犯人妻少妇一区二区三区| 中文无码精品A∨在线观看不卡| 欧美精品成人| 国产高清毛片| 欧美激情视频一区二区三区免费| 亚洲性一区| 91po国产在线精品免费观看| 国产日韩欧美黄色片免费观看| 欧美午夜久久|