999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web文本挖掘在智能分類中的應(yīng)用

2013-08-16 06:19:32張黎黎
山東工業(yè)技術(shù) 2013年11期
關(guān)鍵詞:單詞分類文本

張黎黎

(長春工程學(xué)院,吉林 長春130012)

1 文本挖掘概述

文本挖掘,又稱為“文本數(shù)據(jù)挖掘”或“文本知識發(fā)現(xiàn)”,是從文本數(shù)據(jù)中抽取隱含的、未知的、潛在且有用信息的過程。它是個分析文本數(shù)據(jù)、抽取文本信息,進(jìn)而發(fā)現(xiàn)文本知識的過程。文本挖掘的出現(xiàn)為文本信息的整理、分析、挖掘提供了有效手段[1]。

文本挖掘的主要目標(biāo)是獲得文本的主要內(nèi)容特征,如文本的主題、文本主題的類屬、文本內(nèi)容的濃縮等。文本挖掘主要有特征抽取、文本分類、聚類等技術(shù)。從提取特征值作為起始點(diǎn),將自然語言文本自動分配給預(yù)定義的類別,利用文本特征向量對文本進(jìn)行分類,再將一個數(shù)據(jù)對象的集合分組成為多個類或簇,從而產(chǎn)生類標(biāo)記。

2 Web 文本挖掘

Web 文本挖掘是指使用中心詞匯來表示文檔的方法。利用給出求取中心文檔和中心詞匯的算法[2],對Web 上大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類和關(guān)聯(lián)分析,亦可利用Web 文檔進(jìn)行趨勢預(yù)測。

Web 文本挖掘過程中[3],關(guān)注的是信息元素本身的內(nèi)容與意義,是以文本、圖片、音頻、視頻或者結(jié)構(gòu)記錄等信息內(nèi)容為對象,從中挖掘知識內(nèi)容和語義關(guān)聯(lián)模式。

Web 文本挖掘是通過HTML 文檔進(jìn)行信息的采集,將分布在Web 服務(wù)器上的待挖掘文檔集成在本地文本庫中提取有用的Web 文本信息。然后,采用基于詞典的逐字二分查找方法自動分詞。采用向量空間模型和語義檢索技術(shù)表示文本,采用評估函數(shù)X2統(tǒng)計法對文本的名稱、類型、大小等特征進(jìn)行提取。Web 文本挖掘流程如下圖所示:

圖Web 文本挖掘的基本流程

3 文本分類常用算法

文本分類的算法有很多種,其中最常用到的是TFIDF 方法和Naive Bayes 算法。TFIDF 的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力。TFIDF 方法傾向於過濾掉常見的詞語,保留重要的詞語。

Naive Bayes 算法是以闕值大小對文本數(shù)據(jù)進(jìn)行劃分[4]。利用:

其中,χi指C 類文檔第i 個特征,Pr(χi/d )是從C 類文本中得到特征詞χi的概率,Pr(χi/d )是從文本d 中得到特征詞χi的概率,n 指d 中詞的個數(shù),m 是系統(tǒng)詞典的大小。若所得闕值大于預(yù)先設(shè)定的值,則認(rèn)為文本d 屬于C 類別,否則不是。

從概率的大小來研究,Naive Bayes 算法可描述為: 設(shè)文檔d 的文檔向量的分量為相應(yīng)的特征詞在該文檔中出現(xiàn)的頻度,則d 屬于C 類文檔的概率公式為:

4 實(shí)例說明

利用Naive Bayes 算法,通過對用戶提交信息的關(guān)鍵字的提取,對專利信息進(jìn)行智能歸類。

現(xiàn)假設(shè)已經(jīng)對用戶提交信息提取完畢,形成的樣本為: 發(fā)明、請求、權(quán)利。且已事先給定一組分好類的文本作為訓(xùn)練數(shù)據(jù)(如表1),完成對新樣本的分類。

表1

如上所述,該文本用屬性向量表示為d=(發(fā)明、請求、權(quán)利),類別集合為Y={發(fā)明專利、外觀專利}。

類“發(fā)明專利”下總共有5 個詞語,類“外觀專利”下總共有3 個單詞,訓(xùn)練樣本單詞總數(shù)為8,因此P(發(fā)明專利)=5/8,P(外觀專利)=3/8。類條件概率計算如下:

P(發(fā)明|發(fā)明專利)=P(權(quán)利|發(fā)明專利)=P(請求|發(fā)明專利) =(1+1)/(5+)=2/8

P(發(fā)明|外觀專利)=P(權(quán)利|外觀專利)=(0+1)/(3+)=1/6

分母中的5,是指“發(fā)明專利”類別下文本長度,也即訓(xùn)練樣本的單詞總數(shù),3 是指訓(xùn)練樣本有:發(fā)明、請求、權(quán)利共3 個單詞,是指“外觀專利”類下共有3 個單詞。

有了以上類條件概率,開始計算后驗(yàn)概率:

P(發(fā)明專利|d)=2/8×2/8×2/8×5/8=5/512≈0.0097656

P(外觀專利|d)=1/6×1/6×2/6×3/8=2/1728≈0.0011574

比較大小,即可知道這個文檔屬于“發(fā)明專利”類別。即將專利信息都?xì)w屬到“發(fā)明專利”類別下,從而減少了人工操作選擇。

5 結(jié)束語

Web 文本挖掘有利于文本特征項的提取和特征縮減,Web 的文本分類算法對Web 文檔的自動分類有極高的參考價值,對Web 文本挖掘有一定的指導(dǎo)意義。然而,對Web 文本的智能分析涉及Web 數(shù)據(jù)自動采集、Web 數(shù)據(jù)自動分析、統(tǒng)計分析、數(shù)據(jù)挖掘和人工智能以及復(fù)雜社會網(wǎng)絡(luò)等技術(shù),是一個復(fù)雜過程。

[1]張群.文本挖掘技術(shù)及其在專利信息分析中的應(yīng)用[J].現(xiàn)代情報,2006(3):209-21.

[2]王繼成.Web 文本挖掘技術(shù)研究[J].大理學(xué)院學(xué)報,2011(4):513-520.

[3]張玉峰,何超.基于Web 挖掘的網(wǎng)絡(luò)輿情智能分析研究[J].實(shí)踐研究,2011(4):64-68.

[4]王一蕾,林世平.Web 文本挖掘三種技術(shù)的比較[J].福建電腦,2003(12):20-21.

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日韩欧美91| 国产成人精品高清不卡在线| 欧美精品另类| 毛片免费试看| 亚洲成在人线av品善网好看| 尤物精品国产福利网站| 成人国产精品一级毛片天堂| 国产成人永久免费视频| 国产欧美精品午夜在线播放| 国产在线观看精品| 99热这里只有精品2| 青青青视频91在线 | 91人妻日韩人妻无码专区精品| 亚洲精品在线观看91| 美女一级毛片无遮挡内谢| 中文字幕第4页| 亚洲三级网站| 亚洲成人一区在线| 日韩一区二区三免费高清| 国产屁屁影院| 特级做a爰片毛片免费69| 国产在线小视频| 尤物国产在线| 日韩a在线观看免费观看| 在线精品自拍| 在线a网站| 亚洲欧美日韩天堂| 亚洲性一区| 国产女人在线| 国产免费精彩视频| 中文无码毛片又爽又刺激| 国产久草视频| 国产在线观看一区精品| 国产福利一区在线| 九色最新网址| 成人精品免费视频| 国产在线精彩视频二区| 国产成人91精品| 亚洲视频一区| 成人免费黄色小视频| 无套av在线| 波多野结衣第一页| 99精品国产高清一区二区| 亚洲av无码人妻| 国产h视频免费观看| 人与鲁专区| 国产91蝌蚪窝| 国产91精选在线观看| 欧美精品高清| 国产不卡一级毛片视频| 国产成人精品男人的天堂下载 | 亚洲无码高清免费视频亚洲| 真实国产乱子伦视频 | 亚洲美女操| 成人免费一区二区三区| 久久久久亚洲Av片无码观看| 国产精品女熟高潮视频| 日韩高清欧美| 国产打屁股免费区网站| 午夜视频免费一区二区在线看| 成人看片欧美一区二区| 天堂网亚洲系列亚洲系列| 午夜精品区| 午夜国产在线观看| 久久国产精品77777| 丝袜亚洲综合| 国产成人综合日韩精品无码首页 | 国产精品偷伦视频免费观看国产 | 亚洲国产综合精品一区| 国产主播喷水| 午夜少妇精品视频小电影| 国产在线自在拍91精品黑人| 精品少妇人妻无码久久| 一本无码在线观看| 中文纯内无码H| h视频在线观看网站| 日日拍夜夜操| 免费观看亚洲人成网站| 亚洲天堂福利视频| 欧美国产日韩另类| 国产在线91在线电影| 欧美 亚洲 日韩 国产|