999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)抽取中文本分類分析與研究

2014-12-23 07:13:42郭東峰
科技視界 2014年9期
關(guān)鍵詞:分類特征文本

郭東峰

(新鄉(xiāng)學院 計算機與信息工程學院,河南 新鄉(xiāng)453000)

0 引言

Web 信息抽取技術(shù)可以大大的縮短人們對資料的整理時間,為信息檢索提供方便,有利于現(xiàn)實文檔的存檔管理。而Web 信息抽取技術(shù)所抽取的內(nèi)容主要為文本,不斷迅速發(fā)展的互聯(lián)網(wǎng)可以被看作是十分巨大的文檔庫,大量的文檔信息通常分散存放在不同網(wǎng)站上,它們具有不同的表現(xiàn)形式。為實現(xiàn)數(shù)據(jù)抽取,首要任務是需要將文本分類處理。

1 文本的表示方法

普通的文本是無結(jié)構(gòu)的,為了讓計算機分析它們所屬的類別,需要將文本轉(zhuǎn)化成可被處理的結(jié)構(gòu)化形式,目前應用最廣泛方法的是向量空間模型,基本思想是把文檔表示向量空間中的一個向量。特征項必須具備一定的特性:

1)特征項要能夠準確標識文本內(nèi)容,表征文本的主題信息;

2)特征項具有將目標文本與其他文本相區(qū)分的能力;

3)特征項的在數(shù)量上不能太多,且出現(xiàn)頻率適中;

4)特征項要容易從文本中分離,具有明確的語義。

在中文文本類中最常用的是采用詞語作為文本的特征項。詞語有幾個優(yōu)點:相對于字具有更強的語義信息歧義較少;相對于短語,詞更容易從文本中進行切分。詞語由于含了多個文字組合,在文本中出現(xiàn)的頻率較低,不適合作為特征項。

文本中關(guān)鍵字出現(xiàn)的頻率統(tǒng)計量用x 表示,最高關(guān)鍵字出現(xiàn)頻率取值為1,其它關(guān)鍵字頻率取其與最高關(guān)鍵字出現(xiàn)次數(shù)的比值。頁面向量空間表達式為:Dt(x1w1,x2w2,…,xnwn),i=1,2,…,n。關(guān)鍵字構(gòu)成的主題向量Dk=(w1,w2,…,wn), i=1,2,…,n。網(wǎng)頁文本Dt 與領(lǐng)域主題Dk之間的內(nèi)容相關(guān)度Sim(Dt,Dk)使用向量夾角余弦值表示:

選擇合適的多個特征詞構(gòu)成特征向量來表征所在的文本主題,使用特征向量作為文檔的中間表示形式進行相互比較,降低了文本相似度算法復雜度。

2 文本特征的選擇

待分類的網(wǎng)頁文本中往往包括很多詞語,這些詞語對分類沒有太大幫助,未經(jīng)篩選特征項集合規(guī)模較大,文本特征向量維數(shù)較高給計算帶來困難。需要提取一個能夠很好地概括領(lǐng)域相關(guān)網(wǎng)頁內(nèi)容的特征子集,同時該子集要求能很好的區(qū)分領(lǐng)域主題。領(lǐng)域關(guān)鍵詞是從領(lǐng)域文本集中經(jīng)過算法選取出來的,能夠高度概括和體現(xiàn)領(lǐng)域文本基本內(nèi)容的詞語。本文將這些詞語通過特征提取算法選擇出來構(gòu)成空間向量。目前常用的特征選擇方法有CHI 統(tǒng)計、信息增益和互信息等。

2.1 CHI 統(tǒng)計

CHI 統(tǒng)計方法衡量詞語t 和文檔類別c 之間的依賴關(guān)系,并假設t 和c 之間的非獨立關(guān)系符合具有一階自由度的x2 分布。詞條對于某類別的x2 統(tǒng)計值越高,表明它們之間的相關(guān)性越大,特征詞t 對類別c 表征能力越強。令N 表示訓練語料中的文檔總數(shù),c 為某一特定類別,t 表示特定的詞條,A 表示屬于類別c 且包含t 的文檔頻數(shù),B表示不屬于類別c 但是包含t 的文檔頻數(shù),C 表示屬于類別c 但不包含t 的文檔頻數(shù),D 是既不屬于c 也不包含t 的文檔頻數(shù)。則t 對于類別c 的CHI 值由下列計算:

2.2 互信息

互信息的基本思想:以詞條t 和類別ci 之間的共同出現(xiàn)程度來表示詞條t 與類別ci 的相關(guān)程度。詞條對于類別的公共概率越大,它們之間的互信息也越大。假設p(t,ci)表示訓練集合中既包含特征t 又屬于類別ci 的文本出現(xiàn)的概率,p(t)表示包含特征t 的文本在訓練集合中出現(xiàn)的概率,p(ci)表示訓練集合中屬于類別ci 的文本的概率,A 為包含詞語t 且屬于類別ci 的文本數(shù),B 為為包含詞語t 且不屬于類別ci 的文本數(shù),C 為類別Ci 中不出現(xiàn)特征t 的文本數(shù),N 為文本總數(shù),則特征t 與類Ci 之間的互信息定義為:

為了衡量一個特征在全局特征選擇中的重要性,計算特征提供的關(guān)于類別信息的加權(quán)平均值。

2.3 信息增益

信息增益方法的基本思想是:通過計算某個特征詞語存在與否對文檔的信息熵的差值來判斷該特征詞的類別表征能力。具體方法是把訓練文檔集D 看作按某種概念分布的信息源,依靠文檔集的信息熵和文檔中詞語t 的條件熵之間信息量的增益關(guān)系確定該詞語在文本分類中所能提供的信息量。

3 中文文本分類方法

文本分類的方法中要有貝葉斯分類、支持向量機、K 近鄰等方法。

3.1 樸素貝葉斯文本分類

貝葉斯分類器其原理是計算文本屬于某個類別的概率,將文本分到概率最大的類別中去,計算時,利用了貝葉斯公式:

P(ci)是類的先驗概率,P(dx|ci)是類的條件概率。對同一篇文本,P(dx)不變。設dx 表示為特征集合(t1,t2,..,tn),n 為特征個數(shù),假設特征之間相互獨立,則有:

其中P(tj|ci)為特征詞的條件概率。

貝葉斯分類器因具有容易實現(xiàn),運算速度快的特點而被廣泛使用。

3.2 K 近鄰

K 近鄰分類算法是一種非參數(shù)的分類技術(shù), 在基于統(tǒng)計的模式識別中非常有效。

基本原理是通過計算待分類文檔與訓練文檔集所有文檔之間的相似度,找出K 個與待分類文檔距離最相近的樣本,即K 個鄰居,并依據(jù)這K 個鄰居所屬的類別來判定待分類文檔的類別。先比較待分類文檔與其k 個鄰居的相似度,并以此作為候選類別的權(quán)重,然后使用預先得到的相似度的閾值,就可以得到文檔的最終所屬類別。

4 結(jié)束語

文本分類技術(shù)在自然語言處理、信息檢索、文本挖掘等領(lǐng)域都有著廣泛的應用,其主要任務是在預先給定的主題類別標記集合下,根據(jù)文本內(nèi)容判定它所屬的類別。文本分類是許多數(shù)據(jù)管理任務的重要組成部分,基于文本分類技術(shù)的應用領(lǐng)域越來越多,自動論文摘要,數(shù)字圖書館、網(wǎng)絡分類新聞組、文本過濾、機器翻譯等獲得大量應用。同時,經(jīng)過分類后的文本可以減少用戶甄別信息時間,滿足不同用戶需求,發(fā)揮信息自身其最大使用價值。

[1]鄭慶華,劉均,田鋒,等.Web 知識挖掘理論、方法與應用[M].科學出版社,2010,6:136-140.

[2]蒲筱哥.基于Web 的信息抽取技術(shù)研究綜述[J].現(xiàn)代情報,2007,10:215-219.

[3]陳釗,張冬梅.Web 信息抽取技術(shù)綜述[J].計算機應用研究,2010,12.

[4]劉偉,孟小峰,孟衛(wèi)一.Deep Web 數(shù)據(jù)集成研究綜述[J].計算機學報,2007,30(9):1475-1489.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 在线观看亚洲天堂| 一本综合久久| 中文成人在线| 国产综合另类小说色区色噜噜 | 91精品啪在线观看国产91九色| 国产色婷婷视频在线观看| 日韩美女福利视频| 美女无遮挡免费视频网站| 大陆国产精品视频| 国产欧美亚洲精品第3页在线| 5555国产在线观看| 国产精品理论片| 亚洲色成人www在线观看| 欧美精品高清| 国产精品久线在线观看| 成人毛片免费在线观看| 日韩精品成人在线| 亚洲三级成人| 国产一级毛片高清完整视频版| 国产精品va免费视频| 婷婷六月综合网| 亚洲天堂啪啪| 国产精品毛片一区视频播| 视频一区亚洲| 国产精品99久久久| 国产精品自在线天天看片| 在线国产欧美| 亚洲Va中文字幕久久一区 | 久久久久人妻一区精品| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲系列无码专区偷窥无码| 国产va免费精品观看| 国产第一页免费浮力影院| 日本一区高清| 青青热久免费精品视频6| 一区二区三区四区在线| 无码av免费不卡在线观看| 日本高清在线看免费观看| 久久国产精品电影| 无码啪啪精品天堂浪潮av| 久久精品国产999大香线焦| 国产精品网址你懂的| 18禁色诱爆乳网站| 久久中文无码精品| 亚洲一区二区三区国产精品 | 不卡视频国产| 久久香蕉国产线看观看亚洲片| 久久久波多野结衣av一区二区| 乱码国产乱码精品精在线播放| 欧美第二区| 国产成人欧美| 亚洲国产日韩在线观看| 99精品欧美一区| 国产一区二区精品高清在线观看| 欧洲免费精品视频在线| 日韩资源站| 2021最新国产精品网站| 米奇精品一区二区三区| 青青青草国产| 国产成人综合日韩精品无码首页| 五月天香蕉视频国产亚| 久久国产精品77777| 男女猛烈无遮挡午夜视频| 亚洲国产中文综合专区在| 国产成人一区在线播放| 国产在线啪| 日韩无码精品人妻| 99久久无色码中文字幕| 色婷婷在线播放| 精品视频一区二区三区在线播| 波多野结衣一区二区三视频| 久久久精品久久久久三级| 日本精品αv中文字幕| 综合色88| 免费啪啪网址| 精品一区二区三区中文字幕| 久久婷婷国产综合尤物精品| 欧美日韩成人| 四虎免费视频网站| 欧美精品啪啪| 亚洲精品第1页| 久久成人国产精品免费软件|