999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹方法的突發事件新聞分類

2020-06-13 07:27:46閆宏麗羅永蓮
電子技術與軟件工程 2020年2期
關鍵詞:分類

文/閆宏麗 羅永蓮

(晉中學院信息技術與工程學院 山西省晉中市 030619)

1 引言

決策樹學習是以實例為基礎的歸納學習算法[1],它著眼于從一組無次序、無規則的事例中推理出決策樹表示形式的分類規則,通常用來對未知數據進行分類或預測[2]。在J.R.Quinlan于1986年提出ID3算法以后,決策樹方法在機器學習、知識發現領域得到了進一步應用及巨大的發展[3]。

突發事件新聞可分為多個類別,不同類別的新聞用詞差別較大。如交通事故新聞中出現“公路”、“側翻”、“超速”、“客車”等的頻率較高;疾病傳染類的新聞則常出現“疫苗”、“隔離”、“預防”、“病毒”、“療效”等詞。上述詞語在一則新聞中很少單獨出現,即一些相關詞匯常同時出現在一個事件新聞中[4,5]。通過分析發現突發事件新聞文檔具有以下特點:

(1)事件新聞描述有許多相似之處。

(2)同一類事件用詞類似,語句格式也很相似。

(3)不同事件有各自特殊的用語,可以用圖1表示其部分層次結構。

根據上述特點,設計基于決策樹的分類算法將成組出現的類別關鍵詞作為決策樹的屬性項,本組詞語在一篇新聞文檔中同時出現的詞數作為屬性項的值,通過判定文檔的詞語組合情況實現分類。

2 突發事件新聞的文檔表示

2.1 提取類別組合詞串

對于訓練樣本集中的每一個類別,分別選取與此類別相關的詞條作為本類特征詞。然后由特征詞中抽取類別組合詞串,對于每一類新聞可抽取若干組合詞串,為防止詞語過度組合,影響分類效果,限定每個組合詞串包含10個以內的詞語。

其中nij為類別ci中包含詞條wj的文檔數,nj為訓練集中包含詞條wj的文檔數,ni為類別ci中的文檔總數,N為訓練集的文檔總數。

將類別ci的特征詞按降序排列,生成特征詞集TSi,按下列步驟提取本類的組合詞串:

第1步 若TSi中的特征詞數為0或1,則抽取結束,否則取TSi的第一個特征詞Tf;

圖1:新聞事件的層次結構示意圖

第2步 檢索本類中與Tf在同一文檔中出現的所有特征詞,并生成Tf的候選組合詞集

第3步 若T為空,從TSi中刪除Tf,轉入第1步,否則對于統計其與Tf同時出現的文檔數

第5步 若此時T為空,從TSi中刪除Tf,轉入第1步,否則,取T中的前10個詞(若詞數不足10個,則取全部詞)與Tf組成類別Ci的一個類別組合詞串;

第6步 將上述組合詞串中的所有詞從TSi中刪除,轉入第一步。

2.2 文檔表示

規則1 若fi包含的詞條個數為5個或5以下,di的值為fi中的詞條在文檔中的出現個數,若文檔中不包含fi中的任何一個詞條,則di賦值為0。

規則2 若fi包含詞條個數為5個以上,則di的值為0到6 間的整數,當fi中的詞條在文檔中的出現個數大于5時,di賦值為6,其他值的賦值方法與規則1相同。

3 建立決策樹并實現分類

3.1 計算屬性項的信息增益

信息增益是決策樹分類方法中常用的一種特征值計算方法,它利用熵來計算屬性項的信息增益值,并作為決策樹創建節點的依據。各屬性項的信息增益計算公式為:

其中,I(c)表示類別的熵,其計算公式為:

pi是某新聞文檔被標識為ci類別的概率,可用當前樣本集中ci類的文檔數與文檔總數的比值來估計。

I(f)表示若按屬性項f分類時類別的熵,若當前樣本集根據屬性項f的v個不同取值可分為v個子集,I(f)的計算公式為:

p(fj)是屬性項f取第j個值的概率,可用第j個子集的文檔數與樣本集文檔總數的比值來估計。

E(fj)是屬性項f第j個值所提供的信息熵,其計算公式為:pij是當f取第j個值時文檔被標識為ci類別的概率,可用第j個子集中ci類的文檔數與第j個子集文檔總數的比值來估計。

3.2 生成決策樹

計算屬性項的信息增益,根據屬性項的信息增益值建立分枝,直至結點對應的分枝符合算法終止條件,此時生成決策樹[6,7]。生成決策樹的操作為:

第1步 生成一棵空決策樹,選取信息增益值最大屬性項的作為當前節點,根據屬性項的值建立多個分枝。

第2步 對于每個分枝,算法當下列條件之一時終止:

(1)當前分枝中的新聞文檔屬同一類別,此時設置此節點的類別標記為文檔所屬類別,并設置此節點的可信度為100%;

(2)當前分枝中的新聞文檔總數低于閾值,設置節點標記分類失敗,并設置此節點的可信度為0;

(3)訓練集訓練完畢,此時根據當前分枝中的多數標記此節點的類別標記,并設置此節點的可信度為類別正確的新聞文檔數與訓練集總數的比值。

第3步 否則,對當前分枝重復步驟1和步驟2。

3.3 利用決策樹實現分類

4 實驗結果與分析

為了驗證算法有效性,采用以下2種方式從網上搜集突發事件新聞作為信息資源。一是利用搜索引擎搜集資源。所有的搜索引擎和網絡信息資源數據庫都提供檢索功能,即在主頁上都有檢索輸入框可供輸入檢索詞。通過對突發事件用詞特點的分析,用適當的檢索詞,從此類資源中獲取相關網頁。為了使信息采集更準確、完整,在向搜索引擎提出搜索請求后,繼續進行關鍵詞擴充,即分析獲得的新聞語料,增加檢索詞。二是利用已有的新聞網站搜集資源。從選定的新聞分類網站上搜索新聞網頁,并通過相應的鏈接搜索更多類似網站并從中搜索新聞網頁。按新聞類別及發布時間、網站等分別采集新聞網頁2000篇,其中1500篇作為訓練集,500篇作為測試集。將訓練樣本分為5類,每一類300篇,測試500篇測試文檔的分類效果。

初始特征詞的選擇與閾值θ有關,測試當θ取不同值時分類準確的文檔數,其結果如圖2所示。

圖2:θ值的選取與分類正確文檔數的關系圖

由圖2可知,當θ小于1.2時,分類準確率趨于穩定,由于θ較小時,所選特征詞增加,其分類效果也較好,但若特征詞過多,一方面計算復雜度增加,另一方面,也會因其他詞的干擾,分類效果變差。由實驗結果可知若選取適當的參數,分類正確的文檔數達到439篇,即分類準確率達到87.8%。

5 結論

提出了一種突發事件新聞分類的方法。該方法為減少節點數,實現準確快速地分類,將新聞文檔中的相關特征詞進行組合,作為判定屬性項,計算其信息增益,以建立決策樹。在分類過程中,由測試文檔中組合詞的出現情況作類別判定。由實驗結果表明,上述算法有效。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 成人国产精品视频频| 无码专区在线观看| 亚洲第七页| 四虎永久在线精品影院| 亚洲国产一区在线观看| 国产内射在线观看| 嫩草国产在线| 区国产精品搜索视频| 亚洲精品中文字幕午夜| 极品av一区二区| 亚洲人成人无码www| 丝袜久久剧情精品国产| 日韩国产黄色网站| 国产青榴视频| 97se亚洲综合| 免费中文字幕在在线不卡| 视频一本大道香蕉久在线播放 | 永久成人无码激情视频免费| 日韩在线第三页| 精品视频免费在线| 国模视频一区二区| 国产在线观看一区二区三区| 久久免费视频6| 免费国产高清精品一区在线| 幺女国产一级毛片| 亚洲欧美色中文字幕| 亚洲高清免费在线观看| 亚洲综合日韩精品| 40岁成熟女人牲交片免费| 国产在线第二页| 精品视频第一页| 亚洲综合片| 四虎亚洲国产成人久久精品| 久久国产免费观看| 91久久偷偷做嫩草影院电| 久久99久久无码毛片一区二区| 免费在线视频a| 久久99久久无码毛片一区二区| 内射人妻无码色AV天堂| 国产精品偷伦在线观看| 日韩精品一区二区三区视频免费看| 国产视频只有无码精品| 日韩福利视频导航| 国产人成网线在线播放va| 特级做a爰片毛片免费69| 欧美一区二区三区不卡免费| 手机在线免费毛片| 欧美成人午夜视频免看| 99久久免费精品特色大片| 欧美一区二区福利视频| 野花国产精品入口| 欧美精品亚洲精品日韩专区va| 国产一区二区色淫影院| 成人毛片在线播放| 日韩中文无码av超清| 91精品国产91久久久久久三级| 欧美第九页| 成人字幕网视频在线观看| 国产福利拍拍拍| 国产麻豆aⅴ精品无码| 国产福利免费视频| 在线观看国产小视频| 无码不卡的中文字幕视频| 高潮爽到爆的喷水女主播视频| 精品久久人人爽人人玩人人妻| 九色视频一区| 亚洲成人网在线观看| 色综合网址| 久久亚洲中文字幕精品一区| 久久综合九九亚洲一区| 亚洲综合色区在线播放2019| 日韩欧美在线观看| 国产一级毛片网站| 91精品日韩人妻无码久久| 欧美人人干| 最新国产精品鲁鲁免费视频| 91区国产福利在线观看午夜| 国产精品毛片在线直播完整版| 日韩午夜福利在线观看| 精品国产免费观看一区| 日韩欧美一区在线观看| 久草青青在线视频|