999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合主題競爭關系的短文本分類方法

2022-09-28 07:29:44潘智勇
智能計算機與應用 2022年9期
關鍵詞:詞匯分類特征

潘智勇,趙 港

(北華大學 計算機科學技術學院,吉林 吉林 132013)

0 引 言

隨著網絡信息數據量的快速增長,以微博、Twitter和博客等為代表的網絡短文本已成為重要的數據資源。與此同時,對這些網絡短文本的信息處理也得到了更為廣泛的關注,而數據表達特征的有效性,將直接決定著分類的準確率。由于文本中含有大量的同義詞和多義詞,傳統基于詞頻統計的文本處理方法將會受到一定影響,限制模型應用。以隱狄利克雷分配(Latent Dirichlet Allocation,LDA)模型為代表的主題模型基于詞匯與主題的共現關系,以主題作為底層特征和上層語義之間的中層特征,有效地克服了同義詞和多義詞的影響。針對短文本數據,Zhang等人結合詞匯及隱主題作為新的詞匯來學習短文本的向量表達,提高了文檔的表達能力。劉愛琴等人利用LDA模型分析短文本,提取主題詞,并以主題與詞匯的共現矩陣對短文本進行分類。Yan等人提出詞匯對主題模型(biterm topic model,BTM),該模型基于短文本數據中詞與詞共現關系,提取“詞匯對”作為文檔的基本特征,從而建立語料級的詞匯共現關系,克服忽略詞匯關系的不足。BTM通過“詞匯對”與主題的共現關系提取主題特征,在短文本數據分類問題上得到了較好的應用。Yang等人利用詞匯共現關系和類別詞匯的相似性,提出種子詞匯對主題模型(Seeded Biterm Topic Model,SBTM),并且利用附加用戶信息,提出種子推特詞匯對主題模型(Seeded Twitter Biterm Topic Model,STBTM)。但是,上述模型均基于主題獨立性假設,利用詞匯或詞匯對與主題的共現關系提取主題特征,忽略了主題之間的關系,影響了主題特征的表達準確性。

以 卷 積 神 經 網 絡(Convolutional Neural Networks,CNN)模型為代表的深度學習算法,在自然語言處理和圖像處理領域均取得了較好的應用。CNN通過多層神經網絡提取表達局部特征的神經元,在全連接層(fully-connected layer)建立各層神經元之間的全局關系,從而提高特征表達能力。作為中層特征的主題為隱變量,在表達文檔的過程中存在冗余的問題。Chen等人提出Kate模型,將競爭關系引入到神經元的主題獲取過程,使神經元的主題更具有區分度,同時降低全連接層模型參數,提高了主題學習效率。但上述模型以詞匯作為局部特征,易受到同義詞和多義詞的影響。

本文融合BTM詞匯對表達和面向文本的競爭自 編 碼(competitive autoencoder for text,Kate)主題競爭關系,并利用全連接層構建起文檔中主題之間的全局關系,提出競爭全連接主題網絡模型(competitive fully-connected topic network,KFTN)。KFTN以“詞匯對”表達文檔數據,降低了短文本對主題表達的影響,引入了主題競爭關系,增強主題特征的表達能力,建立起語料級的詞匯關系和主題間的全局關系,從而提高短文本分類的準確率。

1 相關模型背景

1.1 詞匯對主題模型

由于短文本文檔詞匯數量較少,詞匯特征過于稀疏,同時隱狄利克雷分配(LDA)模型基于詞匯獨立性假設,限制了LDA模型提取主題特征的準確性。詞匯對主題模型(BTM)基于文檔中共現的詞匯構建無向詞匯對,利用詞匯對與主題的后驗概率,對文檔中主題特征進行采樣。BTM構建的詞匯對融入了詞匯的共現關系,解決了短文檔的稀疏性問題。LDA與BTM模型的概率圖模型如圖1所示。

圖1 LDA和BTM的概率圖模型Fig.1 Graphical models of LDA and BTM

從圖1中可以看出,LDA中相互獨立的主題產生相互獨立的詞匯,而BTM以相互獨立的主題產生詞匯對(ww)。因此,與LDA主題采樣不同,BTM的主題采樣過程為:

1.2 面向文本的K競爭自編碼模型

面向文本的競爭自編碼(competitive autoencoder for text,Kate)模型在隱層編碼過程中,以前個權重絕對值較大的神經元作為關鍵主題,并將其它神經元的權重分別轉移到正負權重較大的神經元后置0,進一步增大關鍵主題權重。經過引入競爭關系,使重點主題更加突出,增強主題特征稀疏性,降低其它主題的影響。

Kate模型K競爭層結構如圖2所示。圖2中,競爭層和分別為正負權重最大神經元,其它神經元按正負權重分別相加后,以超參為系數增加和權重。

圖2 Kate模型K競爭層結構圖Fig.2 The architecture of K-competitive layer

2 K競爭全連接主題網絡模型

本文結合BTM“詞匯對”表達和Kate主題競爭關系,提出競爭全連接主題網絡模型(KFTN)。該模型以融合詞匯共現關系的“詞匯對”表達短文本,提取主題作為初始主題特征。將初始主題特征引入競爭關系,增強主題特征稀疏性,突出關鍵主題作用,并以全連接結構建立主題間全局關系,提高主題特征表達的準確性。KFTN文檔處理主要結構如圖3所示。這里對KFTN主要部分擬展開闡釋分述如下。

(1)主題初始采樣。KFTN利用詞匯共現關系提取無向“詞匯對”表達文檔(參見圖3中同一顏色表示一組詞匯對),建立起主語料級的詞匯共現關系,從而使文檔由詞匯表達轉為“詞匯對”表達。利用式(1)采樣計算后驗概率,提取具有一定中層語義的主題,作為初始主題特征。

圖3 KFTN文檔處理主要結構圖Fig.3 The main architecture of KFTN for documents processing

(2)競爭層。經主題初始采樣,KFTN以主題特征表達文檔。但所提取的主題基于獨立性假設,忽略了主題之間關系,同時主題特征中還存在一定的噪聲。因此,研究中為突出重點主題,增強主題特征稀疏性,降低噪聲主題的影響,競爭層引入競爭機制,對主題特征進行重新編碼/解碼,保留具有代表性的項主題(正負權重各2項),其它主題權重置0。由圖3可見,、分別表示非代表性主題的正負權重和,則正權重代表性主題權重由w重編碼為w+mα,負權重代表性主題權重由w重編碼為w+nα。其中,為權重系數。

(3)全連接層。全連接層以主題全連接結構建立競爭層提取的項代表性主題,從而構建主題之間全局關系,更準確表達數據。增加全連接層的層數可以提高模型的擬合,但會嚴重增加模型參數規模。各全連接層主題以線性關系連接:

其中,Z為各層主題特征;為權值參數:為偏置參數。

3 實驗分析

本文實驗數據來源于20newsgroup和Reuters-21578兩個標準新聞短文本數據集。其中,20newsgroup由18 846篇新聞組成,涉及政治、宗教、計算機科學、體育等20類新聞,每篇文檔屬于一類。Reuters-21578由路透社新聞報道組成,用以完成信息檢索和機器學習等基于語料庫的研究。實驗根據文檔中主題標簽,以植物、金融和貿易等68類主題詞的11 305篇文檔為數據集,每篇文檔包含一至多個主題詞。

實驗過程中,選取具有代表性的4組主題數(100、200、500和1 000),以文檔主題分布作為liblinearSVM和分類器特征,對比不同主題數的情況下,KFTN與LDA和BTM的短文本分類實驗準確率。

3.1 20newsgroup短文本分類實驗

為獲得更為公平的對比結果,在20newsgroup短文本分類中,以3次交叉驗證的平均分類準確率,對比和評價不同模型。不同模型在20newsgroup數據集短文本分類的對比結果如圖4所示。

圖4 20newsgroup短文本分類對比結果Fig.4 The comparison results of short-text classification on 20newsgroup

圖4中,BTM模型通過“詞匯對”建立詞匯間的共現關系,克服了詞匯特征過于稀疏和忽略詞匯關系的不足,其分類準確率高于LDA模型。對于相同主題特征,與線性SVM準確率相近,但更關注標簽與得分的相似度,其準確率略高于線性SVM。KFTN以“詞匯對”建立底層特征,競爭關系突出重點主題,同時建立主題全局關系,更有效地表達短文本數據,其分類準確率高于其它模型。

20newsgroup數據集由20類新聞組成,主題作為文檔的中層特征,并不能直接表示新聞類別。同時隨著主題數的增加,主題特征的表達能力也得到增強,分類準確率得到提高。但過高維度的主題特征會造成特征過于稀疏,增加模型參數規模,影響模型學習的效率和應用。因此,當主題數達到500時,KFTN分類準確率趨于穩定。

3.2 Reuters-21578短文本分類實驗

Reuters-21578數據集中文檔為多標簽文檔,因此本文通過3次交叉驗證方法,以_和_對比和評價不同模型。表1為不同模型在Reuters-21578數據集短文本分類的實驗對比結果。

表1 Reuters-21578短文本分類對比結果Tab.1 The comparison results of short-text classification on Reuters-21578

采用分類器交叉熵作為損失函數,衡量標簽與得分的相似度,更有利于多標簽分類,因此其分類準確率略高于線性SVM分類器準確率。基于“詞匯對”表達方法的BTM模型對于短文本的表達能力優于基于詞頻的LDA模型,在各個主題數下,分類準確率都高于LDA模型。由于_易受到識別性高的類別影響,LDA主題特征基于主題獨立性假設,更易提取識別性高的類別特征。因此,在分類過程,LDA模型的_值略高于BTM模型。但LDA和BTM均忽略了詞匯關系和主題關系,影響了主題特征表達。KFTN模型融合詞匯關系和主題全局競爭關系,提取的主題特征更為準確有效,因此分類準確率高于LDA和BTM模型。

4 結束語

針對主題模型等算法處理短文本數據的不足,從短文本數據特點展開研究,本文提出競爭全連接主題網絡模型(KFTN)。通過構建“詞匯對”表達和引入主題權重競爭,建立詞匯語料級關系和主題全局關系,突出重點主題的特征表達,降低了噪聲對主題特征的影響。KFTN克服了主題模型忽略詞匯關系和主題關系的不足,增強了主題特征的表達能力,提高了短文本分類的準確性。

猜你喜歡
詞匯分類特征
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
如何表達“特征”
本刊可直接用縮寫的常用詞匯
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 成人国产精品一级毛片天堂| 国产欧美在线观看视频| 亚洲国产精品一区二区第一页免 | 国产精品99一区不卡| 成人无码区免费视频网站蜜臀| 日日摸夜夜爽无码| 国产欧美高清| 亚洲欧美成人影院| 丁香亚洲综合五月天婷婷| 欧美综合一区二区三区| 免费国产不卡午夜福在线观看| 午夜性爽视频男人的天堂| 久久亚洲美女精品国产精品| 精品自拍视频在线观看| 激情影院内射美女| 91免费国产高清观看| 成人无码一区二区三区视频在线观看 | 国产专区综合另类日韩一区| 亚洲成人网在线观看| 国产精品污视频| 在线日本国产成人免费的| 日韩无码视频网站| 久久精品波多野结衣| 色婷婷成人网| 亚洲国产看片基地久久1024| 亚洲日韩精品欧美中文字幕| 青青网在线国产| 久久精品丝袜| 真实国产乱子伦高清| 免费人成视网站在线不卡| 日本人又色又爽的视频| 免费激情网址| 亚洲精品高清视频| 日日噜噜夜夜狠狠视频| 婷婷色在线视频| 欧美啪啪视频免码| 99久久这里只精品麻豆| 日韩欧美国产精品| 伊伊人成亚洲综合人网7777| 亚洲欧美综合精品久久成人网| 色AV色 综合网站| 亚洲天堂网2014| 伊人久久青草青青综合| 国产在线观看人成激情视频| 日本高清有码人妻| 高清国产在线| 18禁黄无遮挡网站| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲 欧美 偷自乱 图片| 成AV人片一区二区三区久久| 99999久久久久久亚洲| 亚洲aⅴ天堂| 午夜欧美在线| 国产亚洲欧美日韩在线一区| 91小视频在线播放| 国产精品女主播| 国产麻豆另类AV| 毛片免费网址| 欧美激情,国产精品| 人与鲁专区| 91欧洲国产日韩在线人成| 天天激情综合| 91精品人妻一区二区| 亚洲日本www| 欧美日韩亚洲国产主播第一区| 中文字幕一区二区视频| 3D动漫精品啪啪一区二区下载| 理论片一区| 国产免费观看av大片的网站| 精品国产成人高清在线| 久久久国产精品免费视频| 亚洲国产精品一区二区第一页免| 五月天综合婷婷| 亚洲精品欧美日韩在线| 在线国产毛片| 热九九精品| 性网站在线观看| 狠狠做深爱婷婷综合一区| 日韩美毛片| 日韩福利视频导航| 国产美女人喷水在线观看| 欧美综合区自拍亚洲综合绿色|