999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hellinger 距離與詞向量的終身機器學習主題模型

2023-01-09 14:28:24雷恒林古蘭拜爾吐爾洪買日旦吾守爾
計算機工程 2022年11期
關鍵詞:模型

雷恒林,古蘭拜爾·吐爾洪,買日旦·吾守爾,曾 琪

(新疆大學信息科學與工程學院,烏魯木齊 830046)

0 概述

在信息技術高速發展的時代,往往需要從海量的信息中獲取到高價值的核心內容,以對后續工作進行決策支撐,主題模型由此被提出并得到廣泛應用。主題模型是指利用計算機技術對文本信息進行挖掘,可在大量互聯網數據中自動發現文本中的語義主題。主題模型是自然語言處理的一個重要方向,其以非監督的學習方式對文集中的隱含語義結構進行聚類。常見的主題挖掘模型有概率隱性語義分析(Probabilistic Latent Semantic Analysis,PLSA)模型[1]、隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型[2]、非負矩陣分解(Non-negative Matrix Factorization,NMF)模型[3]等。

傳統的機器學習主題挖掘模型是孤立類型的學習模型,其通過在特定的語料下進行模型訓練,使模型達到最好的效果。這種學習方式存在的一大問題就是無法對訓練過程中的知識進行有效保存,當模型面對一個新的數據集時,只能重新學習,以往學習過的知識無法得到充分的利用。目前,終身機器學習得到了研究者越來越多的重視,其克服了傳統機器學習的孤立性問題。終身機器學習的概念最早由THRUN 等[4]于1995 年提出。根據文獻[5]中的闡述,終身機器學習是一個持續學習的過程,在任何一個時間點,模型已經學習了N個學習任務,當新到來一個任務時,可以利用之前學習到的任務中的知識,幫助新來任務的學習。終身機器學習是對人類學習方式的一種模仿,通過將有效知識保存在知識庫中,新任務可以從知識庫中獲取到對當前任務有用的知識,從而達到提高當前學習效果的目的[6],而且終身機器學習無監督模型在學習過程中無需標簽,大幅減輕了人工成本。

經典終身主題模型(Lifelong Topic Model,LTM)可從其他領域中學習知識,幫助當前領域的學習,但在領域選擇時,該方法沒有根據影響權重進行一定的偏向性學習,并且模型通過給詞語編號的方式來表示詞語,沒有充分利用詞語的上下文信息,對詞語之間在整個語料庫中的全局聯系缺乏考慮。本文提出基于Hellinger 距離與詞向量的終身主題模型(Hellinger Distance and Word Vector based Lifelong Topic Model,HW-LTM)。針對LTM 模型在主題選擇時缺乏針對性的問題,使用Hellinger 距離進行主題分布之間距離的計算,加快運行速度。同時,利用Word2vec 主題模型獲得詞向量,計算余弦相似度得到詞語之間相似度,通過神經網絡充分利用詞語的全局語義,進一步提升主題挖掘效果。

1 相關研究

近年來,終身機器學習在自然語言處理領域展現出了優異性能,終身機器學習方法也逐漸應用于主題挖掘任務中。最初提出的經典終身機器學習主題模型是LTM[7],為了解決上文提出的問題,研究者在LTM 的基礎上進行了一系列的改進,提出了新的終身機器學習主題挖掘模型,主要分為基于概率LDA 的主題模型、基于矩陣分解的模型和基于神經網絡的模型。

基于概率LDA 的主題模型的特點是使用概率方法進行抽樣,如通過廣義波利亞甕(Generalized Polya Urn,GPU)等抽樣模型來獲取并利用先驗知識。文獻[8]將終身機器學習主題模型應用于主題挖掘與評分預測中。文獻[9]提出了能夠自動生成強關聯詞對和不可關聯詞對的主題模型(topic modeling with Automatically generated Must-links and Cannot-links,AMC)模型,在LTM 已引入mustlink 的基礎上,增加了對cannot link 的考慮,提升了模型在小樣本數據集上的效果,但該模型存在的一個問題是不能通過迭代來提高模型性能。文獻[10]將終身機器學習模型應用于越南語的文本分類,取得了較好的效果。文獻[11]將基于Word2vec 的詞嵌入應用到模型中,提出了潛在嵌入結構終身機器學習模型(Latent-embedding-structured Lifelong Learning Topic Model,LLT),該模型存在的缺點是實現較為復雜,且沒有使用外部語料集進行增強。文獻[12]提出一種基于終身機器學習的連續學習方法,該方法從多領域語料庫中的過去結果中學習,以幫助識別當前領域中的主題通用詞。本文的改進模型也是屬于基于概率的主題模型。

文獻[13]將非負矩陣分解加入到終身機器學習中,使模型具備了終身學習的能力。文獻[14]為了克服域內語料庫數據的多樣性問題,提出了基于非負矩陣分解的終身協作模型(Lifelong Collaborative Model,LCM),用來準確學習主題和特定領域的單詞詞嵌入信息,同時利用知識圖譜來積累主題模型發現的全局上下文信息和先前領域的上下文詞嵌入所反映的局部上下文信息。

神經網絡也被應用于終身機器學習主題挖掘領域。在文獻[15]中,神經網絡類模型被用于知識的提取和利用,其中有監督負載平衡自組織增量神經網絡(Load-Balancing Self-Organizing Incremental Neural Network,LB-SOINN)被用來選擇當前任務中最重要的訓練樣本。變分表示學習(Variational Representation Learning,VRL)不僅從當前訓練任務中提取知識,而且還為LB-SOINN 提供適當的隱藏表示作為輸入。文獻[16]將神經網絡應用到終身機器學習中,提出了終身神經主題模型(Lifelong Neural Topic Model,LNTM),用以克服稀疏性數據帶來的問題。然而,神經網絡類方法普遍存在的一個缺點是模型可解釋性低。

2 終身機器學習

終身機器學習架構如圖1 所示,主要包含任務管理器、基于知識的學習器、知識庫(Knowledge Base,KB)等部分,并通過這些核心部分實現知識的遷移和整合。任務管理器對不斷到來的任務進行調度,用知識庫中的數據來增強學習器對當前任務的學習,實現遷移學習。學習完成后會輸出結果,其中的有效信息會被保存在KB 中,知識庫中的知識會隨著學習進行更新,實現對知識的整合。

圖1 終身機器學習架構Fig.1 Lifelong machine learning framework

基于概率和采樣器類的終身機器學習主題挖掘方法通常將GPU 模型引入到LDA,通過對當前詞語采樣來獲取先驗知識,其先通過頻繁項挖掘生成先驗知識集,再使用吉布斯采樣為詞指定一個主題。然后利用點間互信息(Pointwise Mutual Information,PMI)計算兩個詞語在當前領域下的關系,并通過式(1)更新兩個詞語的關聯度矩陣。同時,利用PMI對吉布斯采樣過程中的錯誤知識進行識別和處理。

在實際計算中,P(w)按詞語w在所在領域D的document 中出現的次數來計算,而P(w1,w2)則表示w1和w2在D中同時出現的次數。

PMI 值若為正數,說明兩個詞語正相關,值越大越有可能屬于一個主題,若為負數說明兩個詞語負相關。LTM 本身還對LDA 中的簡單波利亞甕(Simple Polya Urn,SPU)進行了改進,得到了GPU,每次從甕中抽取出一個詞語w,放回時除了詞語w本身,還有一定數量和w相關的詞語也會被放入甕中,以此提高w以及和它相近詞語在主題(甕)中的比例,具體計算如式(2)所示,其中μ用來控制PMI 的影響程度,矩陣表示的是每個和w相關的詞語w'被加入GPU 甕中的個數。

3 主題挖掘模型HW-LTM

3.1 Hellinger 距離

Hellinger 距離最早由Ernst Hellinger 在1909 年提出。在統計學中,Hellinger 距離被用于計算兩個分布的相似性,利用該特性,Hellinger 距離已經被應用于入侵檢測[17]、不平衡數據分類[18-19]以及主題模型的相似度衡量中[20]。如在文獻[21]中,Hellinger距離被用于相似度的衡量。相比其他距離計算方法,Hellinger 距離具有以下優勢:相較于KL 散度,其定義了概率分布的真實度量;相比Wasserstein 距離,其計算更加簡單;其還具有可以利用的幾何特性。因為主題本質上是詞語的概率分布,所以實驗中使用概率分布之間的相似性進行相似主題的判斷。相比LTM 模型中使用的JS 散度,Hellinger 距離在能取得相近效果的基礎上,減少了計算時間,不用在計算JS 散度時計算兩次KL 散度。

對于概率分布P={pi},Q={qi},從歐幾里得范數來看,兩者之間的Hellinger 距離計算如式(3)所示:

LTM 模型存在的一個問題是,其在執行新的學習任務時,默認所有的領域都和當前領域相關且有用,會從所有領域中獲取知識,這種缺乏足夠針對性的方式會導致計算量的增大。當有的領域和當前領域相關度不大時,還可能會從中學習到不合適的知識,影響知識提取的效果。實際應該選擇和當前領域相似度較大的領域并從中獲取需要的信息。得到領域主題之后,可以通過領域之間主題的相似度,推斷出領域之間的相似度,幫助后續最近領域的選擇。領域之間的距離計算如式(4)所示,其中D1和D2分別代表兩個不同的領域,t1和t2則代表兩個領域下的主題。

3.2 Word2vec 詞向量

詞向量技術由MIKOLOV 等[22]提出,是一種較新的詞語表示技術。關于使用詞向量對概率類主題模型進行改進,文獻[23-24]利用外部數據庫詞向量來對LDA 模型進行改進;文獻[25]對詞向量在概率類主題模型上的應用進行了總結;文獻[26]在生成的Word2Vec 詞向量基礎上,將其和單詞貢獻度進行融合,最終提高了文本分類的準確度??梢钥闯?,利用外部詞向量方法改進主題模型具有有效性。通過對全部領域語料的訓練,Word2vec 模型能夠更全面地表示詞語之間的聯系,這對于原模型中基于單一領域的概率分布詞語表示方法是一個很好的補充。實驗中使用的是Gensim 框架中基于Skip-Gram 算法進行訓練的Word2vec 模型。Word2vec 模型可以非常方便地訓練文本然后生成詞向量,并控制詞向量生成的維度。

Word2vec 模型可以通過計算詞語的詞向量得到兩個詞語之間的相似度,其計算如式(5)所示,其中va、vb是wa和wb分別對應的詞向量。相比于曼哈頓距離,使用余弦相似度來計算詞向量之間的相似性,可以更多地從方向的角度對向量相似性進行衡量。這里的計算對象是詞語的詞向量,而在上文Hellinger 距離的計算公式中,被計算的對象是主題下詞語的概率分布。在獲得所有相關度較大的領域中的主題后,還需要找到符合條件的主題,對有用的知識進行保留。詞向量下主題之間的距離計算如式(6)所示。其中tn和tm指兩個主題,N和M分別代表各自主題下詞語的個數,vi和vj分別代表詞語對應的詞向量。

3.3 HW-LTM 模型框架與步驟

改進后的模型框架如圖2 所示。從改進后的模型來看,主要是增加了Word2vec 詞向量生成模塊,然后用Hellinger 距離和詞向量的余弦距離對主題間的距離進行了計算。

圖2 改進模型框架Fig.2 Framework of the improved model

HW-LTM 模型主要包含以下步驟:

步驟1對外部語料進行分詞和去除停用詞等預處理操作。

步驟2通過Gensim 中的Word2vec 模型獲得外部語料集中的詞語(總個數為n)的Word2vec 詞向量,在保證效果和計算速度的前提下,維度設置為200 維,并生成相應的詞語詞向量矩陣Mn×200,再在M的基礎上按照式(5)進行計算,得到詞語相互之間的相似度矩陣Sn×n,并將矩陣S保存為文件。

步驟3從知識庫中獲得上輪學習的各個領域下的主題概率分布。

步驟4在步驟3 的基礎上,通過式(3)中Hellinger 距離計算主題之間距離來間接反映主題之間的相似度。

步驟5當前主題的主題詞之間的向量距離可通過讀取矩陣S得到,然后通過式(6)以全排列的方式計算詞語之間的余弦相似度,最終可以得到主題之間的相似度。

步驟6判斷步驟4 和步驟5 的結果是否符合相應的閾值,進而獲得滿足條件的和當前領域相近的主題。將該主題加入到簇中,然后從該簇中進行頻繁項挖掘,得到當前領域下更優的主題。

步驟7重復步驟3~步驟6,直到模型達到指定迭代次數使得迭代訓練挖掘后的效果更好。

4 實驗與分析

4.1 數據預處理

對于網上爬取的數據,一種商品的評論被看作是一個領域,因為一條評論可能包含多條句子,首先需要根據句號、感嘆號等符號標志進行分句,每個分好的句子就是一個document。對于分好的句子,需要根據停用詞表去除停用詞,同時對于在整個領域中出現次數小于3 次的詞語也需要去除。

4.2 數據集

目前,終身機器學習主題挖掘方法在英文數據集上的研究較多,但在中文數據集上的研究極少,本文主要探究其在中文數據集上的實際效果,因此使用中文京東商品評論數據集。該數據集為從網頁上爬取的中文京東商品評論信息,包含39 個商品類別,其中商品類別又被稱為領域(domain),每個商品類別包含1 500 條該商品的評論,其中有33 個類別是電子類商品評論,另外6 個類別是服裝類的商品評論。

4.3 Baseline 模型

實驗中使用的對比模型包括經典的概率類主題模型LDA,以及終身主題模型LTM 和AMC。

LDA 模型:非常經典的一個主題挖掘模型,背景基礎為數學概率模型,利用先驗分布對數據進行似然估計并最終得到后驗分布,為孤立學習方式的無監督模型。

LTM 模型:終身機器學習主題挖掘模型,在LDA 模型的基礎上進行改進,吉布斯采樣知識的方法由SPU 改進為GPU。其將終身機器學習相關理論知識應用在主題挖掘模型上,根據詞對的關聯性強弱,提出了must-link 的概念,將must-link 詞匯作為知識供模型學習。

AMC 模型:LTM 的改進模型,在LTM 模型must-link 的基礎上增加了cannot-link 來表示詞語之間的關系,增強了對于關聯度不大的知識的識別以及對小樣本數據的處理能力。

相關實驗參數設置:LTM、AMC 模型的參數設置和原論文一致。對于HW-LTM 模型,其相關的系數根據實際情況進行了調整,其中GPU 的控制系數μ設置為0.6,式(4)中Hellinger 主題距離的閾值θ1設置為0.8,式(6)中主題詞向量距離閾值θ2設置為100,生成的主題數和每個主題下的詞語數量K都設置為15。

實驗的工作平臺安裝了java 1.8 和python3.7.6運行環境。CPU AMD R7 4800H@2.9 GHz,8 核心16 線程,16 GB 運行內存。

4.4 時間復雜度和空間復雜度分析

從時間復雜度的角度對HW-LTM 模型進行分析。對于主題之間相似度的衡量,原模型LTM 使用的是JS 散度,其計算如式(7)所示,其中P、Q為兩個分布。該計算方法的缺點是需要計算兩次KL散度,但相比JS 散度在時間復雜度上下降了一半。從模型增加的時間來看,HW-LTM 因為需要計算詞向量之間的距離,會有一些時間開銷,同時還會存在兩個詞語之間的重復計算問題。實際實驗中發現S矩陣的生成開銷相對模型整體時間開銷可忽略不計。為解決重復計算帶來的開銷問題,本文采用預加載的方法,在HW-LTM 模型開始運行時便把已經提前計算好的矩陣S加載到內存中,在尋找兩個詞語相似度值時達到O(1)的時間復雜度,以此減少重復計算的時間。

改進前后的模型在空間復雜度上的區別主要在于本實驗所用的有大約5 000 詞的京東商品評論數據集,空間代價是在預加載時需要大約95 MB 的內存空間。

4 輪迭代運行完成后各模型所花費的時間如表1 所示。LDA 和AMC 模型由于沒有迭代學習過程,在運行速度上排名靠前;HW-LTM 相比基于Hellinger 距離的終身主題模型(Hellinger Distance based Lifelong Topic Model,HD-LTM)多了外部詞向量的加載以及詞向量余弦相似度的計算過程,速度相對稍慢,但相比原模型LTM,HW-LTM 在縮短運行時間上仍舊取得了較大的進步,耗時縮短了43.75%。

表1 不同模型在京東商品評論數據集上運行時間的對比Table 1 Comparison of running time of different models on JD commodity review dataset

4.5 模型對比評估

本文采用主題關聯度topic coherence 評估方法進行評估。經過相關測試,這是一種較為優越的評估方法,和人類專家實際判斷結果更加接近,且能夠得到比困惑度更好的實際效果,其計算如式(8)所示:

對于主題uk中的詞語,topT 指主題uk下詞語個數。式(8)中分子代表在所有的document 中兩個詞語和共同出現的次數,分子上加一是為了進行平滑。類似的,分母表示在所有文本中詞語出現的次數。對所有的主題都進行上述操作并累加求和,得到該領域下最終的topic coherence 值。topic coherence 的值越大,表示主題中詞語的關聯度越大,主題模型的挖掘效果越好。挖掘出的主題如表2 所示,其中共有15 個主題,每個主題下有15 個詞。從中可以看出主題下的詞語存在一定的關聯性,如Topic4 主要是物流方面的詞語,Topic10 則體現的是對衣服款式的總體滿意態度。

表2 HW-LTM 模型主題挖掘結果Table 2 Topic mining results of HW-LTM model

HW-LTM 模型(同時使用了Hellinger 距離和詞向量進行改進)和LDA、LTM、AMC、HD-LTM(只用Hellinger 距離進行改進)模型在京東商品評論數據集上的topic coherence 對比如圖3 所示。

圖3 京東商品評論數據集實驗結果Fig.3 Experimental results of JD commodity review dataset

由圖3 可以看出:LDA 模型和AMC 模型沒有迭代操作,因此其評估結果為一個固定值;LTM 模型和HW-LTM 模型有迭代學習功能,其挖掘效果隨著迭代輪數增加逐漸提升;LTM 模型在第一輪迭代不如AMC,但隨著時間的推移,不斷迭代提升,后面幾輪效果超過了AMC 模型;HW-LTM 模型由于在主題選擇時使用了外部詞向量來幫助獲取有效知識,加快了收斂速度,相比LTM 模型每輪學習平均提升了48 個百分點,相比AMC 模型同樣也有較大提升。

為探究終身機器學習方法在不同領域知識之間相互學習的能力,做進一步的實驗。圖4是對數據集中服裝領域商品生成的主題進行評估后的結果,圖5則是對電子產品領域生成的主題進行評估后的結果。

圖4 服裝領域實驗結果Fig.4 Experimental results in the field of clothing

圖5 電子商品領域實驗結果Fig.5 Experimental results in the field of electronic commodities

通過對比圖4 和圖5 可以發現:盡管服裝領域的類別較少,但通過對其他領域有用知識的學習,同樣使得該部分主題挖掘效果得到提升;而電子類商品擁有33 個類別,其相互之間能學習到的知識更加充分,因而整體效果要好于服裝領域的情況。由此可見,相關領域類別的評論數量對終身機器學習的實際效果有影響。

綜合來看,AMC 模型在小樣本上具有優勢,但在本實驗的中文大樣本評論數據中并不具有絕對性優勢。從5 種模型的對比中可以看出,經過Hellinger 距離和Word2vec 方法改進的HW-LTM 模型,效果已經超過了最初的LTM 模型,也超過了經典的LDA 方法。

5 結束語

本文針對終身機器學習主題挖掘模型LTM,從主題之間相似度和詞向量相似度兩個方面進行優化,提出HW-LTM 模型實現更準確的知識提取。通過在京東商品評論數據集上進行實驗,驗證該模型在中文上的有效性。實驗結果表明,領域選擇以及詞向量的相似度計算能有效提高模型的主題挖掘效果。但目前詞向量在模型中的應用還較為局限,下一步將探索更高效的詞向量表示方法,如BERT、GloVe 等語言模型,同時對詞向量在當前模型中的應用范圍進行擴展。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线精品亚洲国产| 欧美成一级| 国产黑丝一区| а∨天堂一区中文字幕| 国产福利一区二区在线观看| 成人蜜桃网| 国产成人精品男人的天堂| 欧美日韩国产在线观看一区二区三区| 福利片91| 全部无卡免费的毛片在线看| 日韩欧美国产综合| 国产亚洲精久久久久久久91| 一本大道无码高清| 日韩国产一区二区三区无码| 国产呦视频免费视频在线观看| 伊人成人在线| 高清码无在线看| 岛国精品一区免费视频在线观看| 国产视频大全| 日韩色图区| 亚洲va在线∨a天堂va欧美va| 欧美日韩精品在线播放| 亚洲欧洲日产无码AV| 免费在线色| 欧美人在线一区二区三区| 国产爽爽视频| 欧美色99| 国产一区二区三区免费| 欧美日韩一区二区在线播放| 亚洲综合色婷婷中文字幕| 国产欧美日韩91| 国产精品专区第1页| 久久香蕉国产线看精品| 亚洲欧美日韩成人在线| 欧美高清日韩| 怡红院美国分院一区二区| 亚洲色图欧美视频| 欧美精品亚洲精品日韩专区va| 日韩国产无码一区| 亚洲av中文无码乱人伦在线r| 呦视频在线一区二区三区| 91精品啪在线观看国产| 浮力影院国产第一页| 中文字幕在线不卡视频| 在线观看国产黄色| 成人蜜桃网| 91精品国产麻豆国产自产在线| 国产精品私拍99pans大尺度| 亚洲精品图区| 国产69囗曝护士吞精在线视频| 国产一级视频久久| 黄色a一级视频| 极品av一区二区| 国产成人精品在线| 国产精品久久久久久影院| 免费在线一区| 国产一区二区视频在线| 91国内在线视频| 国产网站免费| 亚洲黄色成人| 欧美影院久久| 老司机午夜精品网站在线观看| 免费国产不卡午夜福在线观看| 91福利免费视频| 亚洲首页在线观看| 亚洲综合国产一区二区三区| 国产精品永久久久久| 亚洲高清在线天堂精品| 精品久久久无码专区中文字幕| 国产精品真实对白精彩久久| 曰AV在线无码| 日本在线欧美在线| 亚洲视频免| 国产在线91在线电影| 欧美国产日韩另类| 全部毛片免费看| 伊人国产无码高清视频| 亚洲精品在线影院| 夜夜操国产| 国产99在线观看| 麻豆国产在线观看一区二区| 国产成人亚洲无码淙合青草|