
摘 要: 為解決數據庫從高維單詞空間映射至低維隱含語義空間中,無法有效實現數據庫訪問語義指向性分析的問題,提出基于主題模型的數據庫訪問語義指向性算法,建立PLSA主體模型并對其進行求解,通過PLSA主題模型獲取理想的潛在語義主題,在數據庫訪問關鍵詞上分布以及文檔在潛在語義主題上的分布,將其應用于數據庫訪問語義指向性分析中,針對數據庫表現出來的文本特征和結構特征建立PLSA主題模型,通過自適應不對稱學習算法對不同的PLSA主題模型進行集成和優化,以實現數據庫訪問語義指向性分析,使數據庫訪問結果更加準確。仿真實驗結果表明所提算法具有很高的數據庫訪問效率及精度。
關鍵詞: PLSA主題模型; 數據庫訪問; 語義指向性算法; 主題模型優化
中圖分類號: TN926?34; G350 文獻標識碼: A 文章編號: 1004?373X(2016)16?0112?04
Abstract: To solve the problem that the database is mapped from high?dimensional word space to low?dimensional implied semantic space, and can not effectively implement semantic directivity analysis of database access, the database access semantic directivity algorithm based on theme model is proposed, the PLSA subject model is established and is solved, by which the ideal latent semantic theme is obtained. The key distribution on the database access and document distribution on latent semantic subject are applied to the database access semantic directivity analysis to set up PLSA theme model according to the text feature and structure feature showed by database. The different theme PLSA models are integrated and optimized by adaptive asymmetry learning algorithm to realize the semantic directivity analysis for database access and make the database access results more accurate. The simulation results show that the proposed algorithm has high database access efficiency and accuracy.
Keywords: PLSA theme model; database access; semantic directivity algorithm; theme model optimization
0 引 言
數據庫訪問語義指向性分析是信息推薦和數據挖掘領域的研究熱點[1]。在當前數據庫訪問環境下,信息內容具有動態交互和隨機性的特點。只有創新數據庫訪問語義指向性算法,才能提高內容主題描述的準確性。近年來,語義指向性算法受到相關專家學者的廣泛關注[2?4]。
目前,數據庫訪問語義指向性算法的研究取得了一定的成果。文獻[5]提出一種基于MER 和文本聚類相融合的數據庫訪問語義指向性算法,在MER模型的基礎上,引入文本聚類分析,以實現數據庫訪問語義指向性分析,但該方法僅反映了主題內容,未考慮用戶的個性化特征;文獻[6]提出基于語法解析和路徑分析技術的數據庫訪問語義指向性算法,首先對關鍵詞進行解析,依據解析結果實現數據庫訪問頁面文檔的語義指向性分析,但該方法實現過程復雜,不適用于實際應用;文獻[7]提出基于領域本體和主動學習法的數據庫訪問語義指向性算法,通過主動學習法對數據庫訪問頁面的內容進行學習,依據學習結果建立數據庫訪問語義指向性模型,實現數據庫訪問語義指向性分析,該方法耗時長,效率較低;文獻[8]提出基于集成學習和二維關聯邊條件隨機場的數據庫訪問語義指向性算法,通過訓練數據庫訪問頁面的特征統計與采集的先驗知識融合,建立數據庫訪問指向性模型,該算法需要大量資源支撐,運行成本過高;文獻[9]提出基于數據挖掘的數據庫訪問語義指向性算法,通過領域本體及數據挖掘技術對數據庫訪問頁面文本信息的語義進行挖掘,利用聚類法實現數據庫訪問語義指向性的分析,但該方法未考慮數據庫訪問過程中的隨機性和動態性,誤差較大。
1 基于主題模型的數據庫訪問語義指向性算法
1.1 PLSA主題模型及求解過程
數據庫訪問語義指向性即文本中句法結構的某一成分在語義上和其他成分相匹配的概率,而這種匹配概率可通過PLSA(Probability Latent Semantic Analysis)主題模型進行描述,利用PLSA主題模型獲取理想的潛在語義主題,在數據庫訪問關鍵詞上分布以及文檔在潛在語義主題上的分布,從而實現數據庫訪問語義指向性分析,使數據庫訪問結果更加準確。
1.1.1 PLSA主題模型構建及參數調整
在PLSA主題模型中,文本可通過共現矩陣[d,w]進行描述。其中,[di,wj]用于描述文檔[di]和單詞[wj]共同出現,即文檔標號為[i]的文檔里面出現了單詞[j]。可用[ndi,wj]描述文檔[di]中單詞[wj]出現的頻數。以此可以描述語料庫的共現矩陣:行代表文檔,列代表單詞。假設隱含語義空間(即主題)用隱含變量[z=z1,z2,…,zk]進行描述,則定義以下幾個概率:[Pdi]用于描述從文檔中選中文檔編號為[i]的文檔的概率;[Pzkdi]用于描述在給定文檔[di]的條件下,文檔屬于第[k]個主題的概率;[Pwjzk]用于描述給定第[k]個主題的概率條件下,第[j]個單詞出現的概率,即第[j]個單詞對第[k]個主題的指向性程度。
通過上述定義的概率,構建基于概率的共現矩陣,也就是PLSA主題模型:
[Pdi,wj=PdiPwjdi=Pdik=1KPwjzkPzkdi] (1)
式中:[Pdi]代表以該概率選擇一篇文檔[di];[Pzkdi]代表以該概率選擇一個主題;[Pwjzk]代表以該概率選擇一個單詞。
通過對式(1)的分析可知,PLSA為混合模型,針對給定的數據庫訪問主題[z],單詞[w]滿足一個多項分布,而針對給定的文檔[d],主題[z]則滿足另一個多項分布,即該模型的參數為[Pwz]和[Pzd],通過極大似然準則對這兩個參數進行調整,就能使該模型數據庫訪問語義指向性分析達到最佳。
極大似然準則函數對數可描述成:
[L=i=1Nj=1Mndi,wjlogPdi,wj =i=1NndilogPdi+j=1Mndi,wjndilogk=1KPwjzkPzkdi] (2)
式中,[ndi]為文檔[di]中全部單詞的數量。該目標函數也可看作是使[Pwjdi]和[ndi,wjndi]兩個分布之間的容差性達到最小,因為[ndi,wjndi]已知,所以[Pwjdi]能夠更加有效地描述共現矩陣的實際分布。
1.1.2 模型的求解
通過對PLSA主題模型進行分析發現:[ndi]并非模型參數,因此,對式(2)進行約簡,有:
[L∝i=1Nj=1Mndi,wjlogk=1KPwjzkPzkdi] (3)
通過對式(3)分析可知,僅需分析模型參數[Pwjzk]和[Pzkdi]對[L]的影響就能實現期望最大化算法對模型參數進行求解。
期望最大化算法由E步和M步實現,其中E步主要負責對隱含變量關于觀測變量的后驗概率進行計算;M步將隱含變量看作是觀測變量,對隱含變量進行修正,使目標函數達到最大。
E步的計算公式如下:
[Pzkdi,wj=PwjzkPzkdii=kKPwjzkPzkdi] (4)
式中,[Pzkdi,wj]用于描述出現編號為[i]的文檔、編號為[j]的單詞的概率條件下,出現編號為[k]的主題的概率,也就是給定數據庫訪問主題[z],第[i]個文檔的編號是[j]的單詞對主題的指向性程度。
M步的計算方法如下:
M步需對兩個模型參數[Pwz]和[Pzd]進行估計,公式描述如下:
[Pwjzk=i=1Nndi,wjPzkdi,wjm=1Mn=1Nndi,wmPzkdi,wm] (5)
式(5)主要負責單詞[w]對隱含主題[z]的語義指向性進行計算,有:
[Pzkdi=j=1Mndi,wjPzkdi,wjndi] (6)
式(6)主要負責第[i]個文檔對隱含主題[k]的語義指向性進行計算。
通過對EM算法進行分析可知,每次迭代首先利用E步驟求出[Pzkdi,wj]矩陣,再將新的[Pzkdi,wj]矩陣代入M步中,求出參數矩陣[Pwz]和[Pzd]。反復進行,直至迭代次數大于設定閾值,或目標函數達到既定閾值時,停止迭代,將迭代結果定義為PLSA主題模型的解。
1.2 結合數據庫特征的算法實現過程
數據庫特征主要包括文本特征和結構特征。本文將建立的PLSA主題模型與數據庫表現出來的文本特征和結構特征相結合,通過自適應不對稱學習算法對不同的PLSA主題模型進行集成和優化,實現數據庫訪問語義指向性分析。
假設數據庫訪問頁面的訓練集為[D=d1,c1,d2,c2,…,dN,cN],用[SD=s1,s2,…,sN]描述數據庫訪問頁面的結構特征集;用[C=C1,C2,…,CN]描述數據庫訪問頁面訓練集的文本特征集,則基于PLSA模型的數據庫訪問語義指向性算法的實現過程如下:
(1) 針對任意數據庫訪問頁面中的文檔[di]進行結構解析和文本信息提取,得到描述結構信息的特征向量[sdi]與描述文本信息的特征向量[cdi];
(2) 通過[sdi]與[cdi]分別建立PLSA主題模型,得到和結構信息與文本信息相應的主題分布[Pssα]、[Pssd]和[Pccβ]、[Pcβd];其中,[α],[β]用于描述主題;
(3) 依據結構特征與文本特征對理解數據庫訪問頁面的重要程度,獲取兩個PLSA主題模型集成和優化的權重,通過式(4)完成PLSA主題的集成,得到新的主題分布:
[Pzkdi=ωsiPsαφdi, φ=1,2,…,mωciPcβφ-mdi, φ=m+1,m+2,…,m+n] (7)
式中:[ωsi,][ωci]分別用于描述結構特征與文本特征在數據庫訪問頁面文檔[di]中的權重;[m,][n]分別用于描述和結構特征與文本特征相應的主題個數,[φ=m+n];
(4) 依據集成后的主題分布[Pzdi],通過式(5)、式(6)對[Psz]和[Pcz]進行描述;
(5) 依據描述結果,針對新數據庫訪問頁面的文檔[dnew]進行步驟(1);
(6) 通過對[sdnew]與[cdnew]進行訓練得到[Psnewz]與[Pcnewz],獲取該數據庫訪問頁面文檔[dnew]的主題分布,也就是語義指向性[Pzdnew];
(7) 求出結構特征關鍵詞與文本特征關鍵詞的后驗概率:
[Psdnew=n=1NPszkPzkdnew] (8)
[Pcdnew=n=1NPczkPzkdnew] (9)
(8) 反復進行上述步驟,直至迭代次數大于設定閾值,或目標函數達到設定閾值時,停止迭代。
最后,通過后驗概率對語義指向性[Pzdnew]進行約束,實現數據庫訪問語義指向性分析。
2 仿真實驗分析
為了驗證本文提出的基于主題模型的數據庫訪問語義指向性算法的有效性,需要進行相關的實驗驗證。將采集到的若干領域的真實數據集作為研究對象,將傳統LDA算法作為對比進行分析。
2.1 兩種算法性能分析
在只采用結構信息、只采用文本信息和綜合采用結構信息及文本信息的情況下建立模型,將查全率和查準率作為性能評價指標對兩種算法的性能進行比較分析,得到的結果分別如表1~表3所示。
表1 只采用結構信息情況下兩種算法性能分析 %
表2 只采用文本信息情況下兩種算法性能分析 %
綜合分析表1~表3可知,本文算法和LDA算法在綜合采用文本信息和結構信息的情況下,性能均優于只采用文本信息或只采用結構信息的情況,但本文算法的性能增加幅度更高,且本文算法的綜合性能明顯優于LDA算法,因為LDA算法不能充分全面地分析所有信息,容易受到數據庫訪問頁面隨機性和動態性的影響,造成語義指向性分析發生偏差,影響算法性能。
2.2 效率分析
為了進一步驗證本文算法的有效性,對本文算法和LDA算法的效率進行比較分析,結果如圖1所示。
分析圖1可知,采用本文算法完成一次實驗的時間明顯低于LDA算法,同時本文算法的時間曲線較LDA算法更加平穩,說明本文算法不僅具有較高的效率,而且具有較高的穩定性,進一步驗證了本文算法的有效性。
3 結 論
本文提出一種基于主題模型的數據庫訪問語義指向性算法。仿真實驗結果表明,所提算法具有很高的數據庫訪問效率及精度,穩定性好,具有較強的實用性。
注:本文通訊作者為陳志偉。
參考文獻
[1] 潘現偉.基于內容和語義相似性的文獻網絡構建方法的比較與評價[D].沈陽:中國醫科大學,2014.
[2] 王云英.基于PLSA模型的Web頁面語義標注算法研究[J].情報雜志,2013(1):141?144.
[3] 譚論正,夏利民,黃金霞,等.基于pLSA模型的人體動作識別[J].國防科技大學學報,2013,35(5):102?108.
[4] 康南南.基于主題模型和圖核模型的圖像分類算法的研究與應用[D].重慶:西南大學,2014.
[5] 羅遠勝.跨語言信息檢索中雙語主題模型及算法研究[D].南昌:江西財經大學,2013.
[6] 冶忠林,賈真,楊燕,等.基于語義擴展的句子相似度算法[J].山西大學學報(自然科學版),2015,38(3):399?405.
[7] 張瑞杰,李弼程,魏福山.基于多尺度上下文語義信息的圖像場景分類算法[J].電子學報,2014(4):646?652.
[8] 趙偉.基于并行計算的概率潛在語義分析算法研究[J].安徽職業技術學院學報,2014(3):1?3.
[9] 丁宇新,燕澤權,馮威,等.基于有監督主題模型的排序學習算法[J].電子學報,2015(2):333?337.