999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡數據庫訪問中語義指向性算法優化

2016-04-12 00:00:00張光勇陳志偉
現代電子技術 2016年16期

摘 要: 為解決數據庫從高維單詞空間映射至低維隱含語義空間中,無法有效實現數據庫訪問語義指向性分析的問題,提出基于主題模型的數據庫訪問語義指向性算法,建立PLSA主體模型并對其進行求解,通過PLSA主題模型獲取理想的潛在語義主題,在數據庫訪問關鍵詞上分布以及文檔在潛在語義主題上的分布,將其應用于數據庫訪問語義指向性分析中,針對數據庫表現出來的文本特征和結構特征建立PLSA主題模型,通過自適應不對稱學習算法對不同的PLSA主題模型進行集成和優化,以實現數據庫訪問語義指向性分析,使數據庫訪問結果更加準確。仿真實驗結果表明所提算法具有很高的數據庫訪問效率及精度。

關鍵詞: PLSA主題模型; 數據庫訪問; 語義指向性算法; 主題模型優化

中圖分類號: TN926?34; G350 文獻標識碼: A 文章編號: 1004?373X(2016)16?0112?04

Abstract: To solve the problem that the database is mapped from high?dimensional word space to low?dimensional implied semantic space, and can not effectively implement semantic directivity analysis of database access, the database access semantic directivity algorithm based on theme model is proposed, the PLSA subject model is established and is solved, by which the ideal latent semantic theme is obtained. The key distribution on the database access and document distribution on latent semantic subject are applied to the database access semantic directivity analysis to set up PLSA theme model according to the text feature and structure feature showed by database. The different theme PLSA models are integrated and optimized by adaptive asymmetry learning algorithm to realize the semantic directivity analysis for database access and make the database access results more accurate. The simulation results show that the proposed algorithm has high database access efficiency and accuracy.

Keywords: PLSA theme model; database access; semantic directivity algorithm; theme model optimization

0 引 言

數據庫訪問語義指向性分析是信息推薦和數據挖掘領域的研究熱點[1]。在當前數據庫訪問環境下,信息內容具有動態交互和隨機性的特點。只有創新數據庫訪問語義指向性算法,才能提高內容主題描述的準確性。近年來,語義指向性算法受到相關專家學者的廣泛關注[2?4]。

目前,數據庫訪問語義指向性算法的研究取得了一定的成果。文獻[5]提出一種基于MER 和文本聚類相融合的數據庫訪問語義指向性算法,在MER模型的基礎上,引入文本聚類分析,以實現數據庫訪問語義指向性分析,但該方法僅反映了主題內容,未考慮用戶的個性化特征;文獻[6]提出基于語法解析和路徑分析技術的數據庫訪問語義指向性算法,首先對關鍵詞進行解析,依據解析結果實現數據庫訪問頁面文檔的語義指向性分析,但該方法實現過程復雜,不適用于實際應用;文獻[7]提出基于領域本體和主動學習法的數據庫訪問語義指向性算法,通過主動學習法對數據庫訪問頁面的內容進行學習,依據學習結果建立數據庫訪問語義指向性模型,實現數據庫訪問語義指向性分析,該方法耗時長,效率較低;文獻[8]提出基于集成學習和二維關聯邊條件隨機場的數據庫訪問語義指向性算法,通過訓練數據庫訪問頁面的特征統計與采集的先驗知識融合,建立數據庫訪問指向性模型,該算法需要大量資源支撐,運行成本過高;文獻[9]提出基于數據挖掘的數據庫訪問語義指向性算法,通過領域本體及數據挖掘技術對數據庫訪問頁面文本信息的語義進行挖掘,利用聚類法實現數據庫訪問語義指向性的分析,但該方法未考慮數據庫訪問過程中的隨機性和動態性,誤差較大。

1 基于主題模型的數據庫訪問語義指向性算法

1.1 PLSA主題模型及求解過程

數據庫訪問語義指向性即文本中句法結構的某一成分在語義上和其他成分相匹配的概率,而這種匹配概率可通過PLSA(Probability Latent Semantic Analysis)主題模型進行描述,利用PLSA主題模型獲取理想的潛在語義主題,在數據庫訪問關鍵詞上分布以及文檔在潛在語義主題上的分布,從而實現數據庫訪問語義指向性分析,使數據庫訪問結果更加準確。

1.1.1 PLSA主題模型構建及參數調整

在PLSA主題模型中,文本可通過共現矩陣[d,w]進行描述。其中,[di,wj]用于描述文檔[di]和單詞[wj]共同出現,即文檔標號為[i]的文檔里面出現了單詞[j]。可用[ndi,wj]描述文檔[di]中單詞[wj]出現的頻數。以此可以描述語料庫的共現矩陣:行代表文檔,列代表單詞。假設隱含語義空間(即主題)用隱含變量[z=z1,z2,…,zk]進行描述,則定義以下幾個概率:[Pdi]用于描述從文檔中選中文檔編號為[i]的文檔的概率;[Pzkdi]用于描述在給定文檔[di]的條件下,文檔屬于第[k]個主題的概率;[Pwjzk]用于描述給定第[k]個主題的概率條件下,第[j]個單詞出現的概率,即第[j]個單詞對第[k]個主題的指向性程度。

通過上述定義的概率,構建基于概率的共現矩陣,也就是PLSA主題模型:

[Pdi,wj=PdiPwjdi=Pdik=1KPwjzkPzkdi] (1)

式中:[Pdi]代表以該概率選擇一篇文檔[di];[Pzkdi]代表以該概率選擇一個主題;[Pwjzk]代表以該概率選擇一個單詞。

通過對式(1)的分析可知,PLSA為混合模型,針對給定的數據庫訪問主題[z],單詞[w]滿足一個多項分布,而針對給定的文檔[d],主題[z]則滿足另一個多項分布,即該模型的參數為[Pwz]和[Pzd],通過極大似然準則對這兩個參數進行調整,就能使該模型數據庫訪問語義指向性分析達到最佳。

極大似然準則函數對數可描述成:

[L=i=1Nj=1Mndi,wjlogPdi,wj =i=1NndilogPdi+j=1Mndi,wjndilogk=1KPwjzkPzkdi] (2)

式中,[ndi]為文檔[di]中全部單詞的數量。該目標函數也可看作是使[Pwjdi]和[ndi,wjndi]兩個分布之間的容差性達到最小,因為[ndi,wjndi]已知,所以[Pwjdi]能夠更加有效地描述共現矩陣的實際分布。

1.1.2 模型的求解

通過對PLSA主題模型進行分析發現:[ndi]并非模型參數,因此,對式(2)進行約簡,有:

[L∝i=1Nj=1Mndi,wjlogk=1KPwjzkPzkdi] (3)

通過對式(3)分析可知,僅需分析模型參數[Pwjzk]和[Pzkdi]對[L]的影響就能實現期望最大化算法對模型參數進行求解。

期望最大化算法由E步和M步實現,其中E步主要負責對隱含變量關于觀測變量的后驗概率進行計算;M步將隱含變量看作是觀測變量,對隱含變量進行修正,使目標函數達到最大。

E步的計算公式如下:

[Pzkdi,wj=PwjzkPzkdii=kKPwjzkPzkdi] (4)

式中,[Pzkdi,wj]用于描述出現編號為[i]的文檔、編號為[j]的單詞的概率條件下,出現編號為[k]的主題的概率,也就是給定數據庫訪問主題[z],第[i]個文檔的編號是[j]的單詞對主題的指向性程度。

M步的計算方法如下:

M步需對兩個模型參數[Pwz]和[Pzd]進行估計,公式描述如下:

[Pwjzk=i=1Nndi,wjPzkdi,wjm=1Mn=1Nndi,wmPzkdi,wm] (5)

式(5)主要負責單詞[w]對隱含主題[z]的語義指向性進行計算,有:

[Pzkdi=j=1Mndi,wjPzkdi,wjndi] (6)

式(6)主要負責第[i]個文檔對隱含主題[k]的語義指向性進行計算。

通過對EM算法進行分析可知,每次迭代首先利用E步驟求出[Pzkdi,wj]矩陣,再將新的[Pzkdi,wj]矩陣代入M步中,求出參數矩陣[Pwz]和[Pzd]。反復進行,直至迭代次數大于設定閾值,或目標函數達到既定閾值時,停止迭代,將迭代結果定義為PLSA主題模型的解。

1.2 結合數據庫特征的算法實現過程

數據庫特征主要包括文本特征和結構特征。本文將建立的PLSA主題模型與數據庫表現出來的文本特征和結構特征相結合,通過自適應不對稱學習算法對不同的PLSA主題模型進行集成和優化,實現數據庫訪問語義指向性分析。

假設數據庫訪問頁面的訓練集為[D=d1,c1,d2,c2,…,dN,cN],用[SD=s1,s2,…,sN]描述數據庫訪問頁面的結構特征集;用[C=C1,C2,…,CN]描述數據庫訪問頁面訓練集的文本特征集,則基于PLSA模型的數據庫訪問語義指向性算法的實現過程如下:

(1) 針對任意數據庫訪問頁面中的文檔[di]進行結構解析和文本信息提取,得到描述結構信息的特征向量[sdi]與描述文本信息的特征向量[cdi];

(2) 通過[sdi]與[cdi]分別建立PLSA主題模型,得到和結構信息與文本信息相應的主題分布[Pssα]、[Pssd]和[Pccβ]、[Pcβd];其中,[α],[β]用于描述主題;

(3) 依據結構特征與文本特征對理解數據庫訪問頁面的重要程度,獲取兩個PLSA主題模型集成和優化的權重,通過式(4)完成PLSA主題的集成,得到新的主題分布:

[Pzkdi=ωsiPsαφdi, φ=1,2,…,mωciPcβφ-mdi, φ=m+1,m+2,…,m+n] (7)

式中:[ωsi,][ωci]分別用于描述結構特征與文本特征在數據庫訪問頁面文檔[di]中的權重;[m,][n]分別用于描述和結構特征與文本特征相應的主題個數,[φ=m+n];

(4) 依據集成后的主題分布[Pzdi],通過式(5)、式(6)對[Psz]和[Pcz]進行描述;

(5) 依據描述結果,針對新數據庫訪問頁面的文檔[dnew]進行步驟(1);

(6) 通過對[sdnew]與[cdnew]進行訓練得到[Psnewz]與[Pcnewz],獲取該數據庫訪問頁面文檔[dnew]的主題分布,也就是語義指向性[Pzdnew];

(7) 求出結構特征關鍵詞與文本特征關鍵詞的后驗概率:

[Psdnew=n=1NPszkPzkdnew] (8)

[Pcdnew=n=1NPczkPzkdnew] (9)

(8) 反復進行上述步驟,直至迭代次數大于設定閾值,或目標函數達到設定閾值時,停止迭代。

最后,通過后驗概率對語義指向性[Pzdnew]進行約束,實現數據庫訪問語義指向性分析。

2 仿真實驗分析

為了驗證本文提出的基于主題模型的數據庫訪問語義指向性算法的有效性,需要進行相關的實驗驗證。將采集到的若干領域的真實數據集作為研究對象,將傳統LDA算法作為對比進行分析。

2.1 兩種算法性能分析

在只采用結構信息、只采用文本信息和綜合采用結構信息及文本信息的情況下建立模型,將查全率和查準率作為性能評價指標對兩種算法的性能進行比較分析,得到的結果分別如表1~表3所示。

表1 只采用結構信息情況下兩種算法性能分析 %

表2 只采用文本信息情況下兩種算法性能分析 %

綜合分析表1~表3可知,本文算法和LDA算法在綜合采用文本信息和結構信息的情況下,性能均優于只采用文本信息或只采用結構信息的情況,但本文算法的性能增加幅度更高,且本文算法的綜合性能明顯優于LDA算法,因為LDA算法不能充分全面地分析所有信息,容易受到數據庫訪問頁面隨機性和動態性的影響,造成語義指向性分析發生偏差,影響算法性能。

2.2 效率分析

為了進一步驗證本文算法的有效性,對本文算法和LDA算法的效率進行比較分析,結果如圖1所示。

分析圖1可知,采用本文算法完成一次實驗的時間明顯低于LDA算法,同時本文算法的時間曲線較LDA算法更加平穩,說明本文算法不僅具有較高的效率,而且具有較高的穩定性,進一步驗證了本文算法的有效性。

3 結 論

本文提出一種基于主題模型的數據庫訪問語義指向性算法。仿真實驗結果表明,所提算法具有很高的數據庫訪問效率及精度,穩定性好,具有較強的實用性。

注:本文通訊作者為陳志偉。

參考文獻

[1] 潘現偉.基于內容和語義相似性的文獻網絡構建方法的比較與評價[D].沈陽:中國醫科大學,2014.

[2] 王云英.基于PLSA模型的Web頁面語義標注算法研究[J].情報雜志,2013(1):141?144.

[3] 譚論正,夏利民,黃金霞,等.基于pLSA模型的人體動作識別[J].國防科技大學學報,2013,35(5):102?108.

[4] 康南南.基于主題模型和圖核模型的圖像分類算法的研究與應用[D].重慶:西南大學,2014.

[5] 羅遠勝.跨語言信息檢索中雙語主題模型及算法研究[D].南昌:江西財經大學,2013.

[6] 冶忠林,賈真,楊燕,等.基于語義擴展的句子相似度算法[J].山西大學學報(自然科學版),2015,38(3):399?405.

[7] 張瑞杰,李弼程,魏福山.基于多尺度上下文語義信息的圖像場景分類算法[J].電子學報,2014(4):646?652.

[8] 趙偉.基于并行計算的概率潛在語義分析算法研究[J].安徽職業技術學院學報,2014(3):1?3.

[9] 丁宇新,燕澤權,馮威,等.基于有監督主題模型的排序學習算法[J].電子學報,2015(2):333?337.

主站蜘蛛池模板: 色噜噜综合网| 香蕉久久永久视频| 四虎在线高清无码| 久久精品91麻豆| 五月天天天色| 亚洲成年网站在线观看| 欧美性久久久久| 99久久无色码中文字幕| 日韩一区二区三免费高清| 久久这里只有精品2| 在线综合亚洲欧美网站| 国产成人综合网| 国产日韩精品欧美一区灰| 久久网欧美| 亚洲天堂久久| 亚洲中文字幕23页在线| 久久精品无码国产一区二区三区| 亚洲精品少妇熟女| 欧美激情首页| а∨天堂一区中文字幕| 国产男女免费视频| 夜夜拍夜夜爽| 亚洲国产日韩欧美在线| 天天综合网在线| 亚洲国产精品国自产拍A| 国产喷水视频| 亚洲精品无码久久毛片波多野吉| 综合社区亚洲熟妇p| 四虎在线高清无码| 亚洲天堂视频网站| 国产精品视屏| 一本大道无码高清| 中文字幕1区2区| 中国一级毛片免费观看| 亚洲天堂日本| 国产成人三级| 亚洲福利网址| 国产不卡一级毛片视频| 天堂岛国av无码免费无禁网站| 动漫精品啪啪一区二区三区| 国产精品人成在线播放| 欧美日韩北条麻妃一区二区| 片在线无码观看| 久久青青草原亚洲av无码| 亚洲中文无码av永久伊人| 欧美精品1区| 东京热高清无码精品| 久久国产精品夜色| 国产打屁股免费区网站| 久久伊人操| 国产成人欧美| 青青国产在线| 国产自视频| 最新国产网站| 欧美高清三区| 无码一区18禁| 天天色天天综合| 亚洲成人精品久久| 园内精品自拍视频在线播放| 99热这里只有成人精品国产| 欧美成人精品一级在线观看| 激情在线网| 亚洲成人www| 9丨情侣偷在线精品国产| 国产xx在线观看| 九九这里只有精品视频| 免费看一级毛片波多结衣| 久久黄色影院| 国产精品极品美女自在线看免费一区二区 | 九九香蕉视频| 日本妇乱子伦视频| 亚洲人成人伊人成综合网无码| 国产精品成人AⅤ在线一二三四| 国产男人天堂| 69av免费视频| 国产精品午夜电影| 青青青国产视频| 亚洲成a人在线播放www| 国产SUV精品一区二区| 亚洲人成影院午夜网站| 午夜三级在线| 国产不卡网|