張銘洲
觀點檢索的目標是從社交文檔庫中搜索出與主題內容相匹配,并且帶有一定用戶情感傾向的文檔[1].因此,檢索得到的結果不僅要與輸入的主題相關,還需要結合用戶的主觀評論,過程中涉及到主題—文檔相關性及文本觀點特征的刻畫.近年來相關學者主要集中于主題—文檔相關性特征提取方面研究.早期的研究主要集中于詞語匹配法[2],該方法引入情感詞典進行比對,計算出相關性特征并應用于統一檢索模型中.之后為了解決詞語匹配法“一詞多義”的問題,廖祥文等[3]引入了知識圖譜進行詞語概念擴展,在相關性特征提取方面取得了較好的效果.隨著深度表示學習的興起,為了進一步提升模型的語義泛化能力,張銘洲等[4]提出了基于循環卷積網絡的觀點檢索模型,通過將主題—文檔映射到高維語義空間中,進行語義信息表示,得到更為準確的主題—文檔相關性特征.現有相關性特征提取方法雖然取得了較好的成效,但是仍然存在著一定的不足:由于忽視了對主題—文檔中不同詞語間的權重分配,導致模型在語義表示方面存在一定的噪聲,進而影響了觀點檢索結果.以“這個蘋果吃起來真好吃”為例,詞語“蘋果”相對“這個”對句子語義的理解具有更明顯的指代作用,但相同的權重將導致模型無法識別詞語的重要性,在語義層面的匹配能力較弱,對“蘋果”“好吃”等焦點詞語,應通過加權放大對詞語的重要性,并削弱不相關詞語的權重,從而提升模型的觀點檢索性能.
針對上述問題,該文在現有模型的基礎上引入了交互注意力機制模型[5]:將主題—文本分別使用注意力機制和pooling 壓縮方式得到attention 向量和pooling 向量,對兩個向量分別進行交互式拼接得到新的向量,該模型可以很好地根據語境表示出文本的向量,解決以往觀點檢索中文本表示時忽視的詞語權重問題.
現有的觀點檢索方法主要是基于統一檢索模型[6]進行構建的,該方法直接計算出候選文本與主題的相關特征和文本的觀點特征,并將兩個指標組合成統一的文本觀點檢索指標.其創新點在于使用基于交互注意力機制的相關性特征方法解決主題—文檔中詞語權重不同的問題,進而更為準確地刻畫出相關性特征,結合已提取到的文本觀點特征,最后根據統一檢索模型將兩種特征進行結合,得到最終的觀點檢索特征,并根據最終的結果進行排序,輸出最終的排序結果,具體模型如圖1 所示.

圖1 基于統一檢索模型的觀點檢索方法
統一檢索模型如公式(1)所示:
其中:Iopn(d,q,T) 指的是觀點挖掘方法對文檔內容進行觀點挖掘工作,Irel(d,q)則是該文方法計算得到的相關性特征,接下來針對相關性、觀點特征提取方法展開詳細的介紹.
先將輸入的主題—文檔轉換為詞向量矩陣;然后,采用長短期記憶網絡結合詞匯在句子中的上下文信息進行編碼,以加強對句子語義信息的學習;之后,通過交互注意力機制計算主題—文檔中具有較大關聯性的信息以豐富兩者的向量表示;最后,計算出主題—文檔向量之間的交互矩陣,并通過卷積核及池化層計算矩陣中含有的精確匹配特征和軟匹配特征,形成最終的文本相關性特征,將其應用于統一檢索模型中,具體模型如圖2 所示.

圖2 基于交互注意力機制的相關性特征提取
該模型由以下幾個部分組成:
詞嵌入層(Embedding Layer).將主題—文檔分別映射為m*d維的矩陣向量,假設主題或文檔中有m個單詞,那么每個詞會被映射為一個向量t?>,因此Embedding Layer 將主題—文檔分別映射為矩陣向量Tq和Td:
循環層(LSTM Layer).將主題—文檔分別轉化為向量矩陣后,通過LSTM 層進行全輸出,獲得新的向量表示,目的是更好地獲取上下文間的語義信息.在此主題—文檔矩陣向量進行了一次池化操作,將池化后的向量拼接至所獲得的循環層向量:
其中:f為遺忘門,i為輸入門,O為輸出門,ht?1表示上一個單元的輸出,xt表示本單元的輸入,b是偏移變量.
注意力層(Attention Layer).將初始化表示的主題—文檔向量作為輸入,使用交互注意力機制去捕獲句中重點詞語以判斷文中的情感極性,加大極性詞語的向量表示權重,從而獲取到新的主題—文檔向量表示:
卷積層(Convolutional Layer).通過采用一個窗口大小為h的卷積核來產生向量表示Embedding,目的是提取局部特征,挖掘文本中的局部上下文特征表示:
其中:relu 為非線性激活函數,Ti:i+h是第i個單詞到第i+h個單詞的詞向量,b表示偏移向量.
匹配層(Cross?Match Layer).從主題—文檔中捕獲不同大小的N?gram,目的是計算主題文檔之間關系相關性特征,構建主題—文檔的特征矩陣,由于該文使用卷積窗口大小為[1,2,3]進行處理,因此主題文檔進行交互時會生成9 個交互矩陣,分別代表不同粒度主題文檔的交互矩陣:
核化層(Kernel pooling Layer).將K高斯函數作為核函數,用以捕捉特征之間的潛在關系,計算K個不同強度級別的單詞或者N?gram對的軟匹配信息,生成Soft?TF 特征.
其中:μ為函數中心點,δ為核心函數的超參數,x為函數的輸入值.
排序學習層(Learning?to?rank Layer).對語義特征進行訓練,獲得相關性特征,最后通過sigmoid 函數進行歸一化處理,得到最終的相關性得分作為特征進行表示:
其中:f(q,d)為最終計算出的主題—文檔相關性得分,sigmoid 為激活函數,可將結果映射到[0,1]的區間中,用以損失函數的計算.
為了驗證該文所提方法的有效性,實驗過程中使用與廖祥文等[3]一致的觀點挖掘方法,包括基于情感詞典的觀點挖掘方法(Lexicon)、基于支持向量機的觀點挖掘方法(NBSVM),以及基于卷積神經網絡的觀點挖掘方法(CNN),通過控制觀點特征判斷本文相關性特征提取方法對觀點檢索的影響.
觀點檢索作為一個排序類的研究課題,任務的形式化定義為:給定一個主題和對應的文檔集D={d1,d2,d3,…,dn}和一個標簽集合L={l1,l2,l3,…,ln}.一個文檔di對應著一個標簽li,給定一個主題(query)和一個文檔(document)獲得它們的相關性特征Irel(d,q)和di的觀點特征Iopn(d,q,T),最后將所得的相關性特征與觀點特征進行結合排序.
該文選取的數據集為Twitter 公開數據集,其中小數據集為公共數據集[7],共包含了49個主題詞和3 308 個文檔.由于Twitter 數據集較小,為了進一步證明該文所提方法的有效性,新增了廖祥文等采集Twitter 大數據集作為擴展數據集[3],其中包含了10 個主題詞和29 634 個文檔,文檔通過采用緩沖池技術,得到7 172 個文檔用于實驗,該文的情感詞來源于SentiWordNet[8],具體的數據集信息如表1所示.

表1 數據集信息
該文使用評價指標:MAP(Mean Average Precision)、NDCG、R?Prec(R?Precision)和B?Pref(Binary preference)對模型進行評估,以主要評價指標MAP 為例,具體評價指標公式如下:
其中:Nq表示主題的數量,N代表文檔的總數,如果第i個文檔與主題相關并且包含用戶觀點,則ri=1,否則ri=AP是指單個主題下,檢索模型的準確率,反應了某一個主題下該模型的檢索性能.當評價該模型的性能時,若MAP越高,則說明檢索效果越好,反之,檢索效果越差.
實驗環境.處理器:Intel(R)Xeon(R)CPU E5?2620 v4 2.10 GHz;操作系統:Ubuntu 14.04.5 LTS;內存:32 GB RAM;GPU:Tesla K40m;開發平臺:Python 2.7.13.該文方法是采用Glove模型[9]進行詞向量的轉化,使得向量之間盡可能多地蘊含語義與語法信息,向量維度為300,具體的實驗參數設置如表2 所示.

表2 實驗參數設置
近年來,觀點檢索研究主要是通過計算更為準確的主題—文檔相關性特征,應用于統一檢索模型,以獲取更好的觀點檢索效果.為了驗證本文所提方法的有效性,選取近年來基于統一檢索模型的觀點檢索方法進行對比,具體模型如下所示.
BOC_LEXICON[2].提出了基于概念模型的主題—文檔相關性特征提取方法計算出主題—文檔的相關性特征,結合基于情感詞典計算文檔文本對應的觀點特征,最后將兩者結合起來,應用于統一檢索模型,實現觀點檢索.
BOC_NE+X[3].在BOC_LEXICON[2]基礎 上提出了基于網絡表示計算相關性特征與BOC_LEXICON 計算出的相關性特征相結合,解決了BOC 方法無法根據上下文將詞匯進行知識、概念層面的抽象問題,將計算出的相關性特征結合不同的觀點特征有3 種變形:BOC_NE+LEXICON、BOC_NE+CNN、BOC_NE+NBSVM.
RCKNRM+X[4].在BOC_NE 的基礎上提出了基于循環卷積網絡的相關性特征提取方法,解決了BOC_NE 方法獲取主題—文檔相關性特征時存在的“一詞多義”問題,將計算出的相關性特征結合不同的觀點特征有3 種變形:RCKNRM+LEXICON、RCKNRM+CNN、RCK?NRM+NBSVM.
RCIKNRM+X(本文模型方法).在RCK?NRM 基礎上提出基于交互注意力機制方法解決傳統方法忽視的詞語間權重問題,將其與3種不同的觀點特征模型計算的觀點特征進行結 合:RCIKNRM+LEXICON、RCIKNRM+CNN、RCIKNRM+NBSVM.
對比近年來基于統一檢索模型觀點的檢索方法,驗證該文提出方法的有效性,使用相同的Twitter 大小數據集.為了更好地利用數據集,準確地計算出模型的性能,實驗過程還引入了K折交叉驗證方法,將數據集中的K?1作為訓練集,1 折作為測試集,做K次實驗,所得的結果進行均值計算,最終的實驗結果如表3 所示.

表3 (A)Twitter 和(B)Twitter extension 數據集上的MAP、NDCG、R-Prec、B-Pref 指標
實驗結果表明:
比較近年來的觀點檢索模型結果可以看出,BOC_NE+LEXICON 中的實驗結果相較于BOC_LEXICON 在兩個數據集的各項指標都得到了提升,說明引入文本概念化特征有利于擴展通過知識圖譜捕獲詞匯的語義信息.不僅如此,廖祥文等[3]還在觀點特征方面進行了研究,分別使用了CNN、NBSVM 進行文檔文本的觀點挖掘工作,取得了不錯的成效.
張銘洲等[4]引入循環卷積神經網絡對主題—文檔的相關性特征進行提取,彌補了BOC_NE 方法使用傳統詞語匹配方法的不足.觀察實驗結果可以得出,RCKNRM+X 與BOC_NE+X 相比,在大小數據集上的性能得到了提升,很好地證明了引入深度表示學習模型計算相關性指標的有效性.
進一步分析可得,該文所提方法對比基于循環卷積網絡的觀點檢索模型可得,RCK?NRM+LEXICON 與RCIKNRM+LEXICON 在大數據上R?Prec 和B?Pref 中有個別指標低于基準實驗,其余的指標均高于基準實驗,由此可得,所提方法通過增強文檔詞的權重,有效地改善了基于統一檢索的觀點檢索模型,很好驗證了該文方法的有效性.
該文引入注意力機制方法用以計算出主題—文檔中詞語的重要性,對其進行加權,解決了傳統方法的不足之處,提升了主題—文檔相關性準確性,最終將相關性特征應用于統一檢索模型.在未來的工作中,計劃引入知識圖譜進一步豐富文檔中的語義信息,以便更為準確地計算出主題—文檔的相關性,提升觀點檢索性能.