(廣東理工學院 廣東 526100)
根據資料顯示到2015年底我國搜索引擎用戶數量達到5.66億之多,精明的商家在龐大的數字背后找到了巨大商業信息。因此,在學術界和業界,搜索引擎都引起了人們極高的關注。很多學者都希望得到一種適用的關于搜索引擎結果相關度的計算方法,以往的幾種大家都常用的方法有:利用互聯網群體智慧來改善搜索結果相關度估計的方法、TF 多,精明等統計方法、利用用戶與搜索引擎的交互行為出發的建模分析方法等。但是隨著交互技術的出現和發展,搜索引擎的界面結果呈現異質化趨勢和二維模塊展現形式,這些傳統的方法都無法完全描述和分析真實的搜索引擎的界面結果的拓撲結構。本文就是希望建立一個多模態結果來彌補這個缺陷,利用神經網絡框架,在搜索查詢詞和文本類型結果之間引入一個多模態的相似性函數,讓一個表征形式為矩陣樣式的來表達它們之間的相關性。

圖1 搜索引擎結果頁面異質化結果
本次實驗有兩個任務,分別是:(1)建立模型,能描述異質展現形式結果和二維排布結果;(2)用戶的點擊行為能把搜索引擎的圖片和文本相關信息放在同一個空間并且能進行相關性比較。
用戶的行為模型是指用戶從開始搜索到結束搜索之間檢驗的行為模型,一般用戶是通過點擊來實現。這種行為模型是建立在文檔被點擊需要同時滿足兩個相互獨立的假設之上的,這兩個獨立的假設是:(1)該文檔被用戶瀏覽過,(2)該文檔與查詢詞相關。在實驗中我們用,Ci=1 表示第i條結果被用戶點擊,Ei=1 表示第i條結果被用戶瀏覽檢驗過,Ri=1 表示第i條結果與查詢詞相關,符號“→”來表示滿足某前提條件,則以上兩個假設可以用如下公式進行如下表達:
CI=1→EI=1,Ri=1 Ei=0→Ci=0
Ri=0→CI=0
如果以P(Ri=1)=ru來表示觀測相關性的概率,則文檔被用戶點擊的概率可以用下面公式表示:
P(CI=1)=P(Ei=1)P(Ri=1)
級聯模型就是基于點擊的模型,在使用過程中該模型的有效性有些許欠缺。動態貝葉斯網絡模進行了改進,它是把搜索結果摘要造成的展現偏置也包括在里面的點擊模型,這個模型考慮了實際相關性和察覺相關性。Wang 等人是把文本信息和用戶行為信息結合起來考慮的點擊模型,這種模型結果較前幾種就更有效。現在部分學者除了考慮結果位置的之外,還把點擊的順序也考慮了進去,這種方法應該比前面就更加精準的預測性能。
對于數據文本的處理方法,在以前的研究中具有代表性的有salakhutdi-nov和Hinton 等人的利用深度網絡的改進版LSA模型,其原理是使用自動編碼
器學習到的瓶頸特征,而且它主要是用在信息檢索方面。有Huang和Shen 主張的框架構建系列模型,其原理是把查詢詞和結果組合放到同一個空間里面,用相關度來衡量它們間的距離。等等這些方法在完成搜索任務時也取得了很好的效果,但由于用戶的搜索的復雜多變,想要擴展它們的模型就變得有點困難。后來又有了Liu 等人的廣告推廣搜索,其原理是通過點擊預測把模型中的多種元素的輸入樣的局部關鍵特征提取出來,并且把文本信息也加以考慮進去。Zhang 等人采用了遞歸神經網絡的點擊預測框架,其原理是通過建模進行為廣告推廣搜索而設計。Severyn 等人利用深度學習框架,用于對短文本進行排序,對查詢詞建立一個矩陣。
對于圖片的處理常用的方法有Krizhevsky 等人的卷積神經網絡模型,其原理是利用框架中對神經元使用非飽和、非線性的激活函數使得對圖片的處理速度更快。Lin 等人建立了以自然語言問題和圖片的卷積神經網絡框架,形成一個整體模型卷積神經網絡框架。Wan等人建立了深度卷積神經網絡框架,它可以直接從大規模的圖片數據中提取圖片的特征,從而得到高質量的語義信息。本次實驗采取了卷積神經網絡的點擊模型的框架,它把查詢詞文本信息、結果文本信息、垂直結果圖片信息和用戶行為結合起來進行了考慮。對比前面的方法,本次采用的方式主要優點有:同時把點擊概率,結果的相關度和用戶的檢驗信息結合起來;把文本信息、圖片信息和用戶的行為信息進行結合起來;能把從搜索返回結果進行排序研究。
本次實驗采取的模型框架是能夠把神經網絡與用戶行為信息相結合起來,然后再把它們放在連接層和隱層進行聚合的,其模型框架如圖2。
查閱了很多資料和以前的實驗,本次采用了選擇詞向量來生成句子矩陣的方法。在實驗工作中,使用了一個開源工具,在一個知名的商業搜索引擎中進行了實驗,把獲得的詞向量數據集,以100 維位單位詞向量的維度。圖片矩陣采用了縱向拼接的方法,這樣就把圖片的由原來的三維降到了兩維,灰度圖就用一個實數來表示一個像素點。
利用卷積層來對文本和圖片進行采樣,從中提取一些有用的有效特征。方法是利用寬卷積來計算文本和圖片的矩陣,其后還加上了一個非線性的激活函數并且可以計算卷積層輸出的元素。為了結果的正確,本次實驗計算中還加了修正線性單元f(x)=max(0,x)來激活卷積層輸出元素。

圖2 基于神經網絡的點擊模型框架
本次實驗采用了常用的效果較好的最大值池化操作方法,這樣做是為了獲得更好的點擊模型和卷積神經網絡結合效果。在輸入層中我們把文本信息和圖片信息以向量的形式展示出來了,這樣就可以計算查詢詞和文本、圖片結果之間的相似度,由Bordes 等人提出的方法公式,就可以得到如下的向量間的相似度和相互影響程度公式:

其中xq為搜索查詢詞對應的向量,xdi為搜索引擎結果頁面第i條結果標題內容對應的向量,xpi為圖片垂直結果中的第i 張圖片內容對應的向量,M是相關性矩陣(計算過程中會不斷更新)。
全連接層把所有的中間向量(包括點擊模型得到的加入模型的框架中用戶行為信息、查詢詞與圖片對應的向量和兩者之間的相似度分數)都串聯了起來。在隱層里面把全連接層得出的向量進行交互,其計算公式為:
α(ωh×xjoint+b)
其中ωh是隱層的權重向量,α()是非線性變換。經過這一步后,向量就傳遞給點擊模型層,在點擊模型層生成最終的點擊預測概率[3]。
點擊模型層由兩部分節點組成,一部分可以用于檢驗,另一部分為相關度。檢驗概率和相關度通過函數sigmod 得到,把特征輸入如下公式通過計算得到:

公式中,xc表示查詢詞、結果標題文本、圖片的信息特征,xm表示由傳統點擊模型得到的特征,θc,',θm,'是為了結合所有特征值的權重參數,λ與λ′是為了平衡內容影響和點擊模型特征影響的權重參數。
本次實驗采用了概率圖來模擬點擊模型框架,通過點擊概率預測得分來評估點擊模型的性能。該值越低就表示該概率分布對于預測結果越準確,本次用到的公式如下:

公式中,Perplexityi是第i個結果位置的預測點擊概率分數,N是所有的會話數量,Ci是實際用戶在這個位置的點擊情況,Pi是模型預測的這個位置的點擊情況。我們的取值為實驗數據的平均值。實驗數據如表1。

表1 實驗數據
本次實驗,文本類信息結果的向量用100 維為基本維數,對于一些大規格的圖片進行了技術性的壓縮,輸入采用三原色表示法。從實驗數據可以得到,在性能上只有文本信息的模型比包含文本和圖片結果兩種信息的模型要高,使用全零圖片比使用實際圖片預測結果要好,實驗還表明用不同的表示方法也能得出不同的結果,部分實驗結果如圖3。

圖3 實際圖片輸入與全零操作模型性能對比
本次實驗是利用深度神經網絡和點擊模型信息的框架對現在常用的搜索引擎進行研究,找出它們之間的相關性。我們實驗結果也表明框架比點擊模型在各方面都有所提高。但是由于信息的復雜多變性,即便是深度神經網絡的框架也很難把文本信息間建立起十分強的相關性關系。
在未來實驗中,一定要對圖片采取更加靈活更加適合的特征提取方法,像現在剛發現的白化操作降低輸入數據的冗余信息。對于圖片將會再進行二維模塊瀏覽點擊行為實驗,以尋求它們之間的相關性。