劉宇辰,曹媛媛,劉景鑫,蘇 偉*
(1. 長春中醫藥大學醫藥信息學院,吉林 長春 130117;2. 吉林大學,吉林 長春 130012)
大數據時代的來臨勢必導致數據信息系統的出現信息過載的問題,于此同時對傳統協同過濾信息處理與數據推薦算法提出了嚴峻挑戰。因此,如何建立更適用于當前數據量的數據推薦算法,解決在大數據信息過載條件下的有效信息推薦問題迫在眉睫。
隨著機器學習、應用數學等學科的快速發展,采用機器學習等現代數據檢索與推薦方法已成為解決信息過載和爆炸性數據重要方式[1],不同種類的推薦算法引起了學術界、工業界以及互聯網下消費界等社會平臺的研究焦點。同時,該技術目前已經在消費電子、社會與了、數字傳媒等消費領域得到了前所未有的推廣和應用。例如當前的淘寶、天貓、美團、京東等消費平臺的商品和套餐的推薦;Facebook、騰訊、Twitter、SINA等互聯網交友平臺在好友推薦、信息咨詢推薦等方面應用以及網易、Spotify、QQ音樂、Tik Tok等娛樂信息平臺在音樂和視頻推薦上的廣泛應用。
在眾多的數據推薦算法中,當前比較典型的數據推薦算法主要分為如下幾類:混合推薦算法,該算法的主要優勢在于它將不同的信息數據通過不同的方式進行組合以避免或彌補各自推薦技術的弱點;文獻[2]提出了基于信息內容與數據關聯的異質信息網絡數據推薦算法,在該文章中算法主要依據當前的數據信息特特征,數據使用者使用的特點和數據與使用之間的交互關系來完成對用戶喜好數據推薦,相比較與混合推薦算法的被動執行,該算法的優勢在于它建立了與用戶之間的信息數據閉環,提高了數據推薦的實時性和交互性,但是該算法無法挖掘出潛在的數據之間的關聯性以及用戶對潛在喜好信息之間的關系;基于協同過濾的數據推薦算法[3],該算法主要包括數據信息的在線協同和離線過濾兩個部分。它相比較與基于信息內容與數據關聯之間的數據推薦算法,更主要突出的特點在于它注重從用戶的角度出發,同時挖掘用戶以外的數據之間的關聯關系。在完成數據推薦的基礎上,還可以發現用戶潛在的但自己尚未發現的信息偏好,從而更好的完成數據信息的推薦。
雖然以上典型的數據推薦算法目前已經廣泛應用于工業、消費娛樂、信息傳播等領域。但是從應用角度方面來看典型的數據推薦算法依然存在數據推薦精確度不高,輔助信息挖掘缺失以及實時性角度等實用缺點[4]。在此情況下,基于異質信息網絡的數據推薦算法應運而生,尤其隨著近幾年數字及大數據時代的來臨,該算法越來越受到國內外研究學者的廣泛關注與研究。
其中,關于異質信息網絡推薦算法的研究中比較典型有:文獻[5]等人率先提出采用異質信息網絡的方法來建立數據推薦算法。該文章研究的主要特點在于它完整的進行了異質信息網絡建模,同時采用了基于異質信息網絡中的語義信息來提高數據信息推薦的精準度。文獻[6]提出了基于異質關系分析的社會化協同過濾算法Hete-CF。與現有方法不同該方法,Hete-CF算法可以有效地利用異構社會網絡中的多種類型的關系。盡管該方法具有一定的普適性,可用于包括基于事件的社會網絡、基于位置的社會網絡以及與社會信息相關其它類型的異構信息網絡,但是該方卻法忽略了不同關系在異質信息網絡中的辯證統一性。在對已知信息網絡進行研究的過程中,一種基于加權異質信息的網絡推薦算法在文獻[7]中提出。該算法通過對異質信息網絡中不同的元路徑進行設置不同的權值,提高整個網絡對異質信息的集成,從而提高整個算法的推薦性。另外,HERec異質信息網絡推薦算法在文獻[8]中被提出,該文獻的主要貢獻在于它將網絡中的節點信息嵌入集成到擴展矩陣分解模型中,對異質信息網絡進行改進。文獻[9]結合機器學習神經網絡,通過研究網絡中不同節點的連接關系和當前信息網絡結構的特點,同時結合多任務學習方法提出了一種基于神經網絡的異質信息網絡表示方法。文獻[10]在經典異質信息網絡的基礎上進行改進,通過引入非對稱系數提出了非對稱的異質信息網絡推薦算法。該算法在引入非對稱系數之后,根據網絡中不同的元路徑信息特征,給元路徑賦予不同的權重信息,最后將不同元路徑的相似度結果進行加權以提高用戶相似度的準確性;最后通過在矩陣分解模型中融合相似度信息與評分信息實現基于異質信息網絡的評分預測推薦。雖然該算法引入了非對稱系數來解決來優化均方差相似度,但是該方法在解決復雜數據關系的推薦過程中效果并不明顯。
雖然基于異質信息網絡推薦算法在不同方面進行的改進和優化,但是依然存在網絡信息挖掘深度較淺,針對性低以及不具備深層次異質信息的缺點和復雜數據之間的任務處理。因此,為了解決以上存在的問題,本文提出了基于動態迭代采樣的異質信息網絡推薦算法。文章通過將動態采樣與異質信息網絡相結合來對異質信息網絡進行改進,通過對網絡中的參數進行不斷迭代采樣更新,從而提高整個網絡推薦算法的精度。
通常在研究信息數據的過程中,往往把一系列的數據信息抽象為基于數學理論的信息網絡進行描述。在進行把數據信息抽象為信息網絡圖的過程中,主要把信息節點抽象為點,同時把不同信息節點之間的關系抽象為網絡邊。在研究數據挖掘與學習的過程中。異質信息網絡作為一種比較能夠體現異質關系特殊網絡,主要由網絡節點、節點關系以及節點關系屬性等內容組成。異質信息網絡大規模、異質性和動態性等特點,造就其廣泛的應用地位。首先將信息網絡定義為具有對應類型映射函數φ:V→A以及節點對應關系的映射函數為ψ:E→R的一個有向圖G=(V,E,φ,ψ)。其中,對于任意元素v∈V滿足A:φ(v)∈A中的對象映射;同時對象節點之間的每一條鏈接關系e∈E滿足R:φ(e)∈R中的某一個特定的關系映射。
其中,如果對象類型|A|>1或者關系類型數|R|>1時,將該信息網絡定義為已知信息網絡;否則稱該網絡為同質信息網絡。
在研究異質信息網絡的過程中,定義TG為異質信息網絡G=(V,E,φ,ψ)的網絡模式。其中NetG=(A,R)表示有對象映射A以及節點連接關系映射R組成的有向圖。采用網絡模型來描述異質信息網絡,不僅可以將網絡中各節點關系進行代數抽象化,同時更能方便的反映整個網絡中的信息流以及節點對象之間的數據關系。
根據異質信息網絡G=(V,E,φ,ψ)和網絡模式NetG=(A,R),可以清除的描述任意不同對象節點之間的連接關系(序列),將該關系序列描述為節點元路徑。例如節點A1與節點AN+1之間一條元路徑可以表示為如下形式:
A1→A2→…Ak…→AN+1
(1)
其中,節點對象Ai與Ai+1之間的映射關系為Ri。因此,從對象節點A1到AN+1之間的組合關系A1A2…Ak…ANAN+1的組合關系可以表示為如下表達式:
R=R1·R2·…Rk·…·RN+1
(2)
其中,表達式中的"·"表示對象組合關系之間的組合函數。
在對異質信息網絡數據進行訓練并推薦的過程中,目前大多數的數據訓練推薦模型往往存在訓練后的同類數據波動較大,精確度低以及野數據較多等缺點。因此,在對傳統異質信息網絡數據采樣算法進行改進的過程中,本文提出了采用動態采樣的方法,同時根據訓練后的結果逐步完善對應的動態迭代采樣次數以及對隱藏層節點對象的采樣方式。通過采用該方法可以有效解決傳統迭代方式在中前期數據處理過程中存在的采樣誤差波動大、數據精確度低的現象。
在進行動態迭代采樣建模的過程中,本文采用經典的文獻檢索與數據推薦的異質信息網絡結構作為研究對象。動態迭代采樣的數據結構如圖1所示.

圖1 異質網絡結構示意圖
根據圖1中的對應的網絡實例建立基于迭代采樣的異質信息網絡模型如圖2所示。

圖2 動態采樣下網絡模型結構示意圖
迭代采樣模型以連接關系Ri作為輸入,同屬輸出隱藏層H以及連接關系層動態權值。因此建立動態迭代采樣模型為:

(3)
其中,ζRj為所有連接關系函數。在進行反饋迭代過程中能量差函數為

(4)
其中,n為數據可見層的單元數量;m為隱藏層中的員艙單元數量;c為動態采樣迭代層中的單元數量;k為節點評分數值;FV為可見層與迭代采樣層的關聯權重;FRj表示網絡中不同節點對象之間的連接關系函數,?為可見層與一階隱藏層之間的自適應參量;b表示一階隱藏層中各節點隱藏單元的自適應參量。其中,ζRj函數為

(5)
從可見層至隱藏層中第j個節點到第i個節點之間的傳遞函數為:

(6)
其中,Vmij表示可見層到第一層隱藏層之間的系適應權值;θij網絡對象節點的自適應閾值;β表示網絡節點向量化的基函數;σ(x)表示非線性激活函數,在本文中采用
σ(x)=1/(1+e-vi)
(7)
在進行迭代采樣過程中算法簡要流程如下:
1)數據輸入
文獻檢索與數據推薦異質信息網絡G=(V,E,φ,ψ),初始元路徑信息{APath}集合,隱藏層數據節點層數{1,2,…,k-1,k},初始節點連接權值{Vij,Wij,Hij};迭代采樣初始值{i1,i2,…,inum};迭代初始次數κ和期望迭代次數κdesire;初始化可見層與第一節隱藏節點之間的邊值?i,δj:i∈n,j∈m。
2)算法流程處理
For range of the iteration numκdo
For iteration 1: κ1do
For t=0,1,…,t-1 do
For j=1,…,mdohj,Hijandhm
According to all above these perimeters doWijandRk
Then do iteration
k=1,…,k do sampleζRkand then compute theERk.
Then according to the ERkand update the (Hijκnum,Wijκnum,Vijκnum).
After all the iteration procedure, return the program and then update the iteration number κ.
If κis equal to the κdesireand theζRkis so mall, then exit the program.
為了驗證本文提出算法的有效性,同時為了減少計算消耗的數據時間。文章以Springerlink 數據庫的一部分為例對數據進行訓練檢索和推薦。在進行數據處理之前,為了表現推薦預測數據準確度。文章首先定義性能評估函數來描述本文提出的數據推薦算法的性能,即平均絕對誤差fMAD以及均方根誤差fRMSE。fMAD主要體現數據推薦算法的推薦數據與實際使用過程中的真實數據兩者之間的匹配程度。平均絕對誤差fMAD的計算公式如式(8)所示。均方根誤差fRMSE如式(9)所示。

(8)

(9)
由式(8),(9)可以發現,當fMAD以及fRMSE的數值越小時,既可以說明推薦算法得到的推薦數據與真實數據之間匹配程度較高,同時進一步說明數據推薦算法的性能越好。
不同模型下在不同迭代次數下的預測值誤差如表2所示。

表1 動態采樣下不同模型預測值誤差
如表1可以看出,首先在進行動態采樣的過程中MA-DCRBM模型的推薦預測均方誤差和平均誤差相對較優;于此同時可以看出隨著迭代次數的增加,不同模型下的動態采樣模型算法推薦誤差相對都開始降低。這一點更說明在動態采樣的條件下,模型數據推薦相對較好。
為了進一步驗證動態采樣方法是否隨著迭代采樣次數的進一步關系,文章分別對兩種方法進行高次數迭代仿真,仿真結果如圖3-4所示。

圖3 動態采樣DCRBM模型推薦預測誤差

圖4 動態采樣MA-DCRBM模型推薦預測誤差
如圖3所示,可以看出基于動態采樣的DCRBM模型在隨著迭代采樣次數不斷增加的情況下,模型的推薦預測的MAE和RMAE誤差呈現下降的趨勢,尤其在前1000次左右。另外可以看出在增加到1000次以上之后推薦預測的誤差變化相對比較緩慢,分析數據看出,導致這種情況的主要原因在于數據量相對較少。
如圖4所示,可以看出基于動態采樣的MA-DCRBM模型在隨著迭代采樣次數不斷增加的情況下,模型的推薦預測的MAE和RMAE誤差呈現下降的趨勢,尤其在前1000次左右。另外可以看出在增加到1000次以上之后推薦預測的誤差變化相對比較緩慢,但是降低速率依然比DCRBM模型下降率大。
對比圖3和圖4可以看出,兩種動態迭代采樣模型雖然都隨著迭代次數的增加,推薦預測誤差都在降低,但是從最終的推薦誤差大小可以看出,在迭代次數1000以后MA-DCRBM模型算法的又是更加明顯。
本文提出一種動態迭代采樣的異質信息網絡推薦算法,文章首先介紹了相關的異質信息網絡的相關內容,然后論文以文獻檢索與數據推薦異質信息網絡為例建立了基于迭代采樣的信息網絡模型。該模型通過對連接關系模型作為反饋信息,建立對應的自適應動態迭代采樣反饋函數,不斷動態優化對應隱藏層之間的數據權值,在不斷的迭代過程中對象節點之間的連接關系得到不斷的優化,從而得到更精確的節點鏈接關系以達到更精確的數據推薦。為了驗證本文提出方法的有效性,文章給出了對應的數字仿真驗證,通過仿真分析可以看出本文提出的算法在文獻檢索與數據領域有很好的有效性,并且可以獲得更好的推薦結果.