姜笑楠
(大連職業技術學院圖書館 遼寧大連 116000)
圖書館能夠依靠其海量館藏圖書和數字資源為各類讀者提供文獻信息服務[1]。我國圖書館管理系統已經十分成熟,經過數十年的發展也積累下了豐富的實踐數據[2],如讀者數據、圖書數據等。通過深度挖掘這部分數據能夠幫助我們更好地了解讀者借閱習慣及規律,進而為后續改善圖書館服務質量提供有力依據[3]。總的來說,研究圖書館讀者借閱行為對于改善我國圖書館管理水平具有顯著意義[4-5]。
考慮到早期圖書館讀者借閱行為歷史數據并不多,所以研究者在統計分析讀者的借閱行為時往往會以人工方式進行。這種方式由于過于主觀所以很難全面、準確地得出讀者借閱行為規律,難以為有效提升館藏資源利用率提供決策依據[6]。現代信息技術的日新月異,使得大量基于數據挖掘技術的讀者借閱行為分析方法應運而生[7],比如基于時間序列的分析法[8],即以時間先后來對讀者借閱行為進行采集。不過這種方法也難以得出讀者借閱行為的總體變化特征,導致所得出的結果可信度較低[9]。再如,基于關聯規則算法的分析方法,旨在對借閱活動和讀者間的聯系進行綜合反映[10],這種方法是典型的線性分析技術,但借閱活動和讀者間聯系是非線性的,所以其分析結果往往具有較大誤差[11]。還有基于流通日志的分析方法[12],即通過流量日志來了解讀者借閱規律,不過隨著讀者人數規模的提升,流通日志的數據量也日益龐大,這將大大影響到這種分析方法的效率[13-15]。由于以上方法都存在一定缺陷,本文提出一種基于SVM與DS證據理論的分析方法來對讀者借閱行為進行綜合分析,同時引入實證分析法驗證其結果的科學性。
不同的圖書館其讀者在借閱行為特征上都互有差異,我們可以這部分特征來進行讀者借閱行為規律的識別,本研究擬定提取以下特征(見圖1)。

圖1 讀者借閱行為特征
針對數量為n的讀者而言,其借閱行為特征數據為X={x1,x2,L,xi,L,xn},設聚類數量為k,聚類分析算法原理如下:隨機選取k個讀者借閱行為數據作為總數為n的讀者借閱行為數據的初始聚類中心,其余數據則按照其和聚類中心的距離來和其最相似類別進行匹配。
(1)第j類讀者借閱行為類中心用cj表示,此時xi與cj之間距離:

xi與cj之間相似度為:

(2)更新各聚類中心,設第j類讀者借閱行為分析樣本集合{xj1,xj2,L,xi,xjnj},其聚類中心為cj=的第k個屬性用代表:

(3)反復以上操作,直到最終更新出前后一致的類中心為止,以均方差為本次測度標準,有:

經過上述步驟我們即可得出有關讀者借閱行為分析樣本的相似歷史樣本數量,進而完成建模。這種方式擺脫了對歷史樣本的依托,大大提高了分析效率。
作為典型的廣義線性分類算法,SVM算法在處理分類問題時盡管不能完全依托線性來完成二分類,不過可通過采用核函數方法在希爾伯特空間中映射出樣本數據,從而通過建立超平面來把不可線性二分問題轉化成線性可分問題。在確定這一超平面時應盡可能與其他樣本保持最大距離,并且最終的分類誤差要盡可能小。經超平面判別所得的最終樣本會被分成兩類分類函數,即:

其中,SV代表支持向量,ia代表拉格朗日乘子,代表核函數,xi、yi均為支持向量,b代表閾值,c代表懲罰系數。
DS證據理論屬于模糊推理理論,由Dempster和Shafer提出。其原理就是通過整合兩個或更多正具體的基本概率分配來得到作為評估依據的BPA,在此期間內,識別框架U中的目標是主要整合目標,它包含了若干目標對象,這些對象彼此排斥,互無聯系,m:2U→ [0,1]為定義函數(U的冪集為2U),滿足條件識別框架上的BPA用m表示,信任A的程度通過m(A)體現。
如果m1,m2與同一識別框架U上的BPA屬于一一對應的關系,然后用A1,A2,...,Ak和B1,B2,...,Bk,表示焦元,且滿足 的條件,那么可以得到如下公式所示內容:

在分析借閱行為期間,若引入了SVM-DS融合算法,那么操作步驟如下:先構造BPA,即先對特征參數進行提取,然后基于SVM識別單特征,整合BPA和DS證據理論,得到相應的結果(見圖2)。

(1)對特征進行提取,然后基于SVM識別單特征,先提取讀者借閱行為的特征,然后基于SVM初步識別基于3類9個單特征,然后得到公式(7)所示的正確率:

在公式(7)當中,無誤的樣本數量用N表示,總樣本數用M表示。
(2)構造BPS函數。目前有數種標準的SVM輸出類型,既不能構造證據體的BPA,又不能對各種判別結果的概率進行輸出,所以,在[0,1]區間內用sigmoid函數[16]實現SVM輸出的映射就可以明確后驗概率,如公式(8)所示:

在上述公式中,SVM輸出的類型用x表示,As,Bs是對sigmoid函數形態進行控制的參數。
所以對于隨機1個或更多的 SVM類而言,滿足如下條件:

(3)對DS融合評估準則進行設計。假設借閱行為有三種,記作Ar(r = 1,2,3) ,分析結果用Aw表示,然后要按照的準則用BPA劃分證據類型,也就是當目標類的信度比某門限值大時,那么信度最大的類就是這個目標類。
用K表示仿真的初始聚類中心,然后對全體特征進行量化,具體為:以數字的方式將圖書的借閱時間、周期,以及借閱者的年齡和借閱書籍量表示出來;用數字表示借閱圖書的時段的中點;借閱者專業上,用數字1~13來表示具體的學科門類,包括藝術學、軍事學、農學、教與學、法學、哲學、歷史學、文學、經濟學、醫學、工學、理學等,0表示無專業;借閱者學歷上,用1~4分別對應高中及以下、專科、本科、研究生;借閱者性別方面,用1表示男性,0表示女性;按照《中國圖書館分類法》中列出的類別來細分書籍類型,一共有22類,也用數字表示。這樣得到的實驗樣本集,可用于訓練和測試模型(見表1)。

表1 部分實驗樣本
本實驗分兩組進行,實驗一先綜合對比了各單特征SVM算法與多特征SVM-DS融合算法,結果發現,與單特征評估相比,多特征評估更為科學;實驗二對比了SVM-DS融合算法、人工神經網絡(ANN)算法、多特征算法(SVM輸入包含了9類特征)。結果顯示,這些算法當中,以SVM-DS融合算法的準確性最為理想。其中,SVM通過優化粒子群算法得到核函數參數g、懲罰系數c以及BRF徑向基核函數,以BP神經網絡作為神經網絡,以tansig作為傳遞函數,設置了13個中間層神經元,兩組實驗的次數都是10個,選取225個訓練集,25個測試集,二者在總樣本中的占比分別是90%、10%。
表2 所示即實驗一中單特征SVM和多特征SVMDS分析結果,通過對信度函數值進行分析不難發現:①實際借閱行為因為應用了多特征SVM-DS融合而有著較為理想的信任度;②在某些單特征判定存在沖突的情形下,多特征融合可以通過分析保證結果的準確性。

表2 單特征SVM與多特征SVM-DS分析信度對比
圖3 給出了實驗二內不同算法分析結果和準確率結果,其中分析行為與實際行為重合率越高則準確率越高。ANN分析、SVM多特征分析、SVM-DS分析的準確率分別是68%、72%和88%。通過對比不難發現,準確率較為理想的分析方法主要是多特征SVM和SVM-DS融合算法,這主要是訓練樣本數量有限的緣故,說明ANN在樣本有限的情況下無法發揮優勢,但是隨著特征維數的變多,多特征SVM分析方法的準確率雖然也有所保證,但卻不夠穩定,無法充分融合不確定、不完全的信息,而且有些奇異值對其影響十分顯著,會影響判別效果的可靠性,SVM-DS算法對多特征的信息進行了整合,且算法容易操作,魯棒性也比較強。

圖3 各算法對借閱行為的分析與準確率結果
本文歸納了會對借閱行為造成影響的三個因素,通過分析進一步掌握圖書館讀者借閱行為。文中所構建的特征集是針對書籍信息特征、讀者信息特征、借閱時間特征進行的,并提出了一種新的分析方法,即DS證據理論和SVM算法相融合。新的分析方法不但可以通過基本概率分配函數克服DS證據理論BPA的缺陷,而且可以很好地保證分析結果的客觀性和時效性。同時發現采用多特征融合的SVM-DS算法可以獲得88%的準確率,解決了傳統SVM算法處理不全面、信息不確定的弊端,有效強化了人們分析圖書館大數據行為的能力。