范雯雯
(云南交通職業技術學院 交通信息工程學院, 云南 昆明 650000)
隨著科學技術的不斷發展,每一個大學的圖書館越來越大,圖書的種類和數量大幅度增加,圖書資源更加豐富,可以為讀者提供更好的學習資源,在這種數據爆炸式背景下,如何對讀者借閱行為進行分析十分重要,因此其成為高校圖書館研究領域中的一個重要方向[1-3]。
為了獲得理想高校圖書館讀者借閱行為分析結果,提出了高校圖書館讀者借閱行為分析的數據挖掘算法,并與其它高校圖書館讀者借閱行為分析方法進行了對比分析。結果表明,本文算法是一種精度高、用時少的高校圖書館讀者借閱行為分析方法,相對于其它高校圖書館讀者借閱行為分析方法,具有十分明顯的優越性。
當前圖書館文獻資源雖然豐富,但是質量相差很大,讀者花費大量的時間,卻獲得了一些沒有價值的東西,因此如何從眾多的文獻資源中快速找到讀者真正需要的資源,為讀者提供個性化的服務是當前迫切需要解決的問題[4]。多年以來,人們對高校圖書館讀者借閱行為分析問題進行了長期的研究,可以將高校圖書館讀者借閱行為分析劃分為兩個階段:第一個階段為人工階段,該階段為一些高校圖書館管理員對讀者的借閱歷史記錄進行分析,如調查問卷法,多元統計學方法,根據分析結果給高校圖書館讀者借閱行為提供一些參考意見,由于讀者的借閱歷史記錄相當大,使得該過程的工作時間比較長,容易出現錯誤,而且高校圖書館資源比較大,因此人工方式不能滿足要求[5];第二階段為自動化階段,該階段利用計算機、互聯網、物聯網、傳感器以及人工智能等技術進行高校圖書館讀者借閱行為分析,最初人們采用多因素關聯分析法,從讀者的電子閱讀時間、讀者借閱數量等因素去分析高校圖書館讀者借閱行為變化態勢,但是其分析結果缺乏定量分析,結果可信度不高。近幾年出來了基于聚類分析的高校圖書館讀者借閱行為分析方法、基于時間序列法的高校圖書館讀者借閱行為分析方法、關聯規則推薦算法的高校圖書館讀者借閱行為分析方法,它們根據讀者偏好、讀者借閱的歷史數據,挖掘出讀者借閱流量的變化規律,將讀者劃分為不同的類型,根據讀者類型推薦相應的書籍[6-7],但是它們在實際應用中,還是存在高校圖書館讀者借閱行為分析結果存在精度低、效率低等缺陷,因此高校圖書館讀者借閱行為分析結果有待進一步提高[9-10],當前數據挖掘技術得到了飛速發展,為解決高校圖書館讀者借閱行為問題提供了一種新的工具。
最小二乘支持向量機是一種數據挖掘算法,其工作原理與標準支持向量機差不多,但是其學習速度要明顯快于支持向量機,同時學習精度要高于人工神經網絡,因此,本文將其引入到高校圖書館讀者借閱行為分析中。最小二乘支持向量機的結構,如圖1所示。

圖1 最小二乘支持向量機的結構
在一定的空間范圍中,設高校圖書館讀者借閱行為分析的樣本集D={(xk,yk)|k=1,2,…,N},其中,xk為高校圖書館讀者借閱行為特征,yk為高校圖書館讀者借閱行為類型,采用徑向基函數作為高校圖書館讀者借閱行為分析建模的核函數,如式(1)。
(1)
對于高校圖書館讀者借閱行為分析問題,采用最小二乘支持向量機可以描述為一個目標優化函數,如式(2)。
(2)
式中,γ表示正則化參數,式(2)應該滿足如下約束條件,如式(3)。
yk[wTφ(xk)+b]=1-ek
(3)
由于式(2)是一個帶等式約束的二次規劃問題,直接求解比較復雜,導致的高校圖書館讀者借閱行為分析效率低下,為此采用拉格朗日乘子αk,建立拉格朗日乘子函數,如式(4)。
L(w,b,e,α)=φ(w,b,e)-
(4)
設w,b,ek,αk的偏導數為零,對上式進行優化,如式(5)。
(5)
將式(4)寫成矩陣方程,如式(6)。
(6)

根據ykylφ(xk)Tφ(xl)=ykylψ(xk,xl),最后得到高校圖書館讀者借閱行為分析的最優決策函數,如式(7)。
(7)
Step1:分析影響高校圖書館讀者借閱行為的因素,采集相應影響因素的數據,并對其進行如下處理,如式(8)。
(8)
式中,n表示高校圖書館讀者借閱行為影響因素的個數。
Step2:根據高校圖書館讀者借閱行為影響因素值,通過專業人員對高校圖書館讀者借閱行為的類型進行標記,這樣建立了高校圖書館讀者借閱行為分析的樣本集合。
Step3:根據4∶1的方式將高校圖書館讀者借閱行為分析的樣本集合劃分為訓練集和測試集。
Step4:確定最小二乘支持向量機的參數,以高校圖書館讀者借閱行為分析精度為目標,采用5折交叉驗證算法確定最優參數,并對高校圖書館讀者借閱行為分析訓練集進行學習,建立高校圖書館讀者借閱行為分析模型。
Step5:采用訓練樣本對高校圖書館讀者借閱行為分析模型的性能進行分析。
高校圖書館讀者借閱行為分析的數據挖掘算法的工作流程,如圖2所示。
為了分析本文設計的高校圖書館讀者借閱行為分析的數據挖掘算法的性能,采用Python語言編程實現高校圖書館讀者借閱行為分析程序,數據來自某高校的高校圖書館,讀者借閱行為劃分為5類,每一類行為的讀者數量,如表1所示。

圖2 高校圖書館讀者借閱行為的分析流程

表1 仿真實例分析的數據分布
它們組成學習樣本集合。
為了測試本文方法的實驗結果的優越性,采用時間序列法的高校圖書館讀者借閱行為分析方法和關聯規則推薦算法的高校圖書館讀者借閱行為分析方法進行對比測試,統計它們的分析精度,如圖3所示。

圖3 讀者借閱行為分析精度
從圖3的高校圖書館讀者借閱行為分析結果可以看出,時間序列法的高校圖書館讀者借閱行為分析精度最低,其次為關聯規則推薦算法,本文方法的高校圖書館讀者借閱行為分析精度最優,有效降低了高校圖書館讀者借閱行為分析誤差,可以更加準確的為讀者推薦更好的圖書資源,解決了當前高校圖書館讀者借閱行為分析建模過程中存在的問題。
計算所有方法的高校圖書館讀者借閱行為分析時間(秒,s),如圖4所示。
對圖4的結果進行分析可以知道,相對于用時間序列法的高校圖書館讀者借閱行為分析方法和關聯規則推薦算法的高校圖書館讀者借閱行為分析方法,本文方法的分析速度得到了明顯的改善,提高了高校圖書館讀者借閱行為分析效率。

圖4 讀者借閱行為分析時間
為了解決當前高校圖書館讀者借閱行為分析過程存在的問題,如精度低、效率低等,提出了高校圖書館讀者借閱行為分析的數據挖掘算法,與經典借閱行為分析方法的對比結果表明,本文方法無論是高校圖書館讀者借閱行為精度或者是分析效率均要優于經典方法,可以實現讀者個性化服務功能。