劉洋



摘? 要: 圖書館借閱量具有大規模、混沌性等變化特點,當前圖書館借閱量沒有綜合考慮該特點,導致圖書館借閱量預測結果與實際不相符,為了獲得更加可靠的圖書館借閱量預測結果,設計基于大數據的圖書館借閱量預測模型。首先,分析圖書館借閱量的預測原理,并收集圖書館借閱量的歷史數據;然后,引入大數據技術對圖書館借閱量特性進行分析和重建,將原始數據變換為更加有利于圖書館借閱量建模的數據;最后,采用極限學習機對圖書館借閱量進行預測,并采用VC++ 6.0編寫圖書館借閱量預測程序進行仿真實驗。結果表明,所提模型的圖書館借閱量預測精度高,圖書館借閱量預測速度快,完全可以滿足圖書館借閱量分析研究,并且圖書館借閱量的整體預測結果明顯優于傳統圖書館借閱量預測模型,為圖書館借閱量預測建模提供了一種新的研究工具。
關鍵詞: 圖書館管理系統; 圖書借閱量; 大數據特征; 歷史數據重建; 混沌變化; 預測精度
中圖分類號: TN911.1?34; TP391? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)05?0105?04
Research on library circulation data prediction under the background of big data
LIU Yang
(Pingdingshan University, Pingdingshan 467000, China)
Abstract: The library circulation data is characterized by large scale and chaos. However, the characters have not been comprehensively taken into account in present library circulation data, resulting in the prediction result of the library circulation data being inconsistent with the fact. In view of the above, a library circulation data prediction model based on big data is designed to obtain more reliable prediction results. First of all, the prediction principle of library circulation data is analyzed and the historical data of library circulation data are collected. Then, the big data technology is introduced to analyze and reconstruct the characteristics of library circulation data, and transform the original data into data more conducive to the modeling of library circulation data. Finally, the extreme learning machine is used to predict the library circulation data, and the VC++ 6.00 is adopted to compile the library circulation data prediction program and perform simulation experiments. The results show that the proposed model is of high prediction accuracy and fast prediction speed for library circulation data, which can completely satisfy the analysis and research of library circulation data. In addition, the overall prediction result of library circulation data of the proposed model is obviously superior to that of traditional library circulation data prediction model, providing a new research tool for library circulation data prediction modeling.
Keywords: library management system; book circulation data; big data characteristic; historical data reconstruction; chaotic change; prediction accuracy
0? 引? 言
圖書館借閱量預測是圖書館借閱量管理系統中的一個關鍵環節,圖書館借閱量預測方法的設計一直是高校圖書館管理者和研究人員高度關注的話題[1?3]。
目前,主要有基于神經網絡的圖書館借閱量智能預測模型[4?6],通過神經網絡的非線性擬合能力對圖書館借閱量歷史數據進行挖掘,找到圖書館借閱量變化規律,圖書館借閱量預測結果效果要明顯優于專家系統[7]。圖書館借閱量與多種因素密切相關,每天會產生大量的歷史數據,具有顯著的大規模、混沌性等變化特點,而當前模型均忽略這些特點,使得圖書館借閱量預測結果有待進一步改善[8?10]。
為了準確描述圖書館借閱量的變化趨勢,結合現代圖書館借閱量的實際變化等特點,設計了基于大數據的圖書館借閱量預測模型,在VC++ 6.0環境下進行了圖書館借閱量預測仿真實驗。結果表明,本文模型的圖書館借閱量的整體預測結果明顯優于傳統圖書館借閱量預測模型,是一種精度高、速度快的圖書館借閱量預測模型。
1? 大數據背景下的圖書館借閱量預測模型
1.1? 圖書館借閱量數據重建模方法
圖書館借閱量歷史數據是多種影響因素的綜合結果,圖書館借閱量變化十分復雜,有周期性,并且有混沌性,從表面上看圖書館借閱量沒有變化規律,隨機性強[11?13]。圖書館借閱量歷史數據之間在時間上有一定的聯系,時間相隔得較近的圖書館借閱量聯系較緊密,時間相隔較遠的圖書館借閱量聯系比較松散,時間相隔得很遠的圖書館借閱量歷史數據間可能沒有聯系。因此,通過引入大數據背景下的相空間重構算法對圖書館借閱量歷史數據進行分析和重建,得到比原始圖書館借閱量歷史數據更有規律的新數據。圖書館借閱量的歷史數據共有[n]個,它們組成一個樣本集合[{x(t),t=1,2,…,n}],采用相空間重構算法確定圖書館借閱量歷史數據間的延遲時間[τ]和嵌入維數[m],得到一個新的圖書館借閱量數據集合,具體如下[14]:
[X(t)=[x(t),x(t+τ),…,x(t+(m-1)τ)],? ? ? ? ? ? ? ? ? ? ? ? ?t=1,2,…,M] (1)
式中[M=n-(m-1)τ]。
1) 圖書館借閱量歷史數據間的延遲時間確定步驟如下:
Step1:對第[i]個、第[j]個圖書館借閱量數據重構后結果為[X(i)=[x(i),x(i+τ),…,x(i+(m-1)τ)]]和[X(j)=[x(j),x(j+τ),…,x(j+(m-1)τ)]],它們之間的距離為:
[rij=X(i)-X(j)] (2)
Step2:隨機產生一個數[r],作為臨界半徑,該臨界區域內有多個圖書館借閱量數據對,它們的關聯積分計算公式為:
[C(m,N,r,τ)=2M(M-1)1≤i≤j≤MH(r-X(i)-X(j))]? ?(3)
式中:[N]表示數據對數量;[H](·)定義如下:
[H(x)=0,? ? ?x≤01,? ? ?x>0] (4)
Step3:將圖書館借閱量的歷史數據細分為[t]個子序列數據,并計算聯積分均值,即有:
[S(m,r,τ)=1tl=1t{Cl(m,r,τ)-[Cl(m,r,τ)]m}]? (5)
Step4:圖書館借閱量歷史數據聯積分均值的最大和最小子序列間的差為:
[ΔS(m,t)=max[S(m,rj,τ)]-min[S(m,rj,τ)]]? (6)
Step5:圖書館借閱量歷史數據嵌入維數的[m]取值范圍為1~[k],可以得到:
[ΔS(t)=1km=1kΔS(m,t)]? ? ? ? ? ? ? ?(7)
Step6:如果[ΔS(t)]變化十分穩或者得到第一最小值時,此時[τ]值即該圖書館借閱量歷史數據的延遲時間值。
2) 圖書館借閱量歷史數據間的嵌入維數確定步驟為:
Step1:圖書館借閱量歷史數據的第[i]個重構向量為[Xi(m+1)],[Xn(i,m)]([m+1])表示該圖書館借閱量歷史數據的最近鄰,那么有:
[α(i,m)=Xi(m+1)-Xn(i,m)(m+1)Xi(m)-Xn(i,m)(m)]? ? ?(8)
Step2:當[E(m)]變化幅度比較小時,可以確定圖書館借閱量的嵌入維數。
[E(m)=1n-mτi=1n-mτα(i,m)] (9)
1.2? 極限學習機算法
由于極限學習機的學習能力和預測性能均要優于當前其他預測方法,因此,本文選擇其作為圖書館借閱量預測方法。設重建模后圖書館借閱量的歷史數據為[Xp=[xp xp+1 … xp+m-1]T],極限學習機可表示為:
[min12βTkβk+γ2εTkεs.t.? ? tp=k=1Lβkf(αkXp+bk)-εpp=1,2,…,k]? ? ?(10)
引入拉格朗日乘子,簡化式(10)的操作,產生:
[L(w,ε,βk)=12βTkβk+γ2εTkε-w(Hkβk-Tk-ε)s.t.? ? tp=k=1Lβkf(αkXp+bk)-εpp=1,2,…,k]? (11)
對式(11)求偏導,部分偏導數設置為零,則可得:
[?L?βL→βTk=wHk?L?ε→γεT+w=0?L?w→Hkβk-T-ε=0]? ? ? ? ? ? ?(12)