聶飛霞
關鍵詞:預測;多校區圖書館;典藏規劃
摘 要:隨著高校圖書館的多校區發展,圖書館典藏工作迎來了新的挑戰。文章提出了運用預測技術對圖書借閱量進行預測分析,從而使多校區圖書館的典藏工作更加科學有效的方法。
中圖分類號:G250.78 文獻標識碼:A 文章編號:1003-1588(2014)03-0118-03
進入2012年,“大數據”這個專有名詞開始出現在人們的視野中,各行各業的專家學者開始提出“大數據時代”所帶來的挑戰。那么,何謂“大數據”?目前業內對“大數據”一詞仍沒有統一的定義,但筆者認為,大數據(Big Data)就是指隨著某一行業的發展而不斷增長的數據量,它并不是一種技術,而是人們對龐大繁雜數據的一個稱謂。由于其量的龐大,使得我們經常所用到的統計分析功能已經無從下手。所以,在“大數據”時代,一種技術再一次得到升溫,那就是數據挖掘技術。
數據挖掘(Data Mining)技術在1998年作為一種數據處理技術概念被提出,并在上世紀末開始活躍于各個領域[1]。其在圖書館領域的應用晚于諸如通信、銀行等其他行業,但數據挖掘技術在其他領域的廣泛應用,給其在圖書館的應用打下了良好基礎。作為圖書館工作的重中之重,隨著RFID (Radio Frequency Identification)射頻識別技術在圖書館的應用,使得典藏工作更加科學系統化。然而,由于國內很多大學圖書館都實行了多校區辦館,在適應了高校現有的多校區辦學的現狀的同時,卻給典藏工作帶來了前所未有的挑戰[2]。面對因為多校區辦館而激增的流通數據,如何從這些龐大的數據源中發現真正有利于多校區典藏規劃的信息呢?如何使得多校區典藏工作更加科學有效呢?數據挖掘的分析方法主要有分類、預測、關聯規則、聚類分析、回歸、順序規則、時間序列和決策樹。這些分析方法都可以用來建立一些模型,這些模型可以用來描述數據之間的聯系以及模式[3]。筆者主要介紹如何將數據挖掘技術之一的預測技術應用于多校區典藏規劃中。
1 如何建立多校區典藏預測模型
預測,即Forecast。預測技術是通過已知數據來了解事物今后發展情況和走勢的技術。建立預測模型的方法有很多,常用的方法有回歸分析預測、趨勢外推預測、基于神經網絡的預測和時間序列預測等。
1.1 分析預測目標以及確定預測時間
多校區辦館導致了圖書館典藏機制面臨重大的挑戰——[KG*4]一類圖書放到哪個學區才能使其被充分利用。因此,筆者的分析目標就是圖書需要的科學擺放區域,而預測時間選擇為十二年。
1.2 預測前期的資料采集與調研
圖書館典藏工作中的圖書擺放模式有兩種,一種是按照內容的擺放,例如分類排架;另一種是按照圖書的形式擺放,例如裝訂方式排架等[4]。目前,高校圖書館運用較多的是按照索取號排架的方法。由于索取號是由分類號和著者編號組合而成,因此在進行數據挖掘的前期可以對圖書進行分類號的特征采集,這有利于我們下一步預測方法的選擇。以西北大學圖書館的借閱數據為例,由于西北大學圖書館有南區圖書館和北區圖書館兩個分館,需要預測某一特征的圖書某一年在南北分館的借閱量,以此來確定典藏地點的分配(見表1)。如表1所示,北校區圖書館借閱量為Nyi,南校區圖書館借閱量為Syj,表1為某類特征值圖書兩校區借閱數量統計。
1.3 選擇一種適用方法
如表1所示,特征采集過程中兩個校區的借閱量是我們要預測的對象。預測建模的諸多方法中,回歸分析預測建模中的一元線性回歸預測方法可以應用到多校區借閱量預測中。
1.4 對預測結果的分析與評估
通過一元線性回歸預測方法,我們可以預測到一個分類號在兩校區的借閱趨勢。這里應該對預測的結果進行分析與評估,確定結果是否符合預測的要求,并運用預測模型進行檢驗,以此來比較本次預測的精確度。
[HS2]2 一元線性回歸預測模型的應用
一元線性回歸分析是處理兩個變量x(自變量)和y(因變量)之間關系的最簡單的模型,研究的是這兩個變量之間的線性相關關系[3]。一元回歸的公式為:
yi=a+bxi+ui(i=1,2,…n)
其中u是一個隨機變量,稱為隨機項;a、b是兩個常數,稱為回歸系數(參數);i表示變量的第i個觀察值,共有n組樣本觀察值。
由于需要預測某一特征的圖書在兩個分館的借閱量,所以本次預測因變量y分別設為y1(北校區圖書館借閱量)、y2(南校區圖書館借閱量)。在得到預測結果y1和y2后,通過設計SQL語句來比較y1與y2的結果值,從而返回典藏地點的推薦值。以下為一元回歸預測的具體過程(見表2)。
3 預測模型對多校區典藏規劃的啟示
3.1 預測前期工作簡單化
該預測模型前期數據準備工作為數據的特征提取,這里提取了圖書的分類號作為分析的目標。例如:需要分析“數據挖掘技術與應用”這一類的書,我們提取到的特征為TP274,以TP274為分析目標在圖書館自動化系統中統計出分析范圍內(十二年)的借閱量。
3.2 預測模型應用簡單化
預測模型建立起來后,典藏工作人員只需將分析范圍內(十二年)的借閱數據輸入模型,系統會自動生成回歸方程(如y1[DD(-*5]∧[DD)]=20.9895+1.217x),只需要選擇需要預測的年份(如2014年),就可以得到某一類圖書在某一年內在各個校區的借閱量預測結果。
3.3 對非典藏領域的啟示
該預測模型建立起來后,可以預測某特征類型的圖書的多校區借閱量,可以指導典藏規劃實施圖書的具體布局。對于借閱量在某一閾值以下的圖書,典藏部門可以對該類圖書進行剔舊或者下架處理,而采訪部門可以少量購買或者不予購買。同時,對于借閱量大于某一閾值的圖書,典藏部門可以開設特色化服務進行推薦,而采訪部門可以通過增加復本或增加同類書來滿足讀者的要求。
參考文獻:
[1] Han Jiawei,Kamber Micheline.數據挖掘:概念與技術[M].北京:高等教育出版社,2001:42-60.
[2] 賈宇群, 李桂祥, 劉東燕.多校區模式下高校圖書館文獻資源的布局與管理[J].情報科學,2009(3).
[3] 陳燕.數據挖掘技術與應用[M].北京:清華大學出版社,2011:72-80
[4] 林曉玲,楊明華.RFID圖書管理系統中圖書定位排架方式探析[J].圖書館論壇,2012(3).
(編校:崔萌)endprint
關鍵詞:預測;多校區圖書館;典藏規劃
摘 要:隨著高校圖書館的多校區發展,圖書館典藏工作迎來了新的挑戰。文章提出了運用預測技術對圖書借閱量進行預測分析,從而使多校區圖書館的典藏工作更加科學有效的方法。
中圖分類號:G250.78 文獻標識碼:A 文章編號:1003-1588(2014)03-0118-03
進入2012年,“大數據”這個專有名詞開始出現在人們的視野中,各行各業的專家學者開始提出“大數據時代”所帶來的挑戰。那么,何謂“大數據”?目前業內對“大數據”一詞仍沒有統一的定義,但筆者認為,大數據(Big Data)就是指隨著某一行業的發展而不斷增長的數據量,它并不是一種技術,而是人們對龐大繁雜數據的一個稱謂。由于其量的龐大,使得我們經常所用到的統計分析功能已經無從下手。所以,在“大數據”時代,一種技術再一次得到升溫,那就是數據挖掘技術。
數據挖掘(Data Mining)技術在1998年作為一種數據處理技術概念被提出,并在上世紀末開始活躍于各個領域[1]。其在圖書館領域的應用晚于諸如通信、銀行等其他行業,但數據挖掘技術在其他領域的廣泛應用,給其在圖書館的應用打下了良好基礎。作為圖書館工作的重中之重,隨著RFID (Radio Frequency Identification)射頻識別技術在圖書館的應用,使得典藏工作更加科學系統化。然而,由于國內很多大學圖書館都實行了多校區辦館,在適應了高校現有的多校區辦學的現狀的同時,卻給典藏工作帶來了前所未有的挑戰[2]。面對因為多校區辦館而激增的流通數據,如何從這些龐大的數據源中發現真正有利于多校區典藏規劃的信息呢?如何使得多校區典藏工作更加科學有效呢?數據挖掘的分析方法主要有分類、預測、關聯規則、聚類分析、回歸、順序規則、時間序列和決策樹。這些分析方法都可以用來建立一些模型,這些模型可以用來描述數據之間的聯系以及模式[3]。筆者主要介紹如何將數據挖掘技術之一的預測技術應用于多校區典藏規劃中。
1 如何建立多校區典藏預測模型
預測,即Forecast。預測技術是通過已知數據來了解事物今后發展情況和走勢的技術。建立預測模型的方法有很多,常用的方法有回歸分析預測、趨勢外推預測、基于神經網絡的預測和時間序列預測等。
1.1 分析預測目標以及確定預測時間
多校區辦館導致了圖書館典藏機制面臨重大的挑戰——[KG*4]一類圖書放到哪個學區才能使其被充分利用。因此,筆者的分析目標就是圖書需要的科學擺放區域,而預測時間選擇為十二年。
1.2 預測前期的資料采集與調研
圖書館典藏工作中的圖書擺放模式有兩種,一種是按照內容的擺放,例如分類排架;另一種是按照圖書的形式擺放,例如裝訂方式排架等[4]。目前,高校圖書館運用較多的是按照索取號排架的方法。由于索取號是由分類號和著者編號組合而成,因此在進行數據挖掘的前期可以對圖書進行分類號的特征采集,這有利于我們下一步預測方法的選擇。以西北大學圖書館的借閱數據為例,由于西北大學圖書館有南區圖書館和北區圖書館兩個分館,需要預測某一特征的圖書某一年在南北分館的借閱量,以此來確定典藏地點的分配(見表1)。如表1所示,北校區圖書館借閱量為Nyi,南校區圖書館借閱量為Syj,表1為某類特征值圖書兩校區借閱數量統計。
1.3 選擇一種適用方法
如表1所示,特征采集過程中兩個校區的借閱量是我們要預測的對象。預測建模的諸多方法中,回歸分析預測建模中的一元線性回歸預測方法可以應用到多校區借閱量預測中。
1.4 對預測結果的分析與評估
通過一元線性回歸預測方法,我們可以預測到一個分類號在兩校區的借閱趨勢。這里應該對預測的結果進行分析與評估,確定結果是否符合預測的要求,并運用預測模型進行檢驗,以此來比較本次預測的精確度。
[HS2]2 一元線性回歸預測模型的應用
一元線性回歸分析是處理兩個變量x(自變量)和y(因變量)之間關系的最簡單的模型,研究的是這兩個變量之間的線性相關關系[3]。一元回歸的公式為:
yi=a+bxi+ui(i=1,2,…n)
其中u是一個隨機變量,稱為隨機項;a、b是兩個常數,稱為回歸系數(參數);i表示變量的第i個觀察值,共有n組樣本觀察值。
由于需要預測某一特征的圖書在兩個分館的借閱量,所以本次預測因變量y分別設為y1(北校區圖書館借閱量)、y2(南校區圖書館借閱量)。在得到預測結果y1和y2后,通過設計SQL語句來比較y1與y2的結果值,從而返回典藏地點的推薦值。以下為一元回歸預測的具體過程(見表2)。
3 預測模型對多校區典藏規劃的啟示
3.1 預測前期工作簡單化
該預測模型前期數據準備工作為數據的特征提取,這里提取了圖書的分類號作為分析的目標。例如:需要分析“數據挖掘技術與應用”這一類的書,我們提取到的特征為TP274,以TP274為分析目標在圖書館自動化系統中統計出分析范圍內(十二年)的借閱量。
3.2 預測模型應用簡單化
預測模型建立起來后,典藏工作人員只需將分析范圍內(十二年)的借閱數據輸入模型,系統會自動生成回歸方程(如y1[DD(-*5]∧[DD)]=20.9895+1.217x),只需要選擇需要預測的年份(如2014年),就可以得到某一類圖書在某一年內在各個校區的借閱量預測結果。
3.3 對非典藏領域的啟示
該預測模型建立起來后,可以預測某特征類型的圖書的多校區借閱量,可以指導典藏規劃實施圖書的具體布局。對于借閱量在某一閾值以下的圖書,典藏部門可以對該類圖書進行剔舊或者下架處理,而采訪部門可以少量購買或者不予購買。同時,對于借閱量大于某一閾值的圖書,典藏部門可以開設特色化服務進行推薦,而采訪部門可以通過增加復本或增加同類書來滿足讀者的要求。
參考文獻:
[1] Han Jiawei,Kamber Micheline.數據挖掘:概念與技術[M].北京:高等教育出版社,2001:42-60.
[2] 賈宇群, 李桂祥, 劉東燕.多校區模式下高校圖書館文獻資源的布局與管理[J].情報科學,2009(3).
[3] 陳燕.數據挖掘技術與應用[M].北京:清華大學出版社,2011:72-80
[4] 林曉玲,楊明華.RFID圖書管理系統中圖書定位排架方式探析[J].圖書館論壇,2012(3).
(編校:崔萌)endprint
關鍵詞:預測;多校區圖書館;典藏規劃
摘 要:隨著高校圖書館的多校區發展,圖書館典藏工作迎來了新的挑戰。文章提出了運用預測技術對圖書借閱量進行預測分析,從而使多校區圖書館的典藏工作更加科學有效的方法。
中圖分類號:G250.78 文獻標識碼:A 文章編號:1003-1588(2014)03-0118-03
進入2012年,“大數據”這個專有名詞開始出現在人們的視野中,各行各業的專家學者開始提出“大數據時代”所帶來的挑戰。那么,何謂“大數據”?目前業內對“大數據”一詞仍沒有統一的定義,但筆者認為,大數據(Big Data)就是指隨著某一行業的發展而不斷增長的數據量,它并不是一種技術,而是人們對龐大繁雜數據的一個稱謂。由于其量的龐大,使得我們經常所用到的統計分析功能已經無從下手。所以,在“大數據”時代,一種技術再一次得到升溫,那就是數據挖掘技術。
數據挖掘(Data Mining)技術在1998年作為一種數據處理技術概念被提出,并在上世紀末開始活躍于各個領域[1]。其在圖書館領域的應用晚于諸如通信、銀行等其他行業,但數據挖掘技術在其他領域的廣泛應用,給其在圖書館的應用打下了良好基礎。作為圖書館工作的重中之重,隨著RFID (Radio Frequency Identification)射頻識別技術在圖書館的應用,使得典藏工作更加科學系統化。然而,由于國內很多大學圖書館都實行了多校區辦館,在適應了高校現有的多校區辦學的現狀的同時,卻給典藏工作帶來了前所未有的挑戰[2]。面對因為多校區辦館而激增的流通數據,如何從這些龐大的數據源中發現真正有利于多校區典藏規劃的信息呢?如何使得多校區典藏工作更加科學有效呢?數據挖掘的分析方法主要有分類、預測、關聯規則、聚類分析、回歸、順序規則、時間序列和決策樹。這些分析方法都可以用來建立一些模型,這些模型可以用來描述數據之間的聯系以及模式[3]。筆者主要介紹如何將數據挖掘技術之一的預測技術應用于多校區典藏規劃中。
1 如何建立多校區典藏預測模型
預測,即Forecast。預測技術是通過已知數據來了解事物今后發展情況和走勢的技術。建立預測模型的方法有很多,常用的方法有回歸分析預測、趨勢外推預測、基于神經網絡的預測和時間序列預測等。
1.1 分析預測目標以及確定預測時間
多校區辦館導致了圖書館典藏機制面臨重大的挑戰——[KG*4]一類圖書放到哪個學區才能使其被充分利用。因此,筆者的分析目標就是圖書需要的科學擺放區域,而預測時間選擇為十二年。
1.2 預測前期的資料采集與調研
圖書館典藏工作中的圖書擺放模式有兩種,一種是按照內容的擺放,例如分類排架;另一種是按照圖書的形式擺放,例如裝訂方式排架等[4]。目前,高校圖書館運用較多的是按照索取號排架的方法。由于索取號是由分類號和著者編號組合而成,因此在進行數據挖掘的前期可以對圖書進行分類號的特征采集,這有利于我們下一步預測方法的選擇。以西北大學圖書館的借閱數據為例,由于西北大學圖書館有南區圖書館和北區圖書館兩個分館,需要預測某一特征的圖書某一年在南北分館的借閱量,以此來確定典藏地點的分配(見表1)。如表1所示,北校區圖書館借閱量為Nyi,南校區圖書館借閱量為Syj,表1為某類特征值圖書兩校區借閱數量統計。
1.3 選擇一種適用方法
如表1所示,特征采集過程中兩個校區的借閱量是我們要預測的對象。預測建模的諸多方法中,回歸分析預測建模中的一元線性回歸預測方法可以應用到多校區借閱量預測中。
1.4 對預測結果的分析與評估
通過一元線性回歸預測方法,我們可以預測到一個分類號在兩校區的借閱趨勢。這里應該對預測的結果進行分析與評估,確定結果是否符合預測的要求,并運用預測模型進行檢驗,以此來比較本次預測的精確度。
[HS2]2 一元線性回歸預測模型的應用
一元線性回歸分析是處理兩個變量x(自變量)和y(因變量)之間關系的最簡單的模型,研究的是這兩個變量之間的線性相關關系[3]。一元回歸的公式為:
yi=a+bxi+ui(i=1,2,…n)
其中u是一個隨機變量,稱為隨機項;a、b是兩個常數,稱為回歸系數(參數);i表示變量的第i個觀察值,共有n組樣本觀察值。
由于需要預測某一特征的圖書在兩個分館的借閱量,所以本次預測因變量y分別設為y1(北校區圖書館借閱量)、y2(南校區圖書館借閱量)。在得到預測結果y1和y2后,通過設計SQL語句來比較y1與y2的結果值,從而返回典藏地點的推薦值。以下為一元回歸預測的具體過程(見表2)。
3 預測模型對多校區典藏規劃的啟示
3.1 預測前期工作簡單化
該預測模型前期數據準備工作為數據的特征提取,這里提取了圖書的分類號作為分析的目標。例如:需要分析“數據挖掘技術與應用”這一類的書,我們提取到的特征為TP274,以TP274為分析目標在圖書館自動化系統中統計出分析范圍內(十二年)的借閱量。
3.2 預測模型應用簡單化
預測模型建立起來后,典藏工作人員只需將分析范圍內(十二年)的借閱數據輸入模型,系統會自動生成回歸方程(如y1[DD(-*5]∧[DD)]=20.9895+1.217x),只需要選擇需要預測的年份(如2014年),就可以得到某一類圖書在某一年內在各個校區的借閱量預測結果。
3.3 對非典藏領域的啟示
該預測模型建立起來后,可以預測某特征類型的圖書的多校區借閱量,可以指導典藏規劃實施圖書的具體布局。對于借閱量在某一閾值以下的圖書,典藏部門可以對該類圖書進行剔舊或者下架處理,而采訪部門可以少量購買或者不予購買。同時,對于借閱量大于某一閾值的圖書,典藏部門可以開設特色化服務進行推薦,而采訪部門可以通過增加復本或增加同類書來滿足讀者的要求。
參考文獻:
[1] Han Jiawei,Kamber Micheline.數據挖掘:概念與技術[M].北京:高等教育出版社,2001:42-60.
[2] 賈宇群, 李桂祥, 劉東燕.多校區模式下高校圖書館文獻資源的布局與管理[J].情報科學,2009(3).
[3] 陳燕.數據挖掘技術與應用[M].北京:清華大學出版社,2011:72-80
[4] 林曉玲,楊明華.RFID圖書管理系統中圖書定位排架方式探析[J].圖書館論壇,2012(3).
(編校:崔萌)endprint