許 毅
大連職業技術學院 遼寧大連 116037
數據挖掘技術在圖書采購中的應用
許 毅
大連職業技術學院 遼寧大連 116037
數據挖掘技術是一種可以將隱藏在大量數據信息中的有用信息以規則、概念、規律以及模式等形式提取出來的技術。把數據挖掘技術應用到圖書采購策略的制定工作中,可以在挖掘圖書館計算機管理系統潛力的同時,很好地提高管理水平和服務水平。
數據挖掘;圖書采購;策略;SPSS
Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.
Key words: data mining; book purchases; tactic; SPSS
在信息高速傳播、知識飛速更新的今天,圖書館只有正確合理地進行圖書采購,才能夠更好地實現其“在最恰當的時機,將最合適的圖書,提供給最需要的讀者”的目標。采用目前流行的數據挖掘技術,可以很好地對圖書館讀者實際借閱情況進行分析,從而得出能夠正確指導圖書采購策略制定的信息,以保證圖書館能夠更好地為讀者服務。
數據挖掘是一門涉及人工智能、數理統計、數據庫、可視化、并行計算等多領域的交叉性新興學科。數據挖掘就是將隱藏在大量數據信息中的那些對用戶有用的信息提取出來的過程,這些信息通常會以:規則、概念、規律以及模式等形式展現出來,而提取的過程往往要采用一些特殊手段的非平凡過程,即數據挖掘技術。提取出來的信息可以幫助決策者分析歷史的和當前的數據,發現隱藏在其中的聯系和規律,從而對未來可能發生的情況進行合理地判斷和預測[1]。
描述式數據挖掘和預測式數據挖掘是數據挖掘技術的兩種形式。描述式數據挖掘又稱概念描述,是數據挖掘的最基本形式,以簡明扼要的形式來描述給定的數據集,體現了數據的特征。我們使用特征化描述方式的數據挖掘方法,根據讀者借書的歷史記錄,發現并描述讀者的真正需求。實現特征化描述主要有準備數據、相關分析、歸納特征屬性、表示和使用挖掘結果幾個基本階段[2]。

圖1 流程圖
2.1 準備數據
獲得有關數據、對數據進行初步處理和準備。具體步驟如下:
(1)獲取主要字段:讀者類型、專業、書名、主題、編著者、出版社、出版時間、價格、索書號、條碼等。
(2)整合數據歸納成庫,保證相同字段的數據在類型格式上一致。
(3)拆分“主題”字段,限制1本書最多包含3個主題詞,即3個主題字段,其他忽略。
(4)拆分合并后的數據庫,按學科不同分成各學科的子庫(這在數據挖掘過程中稱為數據分組),對各個子庫分別進行處理。
2.2 相關分析
對待挖掘數據庫中的字段進行分析,剔除掉那些相關性不足的字段。具體步驟如下:
(1)選用恰當的方法對屬性字段進行分析;
(2)將待挖掘數據庫中的相關性不足字段剔除掉;
(3)整理保留的字段,主要有:讀者類型、主題1、主題2、主題3、編著者、出版社。
2.3 歸納特征屬性
根據實際情況,只進行單因素分析,即只計算比較單一屬性值域讀者需求的關聯程度。
2.4 表示和使用結果

式中P為任一主題總的人氣系數,m為主題在挖掘數據庫中出現的次數,rj為主題的權系數,rj∈{3,2,1},Ki為借閱頻率系數[3]。
這里筆者以所在學院的圖書館為研究對象進行研究。3.1 統計數據
為了能夠較真實地反應學院師生對圖書借閱的情況,筆者設計了一份調查問卷,對學院電氣系和汽車系的圖書借閱者進行訪問。該調查問卷包括單選題和多選題,內容涵蓋了職業、系別、圖書種類等(見表1)。

表1 借閱者借閱圖書類別調查問卷
3.2 定義變量
對數據的定義筆者采用多項選擇的二分法(Multiple dichotomy method),即將所有因素都設成一個變量,每個變量只有“1”和“0”兩個水平值,代表“是”和“否”。例如用1來代表教師,0代表學生;專業方面用1表示電氣系,0表示汽車系;圖書類別中用1表示“經常借閱”,0表示“不經常借閱”。
3.3 分析數據
在這里選用SPSS統計分析軟件對數據進行分析。
3.3.1 多重反應頻數分析(見表2和表3)

表2 借閱圖書類別多重反應分析頻數表

表3 借閱圖書類別多重反應頻數分析結果
3.3.2 多重反應列聯表分析(見表4~7)

表4 職業與類別多重反應列聯表分析表

表5 職業與類別多重反應列聯表分析結果

表6 專業與類別多重反應列聯表分析表

表7 專業與類別多重反應列聯表分析結果
根據這些分析結果,圖書采購人員就能夠很好地制定出恰當適用的圖書采購計劃[4]。
以數據挖掘技術為基礎,對實際圖書館中讀者的借閱情況進行問卷調查,再利用SPSS軟件對所調查問卷進行系統分析,雖然問卷數目較少,但對圖書館分析讀者借閱需求﹑指導圖書采購﹑提高服務能力有一定的幫助。
[1] JiaweiHan, MichelineKamber.數據挖掘:概念與技術[M].北京:機械工業出版社,2007.
[2] 吳奕寬.淺論信息在教材圖書采購中的應用[J].情報科學,2002,20(1):28-30.
[3] 劉曉東.數據挖掘在圖書館工作中的應用[J].情報雜志,2005.8:63-65.
[4] 翟旭.利用SPSS分析消費者購買場所調查問卷[J].中國科技論文在線,2010,10:57-60.
Data mining technology in book purchase application
Xu Yi
Dalian vocational & technical college, Dalian, 116037, China
2011-11-15
許毅,本科,講師。