沈 惠
現如今,高校數字圖書館信息資源日漸增長,計算機技術被投用到日常管理工作實踐中,數據量也呈幾何倍數增長,在處理數據時暴露出針對性不強、檢索精確度偏低、資源利用率低、存有大量冗余信息、數據庫信息訪問不便利等問題。和Web 數據相比較,傳統數據庫內的數據結構性更強,而Web 上儲留的數據盡管具有一定結構性,但屬于半結構化數據。結合處理對象的不同,Web 挖掘有內容、結構及使用記錄挖掘三種類型,其中使用挖掘又被稱之為日志挖掘,為Web 挖掘實踐中的重點對象,其通過解讀日志記錄內容的規律,提供樣式多樣的統計報告,強化Intemet 信息服務品質,優化服務器屬性與結構。
數據挖掘屬于一個跨學科的邊緣性技術,主要囊括計算機技術、信息技術、統計學、數據可視化等。
數據挖掘又被叫作數據庫內的知識發現(KDD),被定義成從數據庫內探尋到隱匿信息,部分情況下也被叫作探索性數據分析、歸納學習等,等同于分析數據庫內大批量的、不完整性的、存有噪聲的、模糊性、隨機分配的現實應用數據,其宗旨在于探索不同數據之間隱含的相關性、運作模式,以新的技術方法為支撐,重新整合事前未知的、存有實際應用價值的數據轉型化為實用信息與知識[1]。
數據挖掘過程中不僅會協助相關人員更深度地學習現有知識,還能使用探查到的模式做出合理預測,進而捕獲易于理解且運用過程便利的知識。數據挖掘用于圖書館信息資源管理實踐中,能為廣大讀者提供個性化信息服務,優化服務質量;整合多種數據資源,拓展信息資源的豐富度,提升資源利用率與檢索的準確度;為圖書館工作人員創造一個更有效的平臺,進而優化信息服務工作質效。
從宏觀層面上,可以把數據挖掘細化為獲取數據源、數據預處理、建設與訓練模型、評估模式幾過程。SEMMA 為SAS 工具內的挖掘過程,具體如下[2]:
(1)SamPle—數據采樣:在挖掘數據時,要由大批量數據內擇選出典型的、真實度高、完整的、有效的且與要研究問題存在相關性的數據子集。
(2)ExPfore 一數據分析與預處理:規劃采樣數據集類別并作出篩選,解讀不同因素間的相關性。數據規律與趨向等,可采用曲線、圖表等呈現出來。
(3)Modify 一數據調整與技術選用:經探索過程對數據有籠統性認識后,需對數據做出刪減、選擇、轉型及數量化等處理,以確保數據挖掘過程有效推進。
(4)Model 一建模與發現知識:這是知識挖掘過程中的核心環節,應結合數據集自身特點及要達成的目標,選擇一種或數種挖掘手段,回歸分析、決策樹等是常用方法,在對比分析中選用最佳的模型,開展后續階段的預測工作。
(5)Acces—整體解釋、評估模型與知識:綜合多方面因素,解釋歷經以上處置過程獲得的結果和模型,并在某種方法協助下,評估決策支持信息的適用程度,進而更為客觀的判讀數據挖掘結果的可靠性、有效性。
以SAS 為基礎的Web 采用日志數據挖掘資源,等同于采用SAS 挖掘工具與SQL Server2000 挖掘Web 適用的日志數據,實踐中要把Web 采用的日志數據整合至SQL Server2000內,轉換、預處理數據后形成事務表,而后利用SAS 挖掘工具對事務表內數據進行聚類、關聯等處理,進而捕獲有關知識的過程。可以將以上過程分為兩個部分與三階段。在兩個部分中,第一部分是數據預處理;第二部分是SAS 數據挖掘;數據采集與預處理、模式挖掘、分析挖掘結果構成三階段。
在數據預處理階段中,先要以文本文件形式由Web 服務器內導出Web 日志數據,而后再將其導進SQLServer2000,使用SQLServer2000 的DTS 器具對的文本文件行數據轉換與清洗處理。針對那些清洗效果達標的Web 日志文件,要依照網站具體內容或者結構完成用戶、會話辨識的系列性工作。預處理過程中,Web 日志數據資源被梳理、分割為單組用戶事務集,其作用是能清晰地呈現出各個用戶對站點的不同訪問行為。而在模式挖掘(SAS)階段,有選擇地使用SAS 持有的數據挖掘手段進而呈現出用戶特別的隱匿形式、簡單統計Web 資源與用戶群體。在該過程的后期,要系統解析、總結、梳理被挖掘出的模式與信息,形成與挖掘目的相匹配的知識與規律[3]。
3.2.1 數據清洗
又被稱之為數據凈化,即提出Web 服務器日志內和挖掘算法無相關性的數據。多數情況下,日志內僅有HTML 文件和用戶會話有關。可以通過如下兩種辦法刪掉不相關數據:一是檢索客戶瀏覽器類型,二是檢查HTML 的后綴,當后綴名是GIF、JpEG、JpG 等圖形文件可被刪除。把初始Web 日志文件整合至sqlserver 2000 完成轉換,逐一掃描后剔除和挖掘算法無關數據。
3.2.2 用戶辨識
等同于關聯用戶于請求界面的過程,多用于處理數個用戶以代理服務器或防火墻為載體訪問網站的情況,辨識用戶有益于協助圖書館工作人員提供個性化服務[4]。
3.2.3 會話辨識
即在辨識用戶后,對各個用戶的全部點擊序列作出梳理規劃,其宗旨是把用戶當下及既往訪問記錄規劃成單一會話模式。
超時方法是辨識用戶會話的常用手段,其有兩種形式:一是設定用戶會話全過程的超時閾值,即符合time(l)- time(k)≤T(T 是事前設定好的超時閾值)條件時,便可確定是同個會話,要么為新的會話;二是設定兩個相毗鄰請求見的超時閾值,若測算出兩頁面請求事件差超出上限時,便認定用戶進行了一個新會話活動。在同個會話中頁面請求一定要符合time(i)- time(i- 1)≤T(1<i≤k)。
3.2.4 事務辨識
等同于對單次用戶會話作出語義分組,將其割斷為數個邏輯單元,進而為訪問者創建有現實意義的數據集。全部用戶事務的結合可以采用m×n 的用戶界面訪問矩陣表示。
針對Web 采用日志數據完成轉換與預處理日志數據以后,就可把歷經用戶辨識后的32 個用戶于2019- 3- 15~2019- 3-31 期間的數據轉變為用戶事務表、數據資源表[5]。
針對數據預處理后形成的各種事務表,采用SAS 挖掘工具內的用戶聚類進行處理,過程為:
把歷經預處理流程后獲得的用戶事務表數據整合至SAS工具內,于Work 數據庫中創建YHjh 數據集。采用平均距離、最長距離法、離差平放于距離法完成聚類分析。針對不同方法形成的聚類過程結果表加以分析,各類方法的主要統計數量呈現聚類最適宜的類數目可歸納為表1。

表1 聚類類數目表
對表1 內數據加以分析后,我們認為聚類數目為2、3、4 類時較為適宜,但哪種是最適方法,細化為幾類更為科學,還需考評依照各種方法勾畫的聚類樹。
采用如上四種方法繪制出的聚類樹圖內,對比分析后認定選用comPlete 法聚類取得的效果最優良,聚類數據分布較勻稱,類間距顯著[6]。
采用comPlete 法把用戶群體細化為積極、一般與消極用戶是合理的,對于高校圖書館而言,依照用戶群體對數字資源的實際應用情況進行規劃是有很大現實意義的。基于用戶類別規劃情況,可以結合各類別用戶對圖書館信息資源的需求,更合理的購置于管理資源;針對消極用戶可以進行問詢與技術上的支持,整體提升圖書館資源的利用率,促進高校圖書館事業長效、穩定發展進程。