閆芳
(中共菏澤市委黨校 山東省菏澤市 274000)
隨著互聯網技術的飛速發展,將我們從信息比較匱乏的人工管理時代帶到了信息量豐富過載的人工智能管理時代,傳統的圖書信息或者獲取方式已經不能適應新時代的發展需求。目前,圖書館用戶大多通過檢索引擎的方式來對圖書的信息進行有效的檢索,不過這種檢索的效率較為低下,同時準確性也不高,在搜集圖書信息的過程當中耗費了大量的時間和人工成本。另外,一些信息還有具有信息污染的特質,同時信息中的內容參差不齊,造成有效信息和垃圾信息并存,讀者獲取有價值信息的難度在不斷攀升。對于智慧校園背景下的圖書館日常管理而言,圖書數據量會是成海量級別的,如何快速有效的找到用戶所需的數據信息,已經成為圖書館個性化管理的重中之重。
(1)根據讀者自身的需求特點,在讀者登錄系統之后,對所需要的圖書信息進行有效的個性化數據獲取。所獲取的個性化信息可能具備一定的差異性,教師和學生在登錄系統之后因權限設置而在欄目展示中各有不同,可以根據科研教學專業的不同進行分類顯示。不同學校和不同專業的用戶在登錄系統以后,所獲得的信息資源也會根據學科和個性化需求呈現出不同的欄目。
(2)在智慧校園為背景下,圖書館為讀者提供服務過程當中,應包含圖書信息查詢、圖書文獻預定、圖書文件傳遞及館際之間互助等服務內容,應該有效保證服務信息的互動性,保證讀者第一時間能夠獲得個性化的圖書信息服務。
(3)圖書館個性化推薦服務的過程當中,應該提供專題的個性化服務,圖書目錄可以為用戶提供有價值的信息服務,通過信息推送的方式,保證讀者在海量的數據信息條目當中獲取有價值的信息,讓讀者能夠對信息資源進行有針對性的選擇和整合。
在本次設計的智慧校園背景下圖書館個性化推薦系統主要包括三個主要的功能模塊,分別是信息采集模塊、信息個性化推薦模塊和信息挖掘模塊,各個模塊系統的子模塊如圖1 所示。
(1)信息采集功能模塊。該功能模塊主要的作用是對文獻進行必要的收集和整理,為用戶和讀者提供有價值的數據收集活動,數據的收集可以通過特定方式對數據的信息進行必要的處理。比如在采集的過程中可以對有害信息和不全的信息進行剔除。同時,對相似的信息進行合并處理,對不同類別和格式的信息進行必要的轉化處理。
(2)信息挖掘功能模塊。在有效掌握和收集讀者的相關信息之后,圖書館的信息可以有效的使用聚類、分類和關聯規則對數據信息進行深入挖掘,挖掘出來的數據可以建立有效的規則數據庫,數據庫的信息可以通過用戶的喜好進行特殊的定義。

圖1:個性化推薦系統子模塊

圖2:基于SSH 框架所構建的系統架構

圖3:用戶信息需求模型
(3)信息個性化推薦功能模塊。在圖書館數據的日常處理過程中,我們最常使用的數據處理技術就是聚類分析技術,特定的數據庫可以使用特定數據分析方法,在為讀者提供信息檢索的過程中可以為好友推薦個性化的圖書信息服務。
本次所設計的智慧校園背景下的圖書館個性化推薦服務系統使用的目前比較流行的SSH 框架,該框架的應用非常簡易,可以在不同結構下簡單明了的服務系統。同時,該框架還便于日后的維護,非常方便用戶的二次開發,基于SSH 框架可以提供服務系統的開發效率?;赟SH 框架所構建的系統架構如圖2 所示。
(1)用戶層。基于JSP 技術使用良好的交互界面,使用組件化的開發模式建立便于用戶交互的窗口交互系統,該界面構建了系統和讀者用戶之間的有效橋梁。
(2)業務層。目前比較流行的為“Struts+Spring+Hibernate”技術,該技術可以最大限度滿足用戶層的界面交互良好的需要,可以最大限度保證系統各項服務功能的有效運行。
(3)挖掘層。在具體使用過程中可以使用專業化的系統工具進行處理,可以借助分類法則和關聯規則對數據和算法進行必要的挖掘,相應的挖掘必須在特定的信息數據庫進行儲存。
(4)數據層。數據層主要存儲的是個性化推薦服務系統的相關數據庫,數據庫的關聯結構可以在該數據層進行顯示。
在建立個性化推薦服務系統之前,應該對圖書館信息管理系統的數據進行分類處理,包括用戶信息、圖書文獻信息、檢索信息、推薦信息和用戶交互信息等。通過對上述信息進行分析挖掘來獲得個性化推薦系統的關鍵數據,為系統的開發運行提供強有力的保障。
在圖書館個性化推薦服務系統的建設過程中,最重要的建立適合讀者需要的信息化模型,該模型最大的特點是為圖書館的讀者提供高質量的檢索信息服務。讀者的信息需求可以通過上述的形式建立兩個基礎性的模型,分別是數據挖掘模型和興趣拓展模型。讀者可以在上述模型的基礎上建立有效途徑如圖3 所示。讀者使用個性化推薦算法來對興趣模型進行實現,在圖書館服務系統的建設過程中,應該最大限度結合檢索記錄、個人興趣和讀者傾向性建立檢索列表,形成讀者感興趣的需求模型。在模型建立之后,再使用數據挖掘工具對模型數據進行必要的處理,讓用戶信息需求得到滿足。
在個性化推薦服務系統的數據庫當中,用戶檢索產生的數據量是海量的,我們必須借助一定的算法對相應的數據進行處理,處理的結果可以最大化滿足圖書館管理的需要。
(1)皮爾森相似度關聯。兩個變量之間的線性結構可以使用皮爾森系數來進行表示,系數的取值范圍在[-1, 1]之間,如果兩個變量成線性關系遞增時,那么它的系數在1 和-1 的取值范圍。一個變量不斷增大,另一個變量也隨著增大,他們之間可以通過正向相關進行表示,系數比例大于0;如果一個增大,另一個減小,他們成負相關,系數小于0;如果系統等于0,可以認為他們之間不存在線性關聯。
(2)歐幾理德距離相似度。在具體計算距離相似度的研究上,歐幾里得相似度的計算時最容易理解和最簡單的算法,可以把物品理解為數據的坐標,讓相關的評價人在坐標軸進行繪制,然后可以通過直線計算了解物品之間的直線距離。
(3)余弦相似度。余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。余弦相似度更加注重兩個向量在方向上的差異,而非距離或長度上。
(4)調整余弦的相似度。余弦的相似度可以通過向量之間的夾角進行獲得,余弦值可以作為兩個個體間的距離差異性進行標注,標注的過程不是長度或者距離的描述。相似度在方向計算上可能具有一定的差異性。在日常處理過程中,會導致維度數值的差異性。在評分的過程中,如果是5 分制,那么X 和Y 用戶內容上評分可以在(1,2)和(4,5)之間進行必要的選取,使用余弦值我們可以看出最后的結果數據為0.98,兩種類型的數值是極其相似的,但是從實際上看X 對內容不是非常的肯定,而Y 在處理過程中對內容持肯定的態度。在評分的均值的預期上都可以定為3,在調整的過程中可以選擇(-2,-1)和(1,2),最后使用余弦進行相應的計算,如果是負值表示差異性不大。
(5)斯皮爾曼排序后可以通過用戶的喜好值來對Pearson 相關度進行解釋,對用戶的喜好程度可以通過評分賦值的方式進行表示,如果評分的數值為1 表示用戶不喜歡,如果評分數值為2 表示用戶喜歡,然后我們可以變換Pearson 相關系數。
(6)谷本系數相似度度量。該方法和上述幾類方法的計算方式有很大的不同,可以不必理會物品的具體評分值的大小,他們最關心的是物品之間是否存在上下文聯系,用戶和物品之間可以使用Boolean 作為關系的輸入。
結合所構建的個性化推薦服務系統,在系統的設計與運行過程中要考慮信息系統的兼容性、拓展性和穩定性,使用目前比較流行的操作系統進行編輯,在服務器使用上采用Windows Server 2008,數據庫采用MySQL,系統客戶端使用Windows 7 系統,同時為了系統的安全性可以使用360 安全瀏覽器訪問系統。
目前,智慧校園背景下的圖書館建設取得了長足的進步,每一個學??梢愿鶕W校和學科的不同特征對個性化推薦服務系統提出不同的需求,但是個性化推薦系統應該在同一的服務框架基礎上運行。在個性化推薦服務系統中,類似的功能模塊有許多需要完善和改進之處。圖書館數據信息必須進一步的挖掘和利用,才能滿足高效的圖書館信息服務的需要。