張旭森



摘? 要: 為使圖書館文獻個性化推薦結果更符合用戶需求,構建基于最大互信息系數的圖書館文獻個性化推送系統。系統由用戶安全認證模塊、文獻資源檢索模塊和文獻個性化推送模塊等五大模塊構成。其中,文獻個性化推送模塊基于互信息理論思想,先根據用戶興趣度將文獻關鍵詞聚類,再采用最大互信息系數判斷用戶感興趣文獻類別與關鍵詞信息匹配結果關聯度,該值越大,表明文獻關鍵詞與用戶感興趣文獻類別關聯性越強,該文獻為用戶所感興趣,可將該文獻推送給用戶,反之,不向用戶推送,實現用戶圖書館文獻的個性化準確推送。測試結果表明,所設計系統可針對用戶感興趣內容,推送出文獻數量多、文獻內容詳細的文獻信息,且系統可針對不同用戶使用需求推送出大量與關鍵詞相符的文獻信息,說明系統的文獻個性化推送質量佳,可大范圍地應用在高校圖書館中。
關鍵詞: 圖書館文獻檢索; 文獻個性化推送; 文獻類別判斷; 推送系統構建; 關鍵詞信息匹配; 高校圖書館
中圖分類號: TN02?34; TP391? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)09?0146?04
Design of library literature personalized push system based on
maximal information coefficient
ZHANG Xusen
(College of Humanities & Information, Changchun University of Technology, Changchun 130122, China)
Abstract: In order to make the personalized recommendation results of library literature more satisfied with user requirements, a library literature personalized push system based on maximal information coefficient (MIC) is constructed. The system is composed of user security authentication module, literature resource retrieval module, literature personalized push module and other two big modules. The literature personalized push module based on mutual information theory is used to cluster the literature keywords first according to user′s interest degree, and then the maximal information coefficient is adopted to judge the correlation between literature categories that the users are interested in and keywords information matching results. The greater the value is, the stronger the correlation that the literature keywords are related with the categories becomes. It means that the literature can be pushed to the user. On the other hand, the literature cannot be pushed to the user. The personalized accurate push of the library literature is realized. The testing results show that the designed system can push a large number of literatures and literature information with detailed content to users according to their interesting contents, and can push out a large number of literature information associated with the keywords for their different requirements. It means that the personalized push system of literature has good pushing quality, and can be widely used in the university libraries.
Keywords: library literature retrieval; literature personalized push; literature category judgement; pushing system establishment; keyword information matching; university library
0? 引? 言
隨著高校圖書館的不斷建設,促使高校圖書館對文獻的管理水平不斷加強,圖書館文獻個性化推送質量是衡量圖書館服務質量的關鍵指標,根據用戶的興趣度向用戶推送與用戶興趣相符的文獻資料成為圖書館建設主要考慮的問題[1]。
最大互信息系數(Maximal Information Coefficient,MIC)主要評價兩個變量間的相似程度,相似程度越大表明變量間相關聯度越高,最大互信息系數特征具有普適性[2?4],可適用在線性變量和非線性變量的相似度處理過程中。本文基于最大互信息系數設計圖書館文獻個性化推送系統,確保向用戶推薦其感興趣的文獻,實現圖書館文獻的個性化推送。
1? 圖書館文獻個性化推送系統設計
1.1? 系統總體結構
基于最大互信息系數的圖書館個性化推送系統包括五大功能模塊,其結構如圖1所示,分別為用戶安全認證模塊、文獻資源檢索模塊、文獻定制模塊、文獻資源管理模塊以及文獻個性化推送模塊等。其中,系統用戶安全認證模塊是系統安全穩定運行的基石,確保系統的正常安全穩定運行;文獻定制模塊根據用戶的檢索情況和文獻資源管理模塊向用戶提供個性化服務;文獻個性化推送模塊是系統核心,該模塊推送的信息包括用戶文獻借閱信息和讀者定制信息等[5?6],是系統的核心模塊。
1.2? 文獻個性化推送模塊設計
文獻推送界面是一種個性化和主動化的服務方式,文獻個性化推送模塊是系統的核心部分。該模塊在設計時采用最大互信息系數理論中的互信息理論思想,先根據用戶興趣度將文獻關鍵詞聚類,再將用戶感興趣文獻類別與關鍵詞信息匹配,根據用戶興趣度向其推薦感興趣文獻,實現文獻個性化推送[7?8]。用戶的個性化需求是動態的,用戶的文獻信息庫可隨用戶的個性化需求改變,提升了圖書館文獻推送的準確度和推送質量,文獻個性化推薦模塊推送結構如圖2所示。
待推送的文獻信息按不同關鍵詞分類,將包括相同興趣點的文獻資源分為一種類別,將含有不同興趣點的文獻資源劃分為另一種類別,依據劃分的文獻類別,文獻個性化推送模塊采用最大互信息系數運算獲取用戶的感興趣文獻[9?11],并及時地推送給用戶,使用戶實際得到的文獻信息與希望得到的文獻信息接近度大幅度提高,增強了圖書館文獻個性化推送的效率和精度,充分發揮圖書館中文獻資源效用。
1.3? 基于最大互信息系數的推送實現
1.3.1? 最大互信息系數原理
最大互信息系數主要通過互信息和網格劃分的方法計算獲取,互信息用于衡量變量間相關性指標,假設樣本變量[M=mi,i=1,2,…,n]和[G=gi,i=1,2,…,n],其中,[n]表示樣本數量,則將互信息表示為:
[MI=(M,G)=m∈Mg∈Gp(m,g)logp(m,g)p(m)p(g)] (1)
式中:[p(m,g)]為[M]與[G]聯合概率密度;[p(m)]和[p(g)]均為邊緣概率密度。
網格劃分中,假設文獻信息[R=(mi,gi),i=1,2,…,n]是有限的有序對集合,定義劃分[G]將變量[M]和[G]的值域分別劃分為[x]段和[y]段,獲取[x*y]網格劃分結果。此時,在網格劃分后各個網格中計算互信息[MI(M,G)],網格劃分方式有多種形式,網格劃分后得到的互信息[MI(M,G)]的最大值表示劃分[G]的互信息值,此時將劃分[G]下的最大互信息表示為:
[MI*(R,x,y)=max MI(RG)] (2)
式中,文獻信息[R]通過[G]劃分的過程用[RG]描述,最大互信息系數通過互信息描述網格優劣的過程,并非是一種單純的預測過程,而是一種運算過程,運算時將劃分網格獲取的[MI]值構成特征矩陣,該特征矩陣[M(R)x,y]表示如下:
[M(R)x,y=MI*(R,x,y)log min(x,y)] (3)
此時,將最大互信息系數用式(4)表示:
[MIC(R)=maxxy 式中網格劃分結果[x*y]上限值用[L(n)]描述,通常[L(n)=n0.6]。 1.3.2? 推送實現 采用最大互信息系數的圖書館文獻個性化推送時,最大信息系數定義文獻關鍵詞與用戶感興趣文獻類別以及關鍵詞與關鍵詞關聯性[12]。假設一個包含[n]個樣本數據的文獻集合[F=f1,f2,…,fm,c],其中,包括關鍵詞數為[m],用戶感興趣文獻類別為[c]。將圖書館文獻中任意關鍵詞[fi]與用戶感興趣文獻類別[c]間關聯性用[MIC(fi,c)]描述,且該值取值范圍是[0,1]。[MIC(fi,c)]值越大,表明文獻關鍵詞與用戶感興趣文獻類別關聯性越強[13],說明該文獻為用戶所感興趣,可將該文獻推送給用戶;反之,[MIC(fi,c)]值弱,此時的文獻關鍵詞[fi]與用戶感興趣文獻類別關聯性弱,用戶感興趣度差,則不向用戶推送[14]。 將任意文獻間關鍵詞[fi]和[fj]間相關性表示為[MIC(fi,fj)],當[MIC(fi,fj)]值接近1時,說明該兩個關鍵詞所在文獻內容較接近,當[MIC(fi,fj)]接近0時,說明該兩個關鍵詞所在文獻內容相互獨立。 2? 系統性能的測試 實驗在構建完圖書館文獻個性化推送系統后,需要對系統實施仿真測試。實驗將本文系統應用到北方某高校圖書館中,為突出比較本文系統的文獻個性化推送質量,將基于協同過濾的圖書管理系統和基于B/S的圖書管理系統文獻推送界面與本文系統推送界面實施比對,本文系統和另外兩種系統的文獻推送界面分別如圖3~圖5所示。 本文推送界面清晰顯示了圖書館文獻的推送情況,且系統的推送文獻數量較多,可呈現出文獻的詳細細節信息,豐富文獻的推薦內容,說明本文系統可針對用戶的感興趣內容實現充分的文獻推送。 分析基于協同過濾的圖書館管理系統文獻推送界面可知,該系統雖然能提供一定條數的文獻信息,但推送的文獻數量較少,且推送結果僅呈現文獻名字,沒有呈現出文獻的其他相關內容,不利于用戶全面了解推送文獻內容,系統文獻推送質量較差。 實驗為驗證本文系統針對不同類型用戶的個性化文獻推薦效果,從該校計算機專業和會計專業的學生中,隨機選取6個學生作為測試對象,系統推送關鍵詞分別是Java,系統推送文獻條數如表1所示。 為突出呈現本文系統的文獻個性化推送結果的精度,將表1數據結果用圖6柱形圖描繪。 從表1和圖6推送結果可知:本文系統推送Java相關文獻數目均最多,協同過濾系統推送數目次之,B/S系統推送文獻數目最少,且三種系統文獻個性化推送結果中均會出現與關鍵詞不相關的推送結果。詳細分析表1,圖6可知,本文系統推送Java相關文獻中不相關文獻條數在0~3條;而協同過濾系統推送不相關文獻條數較多,在20~34條之間變化,推送結果存在較大偏差;B/S系統推薦不相關文獻在15~26條之間變化。對比分析可知,本文系統可向系統使用者準確推送多條與關鍵詞相關的文獻,個性化推薦效果更佳,可在高校圖書館中推廣使用。 3? 結? 語 圖書館文獻個性化推送應以用戶的感興趣內容為主要推送內容,最大互信息系數通過評估文獻關鍵詞與用戶感興趣文獻類別間的關聯性,判斷文獻內容是否為用戶所感興趣內容,若文獻內容為用戶感興趣內容,則將文獻信息推送給用戶,反之,不推送給用戶,實現圖書館文獻個性化推送。 參考文獻 [1] 翟麗麗,沃強,張樹臣.制造業大數據聯盟資源推送服務算法[J].計算機集成制造系統,2017,23(11):40?50. [2] 董倩妍,王力,蔣本聰,等.基于AAR模型的聽覺誘發中潛伏期反應特征提取[J].電子技術應用,2017,43(11):78?81. [3] 莊夏.基于互信息特征選擇和LSSVM的網絡入侵檢測系統[J].中國測試,2017,43(11):134?139. [4] 涂月明,付湘,楊會娟.基于互信息的湖泊日水位預測:以西洞庭湖為例[J].人民長江,2017,48(16):38?42. [5] 王敏,吳震,饒金濤,等.針對密碼芯片頻域互信息能量分析攻擊[J].通信學報,2015,36(1):131?135. [6] 馮毅雄,張舜禹,高一聰,等.基于特征語義分析的數控機床設計知識精確智能推送方法[J].計算機集成制造系統,2016,22(1):189?201. [7] 莊文杰,談國新,侯西龍,等.非物質文化遺產資源自適應推送系統的用戶模型構建研究[J].情報雜志,2017,36(11):106?113. [8] 王有遠,趙璐,張樂恩.基于情境約束的知識個性化推送[J].中國機械工程,2017,28(15):1812?1819. [9] 李淑華,郝星耀,周清波,等.基于Web的自動灌溉控制系統數據實時推送設計與開發[J].農業工程學報,2015,31(15):133?139. [10] 尹延寧,劉太君,葉焱,等.基于Node. js, SenchaTouch和iBeacon信息推送系統的設計與實現[J].火力與指揮控制,2016,41(8):151?154. [11] 賈非,蔣超,吳茵杰.特色函件推送系統設計及其對論文閱讀率的提升作用[J].編輯學報,2015,27(3):280?282. [12] 周皖婧,辛濤,劉拓.“互聯網+”背景下的學生個性化學習系統開發:現狀與啟示[J].清華大學教育研究,2016,37(6):79?84. [13] 劉建波,馬彩虹,陳甫,等.遙感衛星數據實時主動服務系統設計與實現[J].遙感信息,2016,31(3):61?67. [14] 吳錦輝.基于功能需求的圖書館微信內容建設分析[J].國家圖書館學刊,2015,24(1):52?58. [15] 胡媛,胡昌平.基于知識聚合的數字圖書館社區推送服務組織:以武漢大學數字圖書館社區為例[J].國家圖書館學刊,2016,25(2):66?76.