閔國鋒
(沙洲職業工學院 圖書館, 江蘇 張家港 215600)
隨著信息技術的快速發展,傳統的圖書館交互服務系統與讀者的個性化交互服務需求的矛盾日益突出,系統的響應速度過慢,信息共享的能力較差,很大程度上影響了讀者的使用體驗[1-3]。為了解決這些問題,本文提出并設計了一種基于數據挖掘技術的數字圖書館交互服務系統。該系統在整體架構上對傳統的交互服務系統進行了技術改進,基于數字挖掘技術通過對個性化交互信息的再處理提升了此類信息的價值,實現了數字化圖書館信息的廣泛共享。系統圍繞集成TQMA93RE7芯片的控制器搭建硬件平臺,通過模塊化程序的信息存儲過程設計和決策樹算法的構建實現了軟件部分的設計,在強化了數據挖掘功能的同時大大提升了系統的響應速度。
該系統的總體結構是在現有的數字圖書館交互服務系統結構上進行的改進設計,按照可靠性、安全性、經濟性、時效性等原則,以個性化交互服務信息為主體,對其進行提取和分析,以實現信息的深入挖掘和廣泛共享。改進后的系統總體結構如圖1所示。

圖1 數字圖書館交互服務系統總體結構圖
由圖1可知,系統的信息資源主要來自于互聯網與校內網數據集,通過搜索器、集成器、分析器與服務器進行互聯網個性化交互服務信息的挖掘與存儲,從而擴展了信息的采集渠道,增加了圖書館的信息量。由此可見,圖書館交互服務系統的建設需要與互聯網和校內網的建設緊密結合,在不同知識領域之間建立信息傳輸渠道,以此滿足不同讀者的信息需求,同時,通過信息反饋能夠由外界獲得更多有價值的信息,因而整體上提高了圖書館向讀者所提供信息的質量。
本系統通過在硬件端口增設控制器的方式來應對海量數據的處理需求,提高系統的整體響應速度。TQMA93RE7是一種超高密度芯片[4],改芯片以Crema-T1架構為內核,具有極強的數據處理能力,符合本系統控制器的技術要求。
芯片的半導體指令可以在兩種狀態間切換,即半導體供應狀態和Thumb狀態,前者代碼寬度為32位,后者為16位。控制器處于半導體供應狀態時,其所生成的指令均為32位代碼,切換至Thumb狀態后則只能生成16位代碼指令。Crema-T1內核自帶Thumb-1指令集,在保證能夠進行高速信息處理的同時適當降低了指令代碼的密度,使用和維護都非常簡便。QMA93RE7芯片的引入,在硬件層面上提高了系統的信息挖掘能力和響應速度。
在本系統的設計中,信息存儲的程序代碼全部存儲在數據庫服務器內,因此數據信息的讀取指令不需要通過網絡進行傳輸,依靠信息分類來簡化信息挖掘程序,降低網絡延遲,避免出現程序卡滯,減小網絡的數據載荷量。
基于程序的模塊化可以實現快速存儲過程的設計,在首次數據存儲完成后,其后的同類操作可依照首次程序反復進行。若存儲程序發生變動,則會在數據庫服務器中另外創建對應的指令集。系統的信息存儲流程如圖2所示。

圖2 系統的信息存儲流程
由上圖可見,在進行信息存儲時,系統會首先判斷數據是否符合挖掘規則,符合的數據系統會自動對其進行分類,之后判斷數據是否已存在,根據判定結果決定是否存儲該數據。
在上述設計流程中,系統會將典型的個性化交互服務提前封裝成信息存儲過程,即將編制完成的程序指令存放于數據庫服務器中,使信息讀取操作得以快速執行,進而在軟件層面提高了系統的響應速度。
決策樹算法的構建過程就是從所有通過了系統驗證的的個性化交互服務信息中提取出有價值的信息進行細化分類。在系統所構建的決策樹中,一個節點對應一個單獨的屬性,單次測試的輸出結果則用一個分支來表示。假設節點R用于存儲一個C類別的信息集,系統會自動選擇出具有最高細膩增益率的屬性對R進行分裂。在這種條件下該個性化交互服務信息集所對應的期望信息,可表示為式(1)。
(1)
式中,Pi為C類信息集中某個信息可細化為Ci類信息的概率,在系統進行信息細化分類時可以通過|Ci,D|/|D|進行估算;Info(C)代表C的熵。
若個性化交互服務信息的屬性A可用v個不同的值來表示,則C類信息集中具有A屬性的信息所對應的期望信息,可表示為式(2)。
(2)
式中,InfoA(C)為C信息集依據屬性A進行分類后所得到的期望信息,系統會自動采用最小值期望信息所對應的屬性值對C進行分裂。
上述算法的構建流程,如圖3所示。

圖3 決策樹算法的構建流程
由圖3可知,在構建決策樹過程的MAP階段獲取的是數據的行內容,而Reduce階段獲取的則是基于屬性分裂信息集前的中間結果。
系統測試環境包括硬件環境和軟件環境兩個部分,硬件部分由計算機CPU、內存、硬盤及系統控制器等設備組成;軟件部分則主要由計算機操作系統和網絡兩部分組成。該系統為測試的實驗系統,選取文獻[5]數字圖書館交互服務系統為參照系統。測試步驟如下。
兩個系統同時檢索相同的內容,第一關鍵詞:“區塊鏈”;第二關鍵詞:“區塊鏈網絡”;第三關鍵詞:“區塊鏈建立信任”。三個關鍵詞依次搜索,來考察信息準確率的提升情況。測試過程中,本文系統和文獻[5]系統檢索三個關鍵詞后所列出的圖書信息條目分別為:第一關鍵詞,125條和131條;第二關鍵詞,77條和69條;第三關鍵詞,21條和22條。由此看出,兩個系統檢索得到的信息條目差別不大,經過篩選得到信息準確率對比結果如圖4所示。

圖4 信息準確率對比結果
由圖4可知,隨著檢索關鍵詞的深入,兩個系統的信息準確率均有所提升,這是因為數據挖掘技術的應用使得系統檢索結果更加個性化和智能化。對比可知,本文系統檢索后的信息準確率高于文獻[5]系統,尤其是在第三個關鍵詞檢索時,其信息準確率遠高于文獻[5]系統,說明本系統應用的數據挖掘算法較好,能比較明顯提升信息準確率。
通過本系統和文獻[5]系統分別重復50次測試程序,記錄系統各界面的測試結果輸出時間,具體結果圖5所示。

圖5 系統測試各界面響應時間
由圖5可知,本文系統的登錄操作平均響應時間為1 s,相較于參照系統的2 s,其響應速度提高了一倍;本系統信息收集界面、信息分析界面、信息服務界面以及系統管理界面的響應時間分別為0.6 s、0.8 s、0.8 s和1.1 s,遠遠低于參照系統對應界面的響應時間,通過計算可得,本文系統進行個性化交互服務信息挖掘的平均時間為0.8 s,參照系統的信息挖掘平均時間為3.23 s,即本文系統的響應時間較之于文獻[5]數字圖書館交互服務系統縮短了2.43 s,由此可見本文系統在響應速度方面具有明顯的優勢。
為了驗證系統的穩定性,筆者通過部署兩個系統,考察可支持最大用戶并發數、CPU占用率和內存使用率,對比測試結果如表1所示。

表1 系統穩定性對比測試
由表1可知,隨著用戶并發數的增加,兩個系統的CPU占用率和內存使用率逐漸增大,說明系統具有一定的穩定性。文獻[5]系統的兩個參數明顯高于本系統,說明該系統性能較優。當用戶并發數增加至3 000時,文獻[5]系統內存使用率達到86%,CPU占用率也達到75%,而本系統兩個參數還在70%以下。用戶并發數的增加至4 000,文獻[5]系統內存使用率達到100%,出現斷機,而本系統仍可以正常運行。
為了解決傳統數字圖書館交互服務系統響應較慢、共享程度差的問題,本文設計了一種基于數字挖掘技術的數字圖書館個性化信息交互服務系統。介紹了基于傳統系統進行改進后所設計的新系統架構,闡述了以TQMA93RE7超高密度芯片為核心的控制器設計以及模塊化程序的信息存儲過程設計,說明了決策樹算法的構建依據和方式。通過與文獻[5]數字圖書館交互服務系統的對比測試結果表明,本系統的數據挖掘平均響應時間、信息準確率和穩定性均優于其他系統,能夠極大地提升圖書館用戶的使用體驗。