●鄧 娉(廣州市體育職業(yè)技術學院 圖書館,廣州 510650)
圖書館文獻檢索系統(tǒng)是圖書館信息管理系統(tǒng)的一個重要組成部分。圖書數(shù)量的急劇增長以及各類新型數(shù)字文獻資源的不斷出現(xiàn),對傳統(tǒng)圖書館管理系統(tǒng)的檢索效率提出了嚴峻的挑戰(zhàn)。面對眾多的新型數(shù)字文獻資源,讀者常常感到無所適從,不知道怎樣才能找到自己需要的信息,他們希望能夠通過統(tǒng)一的界面,方便、快捷、準確地檢索到圖書館的所有資源。因此如何整合傳統(tǒng)印刷型文獻資源與現(xiàn)有各種數(shù)字資源,并與不斷增長的數(shù)字資源無縫整合,為讀者提供統(tǒng)一的檢索平臺,提供個性化服務,成為現(xiàn)在圖書館信息系統(tǒng)建設中的一個重要課題。本文將數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術應用于圖書館信息管理系統(tǒng)的檢索系統(tǒng)中,引入隨機著色Petri網(wǎng)技術,對圖書館文獻檢索系統(tǒng)重新建模,實現(xiàn)系統(tǒng)的動態(tài)模擬;對圖書館各種新型文獻資源的檢索方式進行整合,提出了一種基于智能搜索引擎及讀者歷史借閱行為分析的客觀評價方法。[1,2]
Petri網(wǎng)是一種常用的圖形化動態(tài)計算機系統(tǒng)建模工具,作為一種圖形化的工具,它將圖形描述和數(shù)字分析相結合,兼具圖形方法的直觀性和邏輯方法的概括性,所以它特別適合于描述具有并行、并發(fā)、同步、資源分配等特性的復雜系統(tǒng)。目前Petri網(wǎng)已經(jīng)被廣泛地應用在各個領域進行系統(tǒng)的建模、分析和控制。Petri網(wǎng)在線路系統(tǒng)、通信協(xié)議、軟件工程、人工智能、柔性制造系統(tǒng)、過程控制系統(tǒng)以及分布式的實時建模等方面都起著越來越重要的作用。[3]
但是,用基本Petri網(wǎng)對復雜系統(tǒng)進行建模與分析,往往因為狀態(tài)空間龐大、復雜以及缺少時間表示功能而難以實現(xiàn)。因此,在描述復雜系統(tǒng)時一般多采用經(jīng)過擴展的高級Petri網(wǎng),如隨機Petri網(wǎng)(SPN,Stochastic Petri net)、著色 Petri網(wǎng) (CPN,Colored Petri net) 等,但是同基本Petri網(wǎng)一樣,采用隨機Petri網(wǎng)模擬的系統(tǒng)維數(shù)較高,對系統(tǒng)進行描述時會出現(xiàn)所謂“狀態(tài)空間爆炸”現(xiàn)象。而隨機著色Petri網(wǎng)(ScpN)是具有層次性的高級Petri網(wǎng),它有機結合了數(shù)據(jù)結構和層次分解,具有賦予令牌顏色和層次網(wǎng)絡的特點:一是標記的顏色可以攜帶信息,代表任意復雜的數(shù)據(jù),大大簡化了網(wǎng)絡的復雜度;二是利用層次結構,可以從整體到局部,逐步細化,從而具有更強的可重用性和可操作性。[4-6]2文獻檢索系統(tǒng)分析
目前各圖書館除傳統(tǒng)的印刷型圖書外都通過購買數(shù)據(jù)庫、自建數(shù)據(jù)庫的方式建立了大量的數(shù)字文獻資源,但由于這些數(shù)字資源建設的不同步或各提供廠商采用的技術不同,各數(shù)字資源都有自己的數(shù)據(jù)機構、組織方式、查詢方式以及顯示界面。讀者為了查閱資料,不得不分別進入不同的查詢系統(tǒng),熟悉每個數(shù)據(jù)資源的檢索方式和終端瀏覽軟件。另外,各種多媒體音視頻文獻資源沒有統(tǒng)一、有效的檢索方法,這讓不是專門從事檢索工作的讀者往往無所適從。所以,對圖書館的各類型文獻資源檢索方式進行整合,就成為圖書館亟待解決的重要課題。
圖書館的文獻檢索系統(tǒng)可以借鑒互聯(lián)網(wǎng)搜索引擎的技術方法,應用隨機著色Petri網(wǎng)技術,分析各類數(shù)字文獻資源,重構數(shù)據(jù)搜索模型,建立適合圖書館館藏特點的搜索算法。
在影響檢索效率的因素中,檢索結果的排序方式是最重要的一項。統(tǒng)計顯示,搜索用戶一般只看到檢索結果的前5頁。按照信息檢索理論的觀點,檢索效率主要通過查全率和查準率兩個指標來體現(xiàn)。從用戶的角度來說,查準率即檢索結果的有效性,比單純的檢索結果數(shù)量更有意義。信息檢索中的許多問題都可以形式化為排序問題。排序學習是近年來提出的用統(tǒng)計機器學習的方法進行排序模型建模的技術,已成為信息檢索領域的熱點。此外,數(shù)據(jù)挖掘技術在商業(yè)等領域得到了很好的應用。結果相關度排序、邏輯查詢、結果中查詢等技術提高了搜索的準確度;而重要程度排序、讀者行為分析等技術更加符合讀者的心理。圖書館的信息服務模式與市場營銷模式有很多相似之處,通過收集、加工和處理大量的讀者行為信息,確定特定借閱群體的興趣和借閱習慣,可以推斷出未來的借閱行為,能夠為圖書館提高主動服務技術提供依據(jù)。
首先分析系統(tǒng),確定系統(tǒng)的庫所和變遷,建立系統(tǒng)的PN模型;然后在變遷的可實施與實施之間加入連續(xù)的隨機延遲時間,建立系統(tǒng)的SPN模型;再根據(jù)著色Petri網(wǎng)的思想,合并相關的同類項,建立系統(tǒng)的SCPN模型。
對借閱數(shù)據(jù)的分析表明,讀者借還科技圖書的情況主要可以分為以下4種∶
(1)如果閱讀后發(fā)現(xiàn)某本書并不適合自己,會在較短的時間(一兩天)內歸還圖書,這種情況常見于一些發(fā)展較快的學科,如計算機類,早期的圖書已不適用,還有一些書名容易誤導讀者的圖書;(2)如果某本書比較適合,則會仔細閱讀,讀完后歸還,這種情況常見于課程前期閱讀材料,借期一般在4-10天;(3)如果某本書參考價值較大,如習題集,則會保留較長時間,甚至續(xù)借;(4)由于其他原因,造成的延后還書,甚至所借閱圖書丟失。
上述的第(2)和第(3)種情況屬于正常借閱,這里希望借助于排序算法解決的是第(1)種情況。其目標是,使得屬于第(1)種情況的圖書在查詢結果中排在后面。
排序算法的基本原理是:設計一個評價系數(shù),使這個系數(shù)在第(1)種情況下緩慢增長,而第(2)和第(3)種情況下較快增長,查詢結果按評價系數(shù)排序,從而實現(xiàn)將“適合的”圖書推薦給讀者的目的。由此,可以將評價系數(shù)設計為:將每條借閱記錄的實際借閱時間除以借閱者可借閱時間并求和,這樣就可以實現(xiàn)上述目標。
雖然第(4)種借閱情況會對評價系數(shù)造成干擾,但由于圖書丟失等原因長時間不歸還,對應圖書的評價系數(shù)較大,但在算法中可采用根據(jù)還書記錄去匹配借閱記錄的方法來防止這種干擾。圖書丟失后,因為沒有還書記錄,此次借閱不會影響到評價系數(shù)。而第(1)種情況下,雖然借閱次數(shù)比較多,但由于實際借閱時間除以借閱者可借閱時間后,該值會非常小,而從讀者還書到重新上架還有一段時間,這些都使得評價系數(shù)增長緩慢。在第(2)和第(3)種借閱情況下,評價系數(shù)的增長都比第(1)種情況要快,在算法實際測試中,筆者發(fā)現(xiàn),第(3)種情況下,其評價系數(shù)增長要快于第(2)種情況。這個現(xiàn)象可以通過對借閱時間進行檢測,檢測其超過一定數(shù)值后乘上一個小于1的系數(shù)來進行調整。
基于上述原理,排序算法設計如下∶
大多數(shù)圖書自動化管理系統(tǒng)均有記錄借閱日志的功能,根據(jù)圖書的借閱日志,對每本科技圖書的借閱信息進行數(shù)據(jù)挖掘處理。
在圖書自動化管理系統(tǒng)的書目信息表中增加評價系數(shù)字段PJXS,將每本圖書預處理后得到的評價系數(shù)值填入對應的記錄。對每本書根據(jù)歷史借閱信息求得其評價系數(shù)。
處理流程為:第一步,將圖書自動化管理系統(tǒng)中記錄的借閱日志導出到SQL Server的日志表中;第二步,將導出的日志中的還書記錄逐條處理,求得書目信息表中各記錄的評價系數(shù)字段PJXS值;第三步,返回到第二步,直至所有借閱日志被處理完成。
[1]樓玉萍.基于B/S模式的計算機基礎考試系統(tǒng)的研究和實現(xiàn)[D].長沙:國防科技大學,2005.
[2]李志明.基于Web服務的在線考試系統(tǒng)應用及研究[D].廣州:廣東工業(yè)大學,2005.
[3]于曉鵬.計算機建庫理論與技術[J].松遼學刊,1998(1)∶70-71.
[4]胡維芳.論項目反應理論[J].高等理科教育,2005(3)∶66.
[5]周雪燕.網(wǎng)絡在線考試系統(tǒng)的開發(fā)及應用研究[D].西安:陜西師范大學,2006.
[6]林雪明.試題難度系數(shù)確定數(shù)學模型的建立與實現(xiàn)[J].杭州應用工程技術學院學報,2001(3)∶48-49.