靳曉恩
(南昌工程學(xué)院圖書館,江西 南昌 330099)
隨著信息化的發(fā)展,用戶信息需求以及獲取方式與習(xí)慣正在發(fā)生深刻變化。2005年OCLC的《大學(xué)生對(duì)圖書館與信息資源的理解》[1]報(bào)告顯示:89%的大學(xué)生在檢索信息時(shí),首先選搜索引擎,只有2%的學(xué)生使用圖書館的信息資源。而2010年,中國(guó)互聯(lián)網(wǎng)信息中心發(fā)布的《第26次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[2]顯示:搜索引擎在網(wǎng)民中的使用率達(dá)76.3%,以半年3912萬(wàn)人的速度增長(zhǎng)??梢?,搜索引擎的利用率遠(yuǎn)遠(yuǎn)高于數(shù)字圖書館的利用率。但這種現(xiàn)象的出現(xiàn),對(duì)于數(shù)字圖書館的發(fā)展而言,是挑戰(zhàn)、也是機(jī)遇。“挑戰(zhàn)”不言而喻,“機(jī)遇”就是數(shù)字圖書館的建設(shè)者們應(yīng)盡早盡快地吸取、利用先進(jìn)的信息化技術(shù)開發(fā)、建立用戶信息知識(shí)庫(kù),了解用戶信息需求特征,發(fā)現(xiàn)用戶需求規(guī)律,以指導(dǎo)數(shù)字圖書館豐富的資源建設(shè),從而提高數(shù)字圖書館的資源利用率。
數(shù)字圖書館是現(xiàn)代高新科學(xué)技術(shù)和文獻(xiàn)知識(shí)信息以及傳統(tǒng)歷史文化完美結(jié)合的體現(xiàn)。其建設(shè)的目的就是為了最有效、最可靠、最可持續(xù)地滿足用戶的信息需求,其發(fā)展的源泉也正是廣大的信息需求用戶。同時(shí),知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)的興起,是人們長(zhǎng)期對(duì)數(shù)據(jù)處理和分析進(jìn)行研究和開發(fā)的結(jié)果,它使數(shù)據(jù)庫(kù)技術(shù)進(jìn)入了一個(gè)更高級(jí)階段,它不僅能對(duì)過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出數(shù)據(jù)之間的潛在聯(lián)系,發(fā)現(xiàn)具有指導(dǎo)性作用的預(yù)測(cè)、差異性知識(shí)[3]。利用知識(shí)發(fā)現(xiàn)的這種功能,加強(qiáng)數(shù)字圖書館的用戶信息管理,對(duì)用戶信息進(jìn)行整合、分析、挖掘處理,將會(huì)發(fā)現(xiàn)有用的規(guī)則和知識(shí),指導(dǎo)數(shù)字圖書館資源建設(shè),這對(duì)數(shù)字圖書館的發(fā)展來(lái)說,可謂重中之重。
數(shù)字圖書館的用戶信息,也就是用戶在利用數(shù)字圖書館檢索信息時(shí)所產(chǎn)生的檢索痕跡,包括數(shù)字圖書館用戶登陸信息和用戶活動(dòng)信息、用戶profile、用戶調(diào)查信息、網(wǎng)站的用戶注冊(cè)信息和日志文件等[4],這些信息數(shù)據(jù)受用戶的偏好、興趣、認(rèn)知類型、經(jīng)驗(yàn)、智力、使用方向、檢索時(shí)間等用戶信息需求情境的影響,產(chǎn)生不同的用戶需求特點(diǎn),形成差異的用戶需求行為。而這一用戶檢索行為所產(chǎn)生的記錄而形成的數(shù)據(jù)庫(kù)與知識(shí)發(fā)現(xiàn)技術(shù)相結(jié)合,我們將設(shè)計(jì)出如下的用戶信息知識(shí)發(fā)現(xiàn)的過程分析模型圖(如圖1):

圖1 用戶信息知識(shí)發(fā)現(xiàn)過程模型
此知識(shí)發(fā)現(xiàn)過程建立在豐富的用戶個(gè)人信息及檢索過程記錄的基礎(chǔ)上,通過對(duì)用戶個(gè)人信息特征庫(kù)及用戶檢索過程記錄特征庫(kù)的預(yù)處理,形成目標(biāo)數(shù)據(jù)庫(kù),知識(shí)發(fā)現(xiàn)就是對(duì)目標(biāo)數(shù)據(jù)庫(kù)的分類和聚類分析、關(guān)聯(lián)分析、序列模式發(fā)現(xiàn)、模式識(shí)別等操作,結(jié)果產(chǎn)生具有指導(dǎo)性價(jià)值的模式、規(guī)則和知識(shí),建立對(duì)改進(jìn)數(shù)字圖書館資源建設(shè)方向、增強(qiáng)用戶個(gè)性化服務(wù)能力的指導(dǎo)性知識(shí)庫(kù)。
用戶信息知識(shí)發(fā)現(xiàn)過程實(shí)現(xiàn)的步驟主要有:用戶個(gè)人信息特征庫(kù)及檢索過程記錄庫(kù)的建立和預(yù)處理;針對(duì)目標(biāo)數(shù)據(jù)庫(kù)的分類和聚類分析、關(guān)聯(lián)分析、序列模式發(fā)現(xiàn)、模式識(shí)別的知識(shí)發(fā)現(xiàn)處理;建立知識(shí)庫(kù)。
數(shù)字圖書館的用戶注冊(cè)信息、用戶登錄信息、用戶profile,受用戶信息需求情境的影響,形成用戶個(gè)人信息特征庫(kù)。而用戶交互信息、檢索日志文件(訪問時(shí)間、訪問頻率、訪問結(jié)果等),用戶檢索表達(dá)式的影響,形成用戶檢索記錄數(shù)據(jù)庫(kù)。
針對(duì)用戶個(gè)人信息特征庫(kù),主要是利用推理機(jī)分析處理用戶信息需求情境,識(shí)別用戶偏好、興趣、認(rèn)知、經(jīng)驗(yàn)、智力等特征,并利用搜索引擎自動(dòng)采集用戶需求情境特點(diǎn)。針對(duì)用戶檢索過程記錄庫(kù),主要是利用搜索引擎動(dòng)態(tài)跟蹤服務(wù)功能,記錄大量的用戶交互信息、檢索日志文件(訪問時(shí)間、訪問頻率、訪問結(jié)果等)。而后,利用智能過濾、興趣識(shí)別、訪問登記等搜索引擎功能對(duì)兩大數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)凈化預(yù)處理。這樣,預(yù)處理后的目標(biāo)數(shù)據(jù)庫(kù),就成為可供進(jìn)行知識(shí)挖掘操作的信息庫(kù)。
分類和聚類分析是一對(duì)互逆過程,分類是利用分類模型把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定的類別中;聚類是把數(shù)據(jù)分成不同的群組,目的是使同一群組的數(shù)據(jù)盡量相似,不同群組的數(shù)據(jù)差別盡可能地大。分類和聚類分析可以把凈化過的用戶個(gè)人信息庫(kù)及檢索記錄信息庫(kù)的信息進(jìn)行群分,建立用戶需求模型,數(shù)字圖書館根據(jù)特征模型為不同用戶提供個(gè)性化的信息定制和推送服務(wù)。例如:美國(guó)加州大學(xué)伯克利分校信息管理與系統(tǒng)學(xué)院的庫(kù)伯教授曾對(duì)加州大學(xué)聯(lián)機(jī)目錄的使用記錄數(shù)據(jù)進(jìn)行收集,共獲得257000條訪問記錄,然后進(jìn)行處理和分析聚類,發(fā)現(xiàn)有6種不同的用戶類型:查找詳細(xì)信息的、一般使用的、查找中具有較好的互動(dòng)技巧的、知道所查項(xiàng)目?jī)?nèi)容的、需要依賴幫助查找的、查找不成功的用戶,從而使數(shù)字圖書館可以細(xì)分用戶,并針對(duì)不同的用戶提供相應(yīng)的個(gè)性化服務(wù)[5]。
關(guān)聯(lián)分析是表示數(shù)據(jù)庫(kù)中同一事物不同對(duì)象之間的相關(guān)性;序列模式是事件內(nèi)部及時(shí)間上的相關(guān)性。例如:對(duì)學(xué)生的借閱記錄進(jìn)行關(guān)聯(lián)分析得出以下關(guān)聯(lián)規(guī)則:“系統(tǒng)類=>組織類和管理類(0.25,0.33)”,即“在一個(gè)借閱過程中,如果系統(tǒng)類資料被借出,組織和管理類資料同時(shí)也被借出,其支持度為0.25,信任度為0.33?!保?]。通過對(duì)用戶的檢索交互信息、日志文件的關(guān)聯(lián)和序列模式分析,可以發(fā)現(xiàn)用戶的檢索聯(lián)系及檢索取向,從而指導(dǎo)數(shù)字圖書館的資源鏈建設(shè),節(jié)約用戶的檢索時(shí)間及檢索步驟,并智能地推送符合用戶檢索需求的檢索條目,供檢索用戶參考和使用。這樣,數(shù)字圖書館的資源建設(shè)即可以有的放矢,用戶的檢索過程又可以更加簡(jiǎn)捷和準(zhǔn)確。
知識(shí)庫(kù)是對(duì)信息庫(kù)的判斷、抽取、分析與概括,存貯的是規(guī)律性的規(guī)則和模式。通過對(duì)用戶信息的分類和聚類分析、關(guān)聯(lián)分析、序列模式等知識(shí)發(fā)現(xiàn)處理后而形成的知識(shí)庫(kù),存貯了大量的用戶檢索和信息使用記錄的規(guī)律,利用這些規(guī)律來(lái)指導(dǎo)數(shù)字圖書館的門戶平臺(tái)建設(shè)、資源建設(shè)方向及重點(diǎn),掌握用戶需求動(dòng)態(tài),推出更具人性化、個(gè)性化的知識(shí)服務(wù),從而最大限度地提高用戶信息需求滿意度。
信息時(shí)代,用戶獲取信息逐漸向無(wú)縫的“自助服務(wù)”方向發(fā)展,用戶期望利用信息就像“用水用電”一樣方便。而數(shù)字圖書館以圖書館及互聯(lián)網(wǎng)上的各類數(shù)字資源或非數(shù)字資源為中心,目的是為了有效組織信息資源,為用戶提供便捷的、無(wú)縫的、統(tǒng)一的、一站式的門戶檢索平臺(tái),從而最大程度的滿足用戶的信息需求,最大限度地發(fā)揮數(shù)字圖書館信息資源的使用率。
那么,為了實(shí)現(xiàn)這種“雙贏”發(fā)展,數(shù)字圖書館界就應(yīng)該做到“知已知彼”。首先就是要充分地了解用戶需求,對(duì)數(shù)字圖書館的用戶信息進(jìn)行有效的知識(shí)發(fā)現(xiàn)處理,產(chǎn)生可供利用的知識(shí)和規(guī)則,建立有效的用戶信息知識(shí)庫(kù),以指導(dǎo)針對(duì)性地?cái)?shù)字圖書館資源整合,在資源提供與推薦、推送方面作出調(diào)整與變動(dòng),有的放矢地為用戶提供新的信息定制與推薦服務(wù),從而更有效地提高數(shù)字圖書館利用率,使用戶獲得更為快速、準(zhǔn)確主動(dòng)的個(gè)性化信息服務(wù),完美實(shí)現(xiàn)數(shù)字圖書館“知識(shí)寶庫(kù)”的社會(huì)價(jià)值。
[1] OCLC.College Students‵Perceptions of Libraries and Information Resources[R].Dublin,Ohio USA:OCLC Online Computer Library Center,Inc.,2005.
[2] CNNIC.第26次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R/OL][2010-09-25].http://www.cnnic.net.cn/pdf/2010/7/15/100708.pdf
[3] 黃曉斌.網(wǎng)絡(luò)信息挖掘[M].北京:電子工業(yè)出版社,2005:7-8.
[4] Kyunghye Kin.A Model of Digital Library Information Seeking Process as a Frame for Classifying Usability Problems[J].A Dissertation for the Degree of Doctor of Philosophy[D].The State University of New Jersey.2002.
[5] Hui-Min Chen,Michael D.Cooper.Using clustering techniques to detect usage patterns in a Web based information system[J].JASIST.2001(11):888-904.
[6] Chien-Hsing Wu,Tzai-Zang Lee,Shu-Chen Kao.Knowledge discovery applied to material acquisitions for libraries[J].Information Processing and Management,2004:713-714.