朱純琳
關鍵詞:關聯數據;數字圖書館;知識發現系統模型
摘要:文章介紹了數字圖書館知識發現系統的現實意義和基于關聯數據的知識發現過程,闡述了基于關聯數據的知識發現系統模型的功能要素、構建過程和模型特征,歸納了基于關聯數據的數字圖書館知識發現系統的創新之處。
中圖分類號:G250.7文獻標識碼:A文章編號:1003-1588(2017)11-0101-03
近年來,隨著關聯數據的快速發展和廣泛應用,逐漸呈現給人們一個“數據網絡”的資源環境。如何把該網絡資源環境的潛力和優勢充分發揮到知識發現應用的實現過程中,是值得研究的課題。從問題起源上來說,在關聯數據基礎上開展的知識發現研究是為了對關聯數據資源進行更加充分的利用,并且通過知識發現問題的解決更好地促進網絡發展。關聯數據網絡的發展和知識發現活動的開展需要融合兩個領域的理論體系,并做進一步擴展。在關聯數據基礎上開展的知識發現系統,關聯數據負責把數據、發現數據的工具和網絡資源環境注入知識發現中,知識發現推動著關聯數據的實現和發展[1]。
1數字圖書館知識發現系統的現實意義
在關聯數據基礎上研究數字圖書館知識發現系統,是在分析處理大數據過程中使用知識發現技術,不僅可以克服傳統圖書館的服務缺陷,還可以拓展數字圖書館知識服務的內容。
1.1增強數字圖書館對潛在知識的挖掘能力,帶動資源的高效利用
圖書館在數字化進程中,比較注重檢索和傳遞資源能力的提升,忽略了用戶對資源的利用率問題。知識發現系統能把用戶需求的相關知識充分地挖掘出來,實現資源利用率最大化[2]。與圖書館傳統服務模式相比,知識發現系統具有以下特點:用戶在搜索和獲取知識A的過程中,系統可以自動把與知識A相關的知識B一同推送給用戶,不僅有助于用戶獲取所需知識,還有助于提升知識B的利用率。因此,知識發現系統更加注重挖掘知識,在該服務模式中不僅體現了用戶找知識的過程,還體現出了知識主動“找”用戶的過程。知識發現系統的應用可以使數字資源的利用率得到有效提升。
1.2有效過濾垃圾信息,增強數字圖書館的個性化服務水平
隨著信息技術的不斷發展,在全球范圍內,每天產生的信息量可達l0億UB,如果把它們刻錄到DVD光盤中,需要用掉1.88億張光盤。在海量的數據中,必然有大量的垃圾數據存在,用戶只有先排除垃圾數據,才能獲取有價值的信息。在大數據時代,由于傳統的信息檢索方式太過單一,已經不能滿足用戶日益增長的資源索取需求,該問題通過知識發現系統可以得到有效的解決[3]。知識發現系統通過運用聚類、分類、收集以及關聯分析方法,可以深度挖掘資源內容、用戶信息以及網站結構,把其中潛在的關聯信息找出來并推送給用戶,使圖書館的信息服務水平得到提升。
2基于關聯數據的知識發現過程分析
2.1知識發現的一般過程
雖然知識發現過程的描述方式是多樣化的,但是他們只是語言組織與表達方式不同。知識發現過程的步驟依次是:對知識發現的目標、任務以及對象進行確定;對數據進行搜集和提取,構建關鍵性指標;根據具體任務,合法性檢查和清理數據,把無關的數據去除;對數據挖掘算法進行選擇;用可視化的形式表述知識發現的結果,并提供給用戶和專家評價。在知識發現過程中需要反復修改以上步驟,確保最終形成的知識發現結果高效可用。
2.2基于關聯數據的知識發現過程
在關聯數據基礎上,用戶根據知識發現的特征、大數據以及網絡環境特性,基于知識發現的一般規律,可以對知識發現過程模型進行重新思考和定位[4]。在關聯數據基礎上開展的知識發現過程有別于一般的知識發現過程,它的特點是:數據源由關系型向關聯開放網絡轉變,整個網絡中的數據源都是知識發現的基礎和對象;關聯數據的整合是與具體的數據轉換和處理過程相一致的,不需要付出額外成本;針對關聯數據的具體需求和特殊性,在數據挖掘和解釋評估環節開展特定的設計。基于關聯數據的知識發現過程見圖1。
3基于關聯數據的知識發現系統模型構建
3.1功能要素分析
功能要素包括:①數據準備功能。數據準備工作不僅是數據處理的前提,還是知識發現的基礎。數據準備工作是在保證數據源的基礎屬性下,篩選出合格的數據源,進而保證整個數據挖掘工作的準確性和有效性。②數據獲取功能。數據獲取功能是知識發現的關鍵因素,它可以分為數據查閱功能和數據獲取功能。數據獲取功能是在數據源中展開搜索并獲取所需數據,該功能直接影響知識發現和獲取的結果。③數據處理功能。數據處理功能是在數據準備功能和數據獲取功能基礎上進行的,它的功能是挖掘相關聯的有效數據源集合。一般情況下,數據處理環節不僅要保證待處理數據的準確性、一致性以及完整性,還要參照知識發現和數據獲取的原則篩選和整理出適合數據挖掘的數據源集合。④數據挖掘功能。數據挖掘功能是知識發現系統的重要組成部分,當數據源集合經過數據處理后會自動進入數據挖掘系統,該系統會調用挖掘算法(比如數據分類算法、聚類算法以及關聯性查找算法等)挖掘出所需數據。⑤知識生成功能。知識生成功能包括知識生成模式的解釋功能、知識生成模式的表示功能以及可視化的顯示功能等。知識生成模式的解釋功能是指針對知識生成的方式進行相應的解釋,知識生成模式的表示功能是在知識生成模式的解釋功能的基礎上抽取所需信息,并利用易于理解的方式對信息進行重新構建,最終形成知識生成模式。⑥評估反饋功能。該功能是一個需要用戶和專業人員共同參與和相互交流的過程,其可以對生成的知識進行多維形式的評測,并將評測結果形成反饋意見。
3.2模型的構建
基于關聯數據的知識發現系統模型采用了分層結構,并將一般知識發現系統模型的處理方式應用到系統中(見圖2)。資源層為系統提供穩定可靠的數據庫資源,知識發現處理層包括關聯數據的獲取、處理和挖掘,應用層是知識發現系統的操作界面,包括關聯數據發現、關聯知識發現和解釋評估。知識發現過程是一個不斷循環的過程,數據的關聯性會隨著循環次數增多變得更加明顯[5]。該知識發現系統還會根據評價和反饋的結果及時調整知識關聯策略,進而使知識發現的結果更加精確。endprint
3.3模型的特征
基于關聯數據的知識發現系統模型的特征包括:①底層邏輯控制。基于關聯數據的數字圖書館知識發現系統采用關聯數據的處理方式、標準、技術、運作機制以及運行環境等作為底層邏輯控制的基礎[6],因此,底層邏輯控制規則要遵循關聯數據的規則。整個數據的準備、獲取、整合以及挖掘過程都需要根據關聯數據的控制要求進行處理。②流程方法控制。該模型將知識發現規則作為數據處理的基本準則,在程序運行過程中關聯數據的處理過程要與知識發現的過程相吻合,并以發現關聯知識為目的。由于受到數據處理流程的影響,模型的結構為分層結構,其結構也要受到關聯數據整體框架的限制。該模型的關聯數據應用方式與知識發現方式相互融合,進而更好地實現流程方法控制。③功能操作控制。功能操作控制包括關聯數據的建立操作和關聯數據的發現操作。功能操作控制不僅可以為模型中各個模塊之間的協調運轉提供技術支持,還可以提高關聯數據發現功能的效率。
4基于關聯數據的知識發現系統的創新
4.1知識發現在網絡規模上的實現
統一標準的關聯數據具有低成本和便捷實用等特點,因此,用戶在進行知識發現操作時,不用考慮數據資源的物理存儲位置、接口兼容以及平臺操作等問題。具體來說,根據相互促進和相互協調的原則,知識發現過程可以在全球范圍內進行,授權用戶根據自身的數據需求擴展信息類數據資源以及非信息類數據資源,進而為整體知識發現體系提供更廣泛的范圍。用戶利用關聯數據操作可以獲得意想不到的關聯性數據。
4.2實現語義化的知識發現
基于關聯數據的知識發現系統采用了機器自動識別的結構化數據結構,因此,在進行數據處理過程中機器可以直接進行數據處理,進而增強了數據處理的可靠性和效率。但是,半結構化或非結構化的數據不能被機器自動識別和處理,因此需要人工處理并將它們轉換為機器可以識別和處理的類型。在海量數據資源的大環境下,數據類型的多樣性會給數據處理帶來困難。基于關聯數據的結構化轉換和語義關聯轉換可以解決數據處理遇到的困難,可以使數據能夠被機器直接識別和自動處理,進而提高數據處理的速度。語義關系存在于同一個數據集合中,不同的URI對應著不同的數據集合,因此URI是數據資源的語義關系的重要標識。基于數據資源的語義關系必須滿足語義查詢格式的統一規范,才可以讓知識發現操作能夠利用存在的語義關系去進一步發現和推斷數據資源的關系,進而更好地擴展語義關聯的范圍。
4.3知識發現的動態擴展
根據關聯數據的非中心性、標準化特點和基于關聯數據網絡的擴展性、同步性特點,基于關聯數據的知識發現系統具有開放性、動態性和可擴展性等特點。隨著關聯數據的數量不斷增多,使得關聯數據的多領域性和多來源性等問題亟須得到解決,而基于數據資源中心化的管理方式不能解決上述問題。此外,“用戶查詢—系統響應”的問題解決方式也不能真正體現用戶知識需求的多樣化和個性化。現階段,基于關聯數據的模型已經擴展了新的應用功能,其可以直接添加動態的知識發現子模塊。關聯數據的標準化和非中心化使得用戶不必深究數據底層的具體結構和邏輯關系。系統可以根據數據集合的動態性及時發現和處理新的知識集合,進而保證知識發現的可靠性和有效性。
5結語
基于關聯數據的數字圖書館知識發現系統是在對現有的知識發現系統加以研究的基礎上進行了擴展和延伸,該系統更加注重關聯數據的應用。筆者試圖找出關聯數據與知識發現的相互影響的關系,使它們能夠相互彌補、相互促進,更好地實現知識發現系統的價值。
參考文獻:
[1]丁楠,潘有能.基于關聯數據的圖書館信息聚合研究[J].圖書與情報,2011(6):50-53.
[2]陀向明.圖書館知識發現系統應用狀況分析[J].科技情報開發與經濟,2013(16):153-155.
[3]廖志江.知識發現及數字圖書館知識服務平臺建設研究[J].情報科學,2012(12):1849-1853.
[4]管進.基于關聯數據的圖書館知識服務策略研究[J].圖書館理論與實踐,2012(6):9-11.
[5]林海青,樓向英,夏翠娟.圖書館關聯數據:機會與挑戰[J].中國圖書館學報,2012(1):58-67.
[6]黃永文,岳笑,劉建華.關聯數據應用的體系框架及構建關聯數據應用的建議[J].現代圖書情報技術,2011(9):7-13.
(編校:孫新梅)endprint