呂端士
摘要:大數據背景下,信息組織和知識組織在其研究方法和發展趨勢上發生巨大的變化,如何利用好海量復雜的數據成為當下信息組織與知識組織研究的熱點。本文通過對信息組織和知識組織的相關內容梳理,結合當前大數據時代特點,分析信息組織和知識組織結合大數據技術所能發揮的新作用,并指出當前信息組織和知識組織所面臨的困難與挑戰,為現代信息工作者提供一些研究思路和理論支撐。
關鍵詞:大數據;信息組織;知識組織;知識網絡;知識組織系統
一、相關概念
(一)信息組織
人們可以通過各種各樣的渠道接觸到信息,但這些信息往往是冗雜的、無序的,需要經過加工整理才能被人們所利用,這就是信息組織的任務。信息組織是利用一定的科學方法,通過信息外在特征和內容特征將無序狀態的信息轉換成有序狀態的信息[1]。信息組織一種普遍的社會行為,是信息收集工作下一步的重要工作,為后續信息研究與應用奠定了基礎。
(二)知識組織
相當于信息組織而言,知識組織更偏重知識挖掘的過程[2]。知識組織最早由英國圖書館學家布利斯在1929年提出,他在《圖書館的知識組織》《知識組織和科學系統》兩本著作中從圖書館文獻分類的角度描述了知識組織的思想。目前對知識組織的定義尚沒有達到統一,圖書情報界對知識組織的定義主要有以下幾種:①知識組織是指對事物的本質及事物間的關系進行揭示的有序結構,即知識的序化。②知識組織是指對知識客體所進行的諸如整理、加工、揭示、控制等一系列組織化過程及其方法。③知識組織是對知識進行整序和提供,既處理大量的現有知識,又能相對降低存儲知識的物理載體的盲目增長以免知識過于分散化。
二、信息組織與知識組織在大數據環境中的作用
(一)大數據環境特點
大數據并非新技術,也不算是新產品,而是新的現象。在大數據時代,信息的規模越來越大,要處理的數據量急劇上升。對于大數據環境特點,不同的研究組織有不同的解讀,但一個普遍的認知是:大數據環境具有4V特征,即容量大(Volume)、速度快(Velocity)、種類多(Variety)、價值密度低(Value)[3][4]。容量大指的是大數據環境具有龐大的數據量;速度快可以理解為處理用戶數據迅速,延遲小,實時性高;種類多即大數據環境下數據來源廣,數據種類與格式已經不局限于結構化數據范疇,還包含半結構化和非結構化數據;由于大數據環境下數據繁雜,包含的對用戶真正有價值的數據并不多,因此數據價值密度低是目前大數據環境下最顯著的特點。
(二)信息組織在大數據環境中的作用
由于大數據環境下的信息量呈指數型增長,人們對獲取有價值信息的實時性和準確性要求更高,一方面人們利用智能的終端設備可以獲取到以往難以獲取的信息,另一方面也存在信息貧乏或者難以獲得的現象,形成信息爆炸和信息孤島并存的局面,因此信息組織工作在這種局面下顯得尤為重要。馬費成[5] 提到信息組織至少應該在數據分類、描述、約減、評估、交換共享等方面發揮重要作用。
分類是信息組織的基礎性方法。最初用于圖書館的資源分類,例如中國圖書館分類法使得讀者得以迅速有效地查閱圖書館相關資源。在大數據環境下,對網絡信息的分類應當更加發揮更重要的作用。網絡信息分類的對象是數以百萬計的網站或是搜索引擎,這些對象幾乎包含了人類所能認知的一切知識,由于數據量龐大,因此應當根據數據的序化程度進行分級,序化程度較低的數據,分類的重點在對其描述揭示;序化程度較高的數據,分類重點在于整合和互聯。資源的描述通過對信息資源進行特征分析來描述資源的主要內容,但由于網絡信息具有極高的自由度和隨意性,且信息的來源往往沒有真實性保證,因此對網絡信息資源的描述方法研究十分必要。目前對網絡信息的描述方法主要有MARC、DC、MODS三種[6]。對大數據資源的約減工作與記錄描述一樣,都是將一次信息轉化為二次信息,使得復雜無序的信息約減為簡單的替代記錄。信息組織還可以通過元數據對大數據資源進行評估與管理,保存信息資源的使用情況,研究人員可以利用這些資源對信息統計分析,對其使用價值和重要性進行判定,并將情況反饋給資源管理者,使其更好地服務用戶。此外,信息組織促進大數據資源的交換共享,各個本體都可看作信息系統,各個信息系統之間存在交換與共享,進而創造更大的價值,如我國建設數據統一交換平臺,來促進大數據產業發展。
(三)知識組織在大數據環境中的作用
傳統的社會發展方式依靠勞動資源和資本資源,換句話說誰擁有大量勞動力和生產機器,誰就得以迅速發展。然而,當前的社會是知識經濟時代[7],知識作為一種競爭資源可以起到決定性作用,對知識的有效管理以及開發利用已經成為大數據環境下推動產業發展和技術革新的基礎性工作[8]。由于大數據環境下知識呈現無序狀態,因此對知識的有效管理以促進知識有效利用和傳播是知識組織在大數據時代的根本目標。筆者通過研究近十年在中國知網收錄的知識組織相關文獻,總結出知識組織在當前大數據環境下主要通過構建知識組織系統和建立知識網絡來發揮作用。
1.知識組織系統
知識組織系統可以理解為對人類知識結構進行表達和有組織地闡述的各種語義工具的統稱。作為一種可以有效組織管理知識的框架體系,知識組織系統不僅能夠為研究人員提供序化知識,還能夠實現對知識的有序化檢索與導航,使得知識可以被有效檢索和利用。中山大學曹樹金教授[9]曾提到知識組織在大數據時代有兩個根本任務,其一是從各領域實際需求和實踐中出發,概括出一般的、可跨領域的應用知識理論方法;其二是結合用戶情景對更細粒度信息單元進行揭示與關聯。在此基礎上,筆者認為知識組織系統在大數據環境下可以在信息檢索和術語服務兩個層面發揮作用。知識組織系統可利用敘詞表中的概念語義關系為網絡信息檢索提高其性能,或利用分類聚類體系形成一個信息瀏覽框架,提供信息的分類導航服務。例如Google學術、知網等學術檢索網站;BBS、豆瓣網等主題分類網站。術語服務是知識組織系統網絡化的一個有效方法,其主要作用是展示和應用各種類型的知識組織資源,在主題標引、分類以及機器翻譯領域發揮著重要作用。
2.知識網絡
知識網絡是涉及科學知識生產和傳播過程中的相關機構或活動,也可以理解為它是集不同知識要素的共性特征的集合。基于知識網絡的知識組織對企業或組織內部的知識創新、實現多模網絡知識管理和研究知識擴散路徑與規律具有重要作用。基于知識網絡的知識圖譜構建對精準獲取用戶需求、規范整合信息資源與提高知識庫精準性與智能性提供了有效解決途徑。特別是人工智能時代,由于知識圖譜邏輯推理性強,可解釋性高,具有透明共享和可視化的優勢,基于知識圖譜的知識組織會有廣闊的研究前景。在可預見的未來,知識網絡對解決大數據時代信息爆炸危機和提高情報研究效率方面將會提供非常有效的方法。
三、大數據環境下信息組織與知識組織面臨的挑戰
(一)信息組織面臨的挑戰
(1)信息組織的作用極易被忽視
在大數據的應用場景中,大量的數據經過挖掘后可以直接生成供信息工作者使用的情報,并沒有經過信息組織過程。同時由于在大數據時代,信息強調實時性,大量的數據還沒有經過存儲和組織就已經失去了效用。因此,信息組織的作用在大數據環境下顯性化,信息組織從數據獲取到生產決策方案的過程中的作用被隱藏或忽略。
(2)信息描述標準的建立存在困難
大數據環境下,數據和數據載體變得豐富多樣化。越來越多的數據來源于科學實驗、基因組測試、社交媒體,這些數據表現形式各不相同,由于信息組織需要有上層的統一的描述標準和規范來保證數據組織和描述達到一致,且保證不同標準之間具有關聯性,所以建立跨領域和跨數據類型的統一描述標準存在較大困難。
(3)傳統信息組織工具難以適應當前需求
傳統的信息組織工具動態性較差,以往采用的分類法、敘詞表或本體這些工具一經建立,再想改動就極其復雜,且更新很慢。大數據環境下的數據量呈指數增長,其數據更新速度極快,因此傳統的信息組織工具面臨著極大的挑戰。
(二)知識組織面臨的挑戰
(1)數據的非結構化
大數據環境下加速了知識生產建設,知識的多元化進一步促使網絡數據庫中存在大量的半結構化和非結構化數據。非結構化數據如自然語言文本、多媒體數據等等,由于結構和內涵上的語義不明確,在進行語義分析時往往具有更大的不確定性,這種不確定性的表達在知識組織流程中會影響到知識表示,不利于用戶發現和吸收知識。可見傳統的關系型數據庫和聯機檢索機制都已經無法勝任,這就對現有的組織方式和檢索語言提出了更高的要求,需要創新知識組織方法與技術,高度重視專家團隊的參與來提供足夠的技術支持進行高質量、高價值的知識交流,對檢索語言進行技術改變和應用模式的探索,從而提升知識運動的效率。
(2)知識用戶需求多樣性。
知識組織的最終目的是為提供適度且具有定向性的用戶知識服務。知識用戶在獲取知識的方式和內容是多層次、多角度的,呈現出多樣性的特點。長尾理論告訴我們應該重視用戶需求曲線中的尾巴部分,要盡可能地實現資源與需求的最大化匹配,實現知識組織效果的最大化。知識用戶需求的多樣性對知識組織準確性和高效性工作提出了挑戰,大數據環境下帶來的是傳統媒體的新變革和新升級,要求必須改變傳統的規范化的知識組織方式,運用大數據進行信息挖掘和個性化知識服務,對用戶搜索內容進行自動統計分析,生成偏好設定,有針對性的為每位用戶推送與其專業需求相關的知識,從被動服務向個性化主動服務演化,真正地提高知識獲取效率。
(3)知識的碎片化。
與傳統的單一數據庫不同,在大數據環境下的知識數據種類繁多,其知識服務主要是平臺服務,而信息用戶無論是使用微博還是微信等網絡平臺發布文字、圖片、視頻等,都呈現出了知識碎片化和關聯化的特點,這就對跨平臺的知識整合提出了更高的要求。因此,如何使用知識組織方法進行數據融合,利用互聯網搭建知識組織平臺來揭示顯性知識和隱性知識,挖掘知識關聯是目前大數據環境下所面臨的一大挑戰。通過整合與集成知識組織碎片化的問題,來實現知識跨平臺組織、共建共享,提高用戶知識發現和知識吸收。
四、結語
在大數據環境下,互聯網的飛速發展推進著信息組織和知識組織的升級與變革,數據在各個層面都加大了開放程度。當今社會對信息知識的靈敏性和精確性的要求越來越高,數據信息知識的互通互聯已成為一大趨勢,信息組織和知識組織持續發揮著其巨大的作用。隨著相關研究的不斷深入,無論是制定組織標準還是進行知識集成構建,信息組織和知識組織在大數據環境下都將面臨巨大的挑戰,如何結合傳統的組織方法和技術手段,更加深入系統地研究信息組織和知識組織的組織管理和應用的方法和技術,還有待進一步探索。
參考文獻:
[1]黃如花.國內外信息組織研究述評[J].中國圖書館學報,2002(01):63-66.
[2]蔣永福.論知識組織[J].圖書情報工作,2000(06):5-10.
[3]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013,23(4):168-172.
[4]陳如明.大數據時代的挑戰、價值與應對策略[J].移動通信,2012(17):14-15.