趙易新
(天津港信息技術發展有限公司,天津,300450)
隨著新技術、新理念的發展,當前社會已經進入到信息化、知識化的時期,其中主要的表現在于知識信息呈幾何式的擴展,因此怎樣對知識進行組織和整合,是當前時代極為重要的問題。知識組織是專門用來研究知識的理論與方法,在知識的獲取、描述、整合、共享等方面意義重大,下面我們便針對知識組織的系統建構進行考察分析。
所謂“知識組織系統”,是為了闡釋某種概念、性質及相關概念之間具體聯系而建立的組織系統。這一系統在概念、概念性質及概念間聯系表達的基礎上,在特定知識庫結構建設的支持下,將知識信息加以編排,利用組織系統,實現知識信息的語義檢索、語義理解和語義導航等操作,從而給各種學科領域內的專家知識的交流共享提供平臺。
中國知網是當前我國建設程度最完善的知識組織系統之一。知網本身擁有大量的知識信息,在知識庫組織建設上已經十分成熟。知網的基本結構表現為“三層知識網絡”,集合了“基本知識庫”、“資源倉庫”、“知識元庫”,能夠對用戶提供數據資源智能化的挖掘與供給,并以知識組織系統的方式提供知識組織、搭建知識之間聯系的作用。在給用戶提供知識檢索的基本服務外,能夠快速提供相似的文獻連接、文獻引用服務、文獻來源查詢等功能。
萬方數據知識服務平臺是國內另一大主要的知識組織系統。較中國知網,萬方提供的知識服務大致有三大類:(1)知識脈絡的分析。該服務以用戶輸入的主題詞為中心,通過統計分析數據庫內論文知識節點間共現關系,以直觀可視化的方式,為用戶展示知識節點的變化過程。(2)行業知識在線服務。該服務依托萬方巨大的知識庫,參照用戶的行為特點,在科學組織、合理分類的基礎上,給用戶提供專業的行業知識。(3)專利分析。該服務建立在專利信息及情報分析與知識挖掘的基礎上,對專利信息展開多維度的統計分析,繼而實現定量化的智能分析,再將分析結果以表格等方式呈獻給用戶。
所謂“知識組織”,即進行知識的加工整理及表示控制,并將之組織化。而“知識組織系統”則是服務于知識組織的,其實質為一套特殊的術語和符號體系。知識服務系統所涵蓋的內容很多,其中分類法和主題法是其中兩種主要的方法,在兩種方法之外,延伸出如敘詞表、詞匯系統等多種方法,是當前知識系統的主流展示形式。通過知識組織系統,實現知識數據的整理分析,從而提供優質的知識服務。知識組織系統還可以細分為總中心系統與分中心系統,總中心系統包含了分中心系統,通過不同的系統可以快速獲取希望得到的各種專業知識。
就上文所述的基本概念來看,知識組織系統實現知識整理與檢索的前提在于各種語義詞匯的結構整合,所以詞匯之間的各種關聯其實是知識組織系統的關鍵所在,在進行知識結構的設計與加工時,要從語義結構及其關系角度出發,具體來說有以下四點工作內容
(1)語義結構框架設計
語義詞匯:類型,包括核心詞及基礎詞等。
定義及概念:要確保每一個核心詞至少包含一條定義。
關系:語義關系是對稱的,而屬分關系則是不對稱的。在同一類屬下,其是傳遞的。
分類映射:按照關聯的分類方法置,映射可以設定為多維度分類的方式。
性質:按照相關的知識領域及服務要求加以設定。
(2)語義關系的類型設計
語義關系:分為同義語義、近義語義及反義語義三種。
等級關系:分為類屬、整體、實例三種。
相關關系
(3)術語自動抽取技術
術語的自動抽取(自動識別)即在特定領域的文獻中抽取代表該領域核心理念的術語詞匯,術語自動抽取展開的過程如下:
第一、完成擬抽取領域的文獻整合;第二、領域文獻的語料預處理,包括分詞及詞性的標注、語料轉換等步驟;第三、從語料中篩選出候選的術語;第四、通過一定的語法規則、統計規則及通用詞表等,對候選術語再識別,得到領域相關的術語列表。
就術語自動抽取技術來說,目前主要的辦法有三種:基于規則的方法、基于統計的方法及二者(規則、統計)相結合的方法。基于規則的辦法基本利用了術語詞典和規則模板實現術語篩選,該辦法針對那些符合規則的特定術語效果較好?;诮y計的辦法利用了統計學的原理,通過術語在語料庫中的分布統計情況來實現術語的篩選,該辦法的優勢在于適應性強,但是術語篩選的準確度仍要改進。規則、統計相結合辦法首先利用語法規則篩選出候選術語,再利用統計學原理進行再次篩選,即綜合了上述兩種辦法的優點,在準確度方面表現地更為良好。
目前主流的術語自動抽取方法主要分為3 類:基于規則的方法、基于統計的方法以及統計與規則相結合的方法?;谝巹t的方法主要利用術語詞典和規則模板來進行術語抽取,這類方法對符合規則的某些特定類型的術語抽取具有良好的效果?;诮y計的方法以統計學理論為基礎,利用術語已經在語料庫中的分布統計屬性來識別術語,該方法適應性更強,實用性更好,但在術語抽取的準確率上還有待提高。統計與規則相結合的方法先是通過語法規則過濾出候選術語列表,再使用統計學方法對候選術語列表中的術語進行篩選,最終得到最后的候選術語列表,兩者相結合可以提高術語抽取的準確度。
總之,術語自動抽取的準確率及效率越高,則知識組織系統的建立就越完善、科學,對此要重視術語自動抽取技術的發展。
總而言之,知識組織系統的搭建和計算機技術、人工智能技術、檢索技術、語言處理技術等密切相關。在當前,過去的知識組織系統通過詞匯標引和元數據等形式,基本上能夠實現知識資源的檢索與獲取,但是隨著時代的發展,知識組織系統中的資源組織及語義表示等涉及知識資源分布等方面,需要得到進一步的完善。我們期待在今后的研究中,攻克這些問題,為我國學術事業發展貢獻力量。
[1]畢強.數字圖書館知識組織系統建構的發展趨勢——從機器可讀到機器可理解[J].國家圖書館學刊, 2010, 19(1):12-17.
[2]黃日昆, 陳永騰, 孫逸玲.自主創新能力的助長劑—“中國知網”《中國知識資源總庫》及其應用[J].圖書館界, 2006(1):63-67.
[3]司莉, 徐麗曉, 陳紅艷.知識組織系統在我國數字圖書館中的應用及界面研究[J].情報科學, 2007, 25(3):445-450.
[4]徐興文.我國企業社會工作研究文獻綜述——基于CNKI與萬方數據庫的文獻分析[J].企業導報, 2010(10):235-236.
[5]張運良, 梁健, 朱禮軍,等.基于術語定義的科技知識組織系統自動豐富關鍵技術研究[J].現代圖書情報技術, 2010, 26(7):66-71.