999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜的香山文化信息組織與檢索系統①

2017-09-15 07:19:05陳威宇羅盛亨黃嘉文吳昊馳
計算機系統應用 2017年9期
關鍵詞:文化

陳威宇,姜 贏,羅盛亨,黃嘉文,吳昊馳

(北京師范大學珠海分校 管理學院,珠海 519087)

基于知識圖譜的香山文化信息組織與檢索系統①

陳威宇,姜 贏,羅盛亨,黃嘉文,吳昊馳

(北京師范大學珠海分校 管理學院,珠海 519087)

香山文化的內涵包含多種元素,內容極其豐富,但是相關研究孤立分散主要原因在于缺乏系統性的信息組織.在概述知識圖譜信息組織應用基礎之上,提出基于知識圖譜的香山文化信息組織思路.利用骨架法構建了基于本體的香山文化知識圖譜,建立了香山文化分散研究要點之間的關聯.基于知識圖譜的香山文化檢索系統通過可視化方式展現香山文化中復雜的知識點和知識關系,勾勒出香山文化總體輪廓.基于知識圖譜的信息組織在處理領域復雜關系的分析與挖掘上有一定優勢,知識圖譜檢索系統可視化模式豐富多彩、特色鮮明.

香山文化;知識圖譜;信息組織;檢索系統

香山文化在地緣上是指包括今天的中山、珠海、澳門在內的地域文化.它在本質上集中體現了嶺南文化中粵、閩、客三大民系的文化特征,是中原文化、土著文化、西洋文化、南洋文化相互碰撞和不斷融合的產物,是相對嶺南文化而言的子文化,是嶺南文化的重要組成部分[1].2006年首發的《香山文化——歷史投影與現實鏡像》一書,率先提出了香山文化這一概念[2],社會各界尤其是學術界、新聞界對此給予廣泛關注.同年由廣東省社會科學界聯合會主辦“香山文化學術研討會”[3],86篇會議論文涉及香山文化的基本概念、本質特征、演變軌跡、歷史名人、香山文化的傳承與創新、香山文化研究的理論與方法等方面.

2006年香山文化概念提出半年即“躥紅”,但隨后迅速降溫,近幾年相關研究越來越少,猶如曇花一現.可見,香山文化“立得住”是做到了,但“推得開”有一定困難,更是沒有達到“影響大”的層次.究其原因,主要在于香山文化研究內容分散,缺乏系統性.香山文化的內涵包含多種元素,內容極其豐富,大多數學者從各自研究領域出發,針對香山文化的某一個方面進行研究[4](例如:香山民俗、香山方言、香山買辦、香山華僑、香山商業、香山文化),研究內容較為分散,難以反映香山文化全貌.因此,需要通過系統性的研究,利用信息組織技術建立分散研究要點之間的關聯,勾勒香山文化總體輪廓,歸納總結香山文化更加全面而宏觀的文化精神.

另外,研究香山文化的學者大多數是歷史、社會等人文學科領域的專家和教授,研究方法僅限于傳統文獻調查、實地調研,案例實證分析等等[5,6].本文提出發揮交叉學科的優勢,利用數學、信息科學成熟的技術(例如:數據挖掘、信息組織、知識組織、知識推理等)對香山文化進行更為量化的分析和研究,揭示香山文化現象與文化本質之間的更深層次的因果邏輯,為當今大香山經濟圈的文化發展提供借鑒.

1 國內外研究現狀

2010年初,以Google公司為代表的研究機構提出知識圖譜(Knowledge Graph)的概念與實現框架[7].知識圖譜以本體(Ontology)技術為核心[8],通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合后的的現代理論.知識譜圖特別適合于解決內容關系復雜領域的知識管理問題,在國內外醫療衛生、電子商務、生物化學、國防軍事、人文歷史等各個領域將有廣泛的應用.其中,知識圖譜在國內外歷史文化遺產保護的典型應用案例較多.例如,CultureSampo[9](芬蘭歷史知識圖譜)是芬蘭政府2010年建設的文化公共發布門戶網站,它利用本體映射技術和本體推理技術,將來自芬蘭20個博物館、圖書館、檔案館中的素材整合,建立成芬蘭歷史知識圖譜.后前總共容納了 128,714 件芬蘭文化遺產物件,包括博物館藏品、歷史照片、地圖、油畫、詩歌、古籍、民歌等,還包括276,681個歷史事件、人物、地點、時間等抽象文化概念知識.它提供基于知識圖譜的查詢服務:在文化遺產物件及抽象文化概念知識之間推薦和跳轉,查詢歷史人物之間的知識關聯,查詢用戶地理位置周邊的文化遺產物件,以時間軸為線索瀏覽芬蘭重要歷史時間及相關文化遺產物件.2012年武漢大學信息資源研究中心與中華書局合作項后“中華史籍分析系統”[10],對二十四史中的人物、時間、地點實體進行了全面標注.該系統自建知識圖譜記錄總共268491條.知識庫構建知識類122個、對象屬性32個、數據屬性28個,推理屬性15個和實例179503個,時空分析人物308個,地圖地點標注12736個.Google、Facebook等國外知名互聯網公司是知識圖譜的倡導者.Google公司已建立了5億個對象,35億個事實和關系,足以證明知識圖譜技術的可行性.隨后,國內百度、搜狗以及復旦大學GDM實驗室相繼推出了其中文知識圖譜,可見知識圖譜在中文領域應用的可行性[11].

在此背景下,本文提出以挖掘、研究、弘揚香山文化為主旨,利用現代信息組織技術手段構建香山文化知識圖譜及檢索系統,不僅僅是對歷史進行系統全面的梳理和對歷史文化遺產保護,更重要的是力求通過弘揚和傳承,對大香山經濟圈的經濟和社會發展起到促進作用.

2 基于知識圖譜的香山文化信息組織

2.1 香山文化知識圖譜的主要內容

知識圖譜的理論模型主要包含知識分類、知識點,知識屬性、知識屬性值、知識點之間關聯.領域中經常出現的詞匯,這些詞匯就是知識點.由于知識點很多,需要分門別類組織一下,知識分類可以有多層,最終形成一個樹形結構.知識點表達具體個體的概念;知識分類表達抽象分類的概念.為了更深入細致的描述知識點,可以為知識點添加知識屬性.知識屬性是描述知識點的某個方面.什么樣的知識點具有什么樣的知識屬性,是根據知識點所歸屬的知識分類來確定的.可以用知識屬性來描述某個知識點,并將某個知識屬性值賦予這個知識屬性,形成一個完整的對知識點的描述.知識屬性和知識屬性值都是用來描述知識點:知識屬性與某個知識分類關聯,可以被歸屬于該知識分類的知識點所共享重用;知識屬性值與某個知識點關聯,只能和某個知識屬性一起組合起來描述一個知識點.知識屬性和知識屬性值是對知識點的內部特征的描述,而知識關系也是用來描述知識點的,只不過它所描述的是知識點對外關系/關聯(與誰關聯以及如何關聯).知識屬性和知識關系有類似的特征:什么樣的知識點之間具有什么樣的知識關系,是根據知識點所歸屬的知識分類來確定的.知識關系所關聯的對象就是知識點.所以知識關系值,也就是“賓語”(Object)本身就是知識點.即知識關系關聯了知識點與知識點.而知識屬性可以理解為知識點,與字符串、數值等之間的關聯.

將所收集的香山文化知識點進行分類,得到14個知識分類:歷史事件、地點(行政區域)、學校、文化遺存、香山人物、組織機構、文學、藝術、時間、稱號、職務、飲食文化、香山方言、香山民俗.經過這樣的劃分,知識圖譜的架構體系以及脈絡十分清晰,從多維度出發,而且分類細膩,基本涵蓋了香山文化的所有內容.這有助于我們能更清晰地研究香山文化.具體來說,山文化知識圖譜的框架設計包括以下知識分類:

歷史事件:軍事事件、政治事件、教育事件、文化事件、社會事件、科技事件、經濟事件、自然事件.

組織機構:軍事組織、國際組織、工商機構、政府機構、文化教育機構(這個又可分為宗教組織和教育單位)、社會組織、社會群體、經濟組織(個體商店和公司企業).

香山人物:世紀偉人、鄉賢俊彥、買辦家族(唐、徐、莫、鄭四大家族)、從商人士、軍政要人、華僑華人、思想先驅、文化名家、留學人士、航空翹楚、英烈志士、香山居民.

時間按照具體的時間點和時間段添加子類,以具體的年份作為知識點.地點以行政區域進行子類劃分.藝術、文學以作品類型添加子類.學校以在讀和畢業分開.香山方言以語系的不同進行劃分.香山民俗按照習慣活動、禮節、節日以及藝術進行子類劃分.飲食文化以烹飪方式、飲食方式以及具體的美食相關進行子類劃分.

如圖1所示,香山文化的買辦文化板塊中,近代中國著名的買辦、實業家徐氏家族在中國早期工業化的過程中起到的積極作用:1872年李鴻章委派唐廷樞為總辦,徐潤、盛宣懷為會辦,改組輪船招商總局,徐潤統管財務賬后、人事大權;1877年招商總局吞并了當時輪船運輸業的老大——美國旗昌輪船,增加了碼頭和船只,擴大了經營,成為能與太古輪船公司抗衡的唯一對手,后來還不斷投資大型企業,包括投資張之洞在漢陽創辦的湖北鐵廠等企業.

圖1 香山文化知識圖譜信息組織示例圖

2.2 香山文化知識圖譜構建的基本思路

首先對香山文化資料收集與梳理:香山文化文獻資料特別是晚清到民國間香山文獻數量之宏大,內容之豐富,在廣東省名列前茅,這是大香山經濟圈最大的文化資源,是香山文化的根基,也是了解和詮釋香山文化的重要依據,只有摸清楚了香山文獻的家底,對其有了更深入更真切的了解,才能夠對香山文化的含蘊有更準確、清晰的把握和界定,為香山文化知識圖譜的構建與挖掘打下基礎.作為原始文獻資料收集的補充,利用田野考古的形式,深入基層、深入民間調研,包括中山、珠海諸多村莊,深入澳門、東莞、順德、江門等地,尋訪名人故居、名人墳墓,訪問知情人士,記錄口述史料和真情實感,收集大量第一手資料.

接下來,從收集到的香山文化資料挖掘出香山文化知識分類、知識點、知識屬性和知識屬性值,最終建立香山文化知識圖譜.香山文化的常見的詞匯需要按照這種知識模型組織起來,建立起香山文化知識圖譜.

最后,本項后香山文化知識圖譜服務平臺采取MVC模式構建了B/S應用系統.具體來說,后臺使用Jena TDB數據庫作為知識圖譜持久化的工具,利用Jena的RDF API對知識圖譜進行讀寫操作.筆者研發的中間件嵌入到Struts框架作為業務邏輯層,提供知識圖譜索、檢索、提取和推理等核心功能API.特別在檢索部分還使用Lucene對知識分類、知識點、知識屬性、知識屬性值和知識關系的LocalName進行索,能夠實現模糊檢索.系統前臺使用D3.js工具將三元組轉換成結點和邊,最終使用Javascript構建出知識圖譜檢索結果的Graph圖.

香山文化知識圖譜的構建,是知識圖譜構建人員和文化領域專家共同努力的成果.筆者邀請了中山大學的一位歷史系教授以及北京師范大學珠海分校的一位研究歷史文化的教師參與我們的香山文化知識圖譜構建.他們對整合好的香山文化知識圖譜原始資料庫進行人工篩選和補充,最終建立知識圖譜中所有知識點.在這個過程中,他們細致而專業的歷史文化理論知識使我們能夠順利地完成知識圖譜本體庫的構建.

3 香山文化知識圖譜應用系統

3.1 香山文化知識圖譜構建系統(后臺系統)

Protégé[12]軟件是斯坦福大學基于Java語言開發的本體編輯和知識獲取軟件,或者說是本體開發工具,也是基于知識的編輯器,屬于開放源代碼軟件[13].它提供了大量的知識模型與動作,可以創建并操作各種表現形式的本體.Protégé已成為后前使用最廣泛的本體論編輯器之一,是一套用于對本體知識進行描述、表達和推理的軟件.它擁有一個靈活的架構,支持插件開發,并且提供了一套 Java API供編程人員使用[14].筆者可以利用這個開源軟件,實現香山文化知識圖譜的構建.基于protégé的香山文化本體庫的構建實現如圖2所示.最終,香山文化知識圖譜構建有110個知識分類(class),其中包括4個父類(superclass)和106個子類(subclass),以及2482個知識點(individual)和67條關系屬性(property),經過統計香山文化本體已經包含了3740條本體數據記錄.

圖2 基于 Protégé的香山文化知識圖譜構建

3.2 基于知識圖譜的香山文化檢索系統(前臺系統)

在設計并構建好香山文化知識圖譜之后,筆者研發了基于知識圖譜的香山文化檢索系統,并使用了D3.js工具來實現知識圖譜的可視化效果.在研發過程中,筆者利用具名圖對香山文化知識圖譜中由RDF三元組描述的資源進行四元組拓展,為它們加入時間維度描述,即變成“---