劉 爽,楊 輝,李佳宜,譚楠楠
(大連民族大學 計算機科學與工程學院,遼寧 大連 116600)
中國是一個由多民族組成的國家,在漫長的歷史發展過程中,中華民族文化一直連綿不斷,生生不息,各少數民族形成了不同的文化特征和文化體系[1]。民族文化是各民族在其歷史發展過程中創造和發展起來的具有本民族特點的文化。中國的少數民族以“大雜居、小聚居、相互交錯居住”的特點分布在全國各地。55個少數民族的不同文化和特有習俗隨著地點的遷移和生活的交流彼此交融,形成了具有各民族特色的少數民族文化。但是,面對不同民族及其文化之間的聯系,如何進行梳理成為研究者們面臨的難題。
知識圖譜技術的出現為廣大研究者們提供了一套解決數據之間關聯性的方案。知識圖譜本質上是語義網絡,是一種基于圖的數據結構,由節點和邊組成。在知識圖譜里,每個節點表示現實世界中存在的“實體”,每條邊為實體與實體之間的“關系”[2]。目前,國內很多企業和高校開始構建知識圖譜,如復旦大學構建的CN-DBpedia[3]、清華大學構建的XLore[4]等。知識圖譜作為一種知識表示工具,在各行業中都有著重要的應用,未來也具有極大的發展空間和廣闊的應用前景[5]。
少數民族文化作為中國特有的文化產物,政府近年來針對這些獨具特色的少數民族文化采取一定的措施來進行保護。隨著互聯網的快速發展,很多地區開始建立自己的少數民族文化資源庫,如四川特色文化資源數據庫、西湖文化資源庫等。這些地方建立的數據資源庫在一定程度上保護了民族文化,但是這些僅停留在數據存儲方面,其數據的結構化程度相對來說還是較差。知識圖譜這一技術手段在少數民族文化資源整合的研究中并沒有得到廣泛的應用。因此,該文通過采集不同來源的非結構化、半結構化數據,對其進入深入挖掘,進而構建出少數民族文化知識圖譜。從而將少數民族文化以更加直觀、清晰的形式呈現給廣大用戶。
近年來關于文化傳播的研究非常多,與少數民族文化相關的資料收集和整理也成為學術界研究的熱門方向。但是,國內大多數學者主要是通過在中國知網和Web of science網站上收集相關方面的期刊論文,然后利用Citespace等軟件對獲取的文獻數據進行可視化分析,從而進一步探討少數民族文化領域的研究熱點以及預測廣大學者們未來可能會從事的研究方向。此類研究中所提及的知識圖譜和文中所研究的知識圖譜存在較大的差異[6]。文中所構建的少數民族文化知識圖譜是立足于少數民族現實情況,構建出的知識圖譜能夠真實地反映各民族之間的文化習俗,節日風情之間的關系。而利用Citespace等可視化軟件構建的知識圖譜主要是以文獻中的關鍵字、作者信息、所屬領域等信息來構建出相應的可視化圖譜,該知識圖譜不能清晰明了地顯示各實體之間的關系。
在少數民族文化知識圖譜研究中,余波[7]利用知識圖譜相關知識和Gephi軟件對收集的廣西文化民族文化信息資源數據進行分析和探究。其中主要對廣西的民族建筑、民族語言、民族音樂、民族習俗等內容構建了民族文化知識圖譜并對圖譜進行了詳細的分析。麻友[8]通過對社會媒體數據中與少數民族有關的主題數據進行抽取,搭建了與少數民族有關的知識圖譜。并利用該知識圖譜實現了民族輿情的分析系統。王蕾等人[9]基于知識圖譜的研究方法,對貴州少數民族文化影像資源的數據進行采集、數據分析、知識抽取等操作,構建了貴州少數民族影像知識圖譜,利用科技手段保護和傳承了貴州少數民族文化。楊媛媛[10]在整理少數民族語言文字的研究成果的基礎上,構建了中國少數民族語言文字研究領域知識圖譜,為保護民族語言做出重要貢獻。甘健侯等人[11]通過收集少數民族辭條數據進行分詞、詞性標注以及實體屬性值抽取,構建了少數民族信息資源知識圖譜。
在大數據環境下,以往用來表示少數民族文化的網絡結構圖現已無法滿足要求,而知識圖譜可以有效地解決這一問題。因此,文中采用知識圖譜技術來構建以民族為核心的少數民族文化知識圖譜,在該圖譜中以少數民族為中心節點,少數民族節日、人口數量、分布地區、風俗習慣等作為分支節點。節點之間的關系以擁有關系為主,其余節點之間的關系根據其屬性的不同設置。節點之間關系的多樣性彌補了在通用知識圖譜中含有的民族文化節點間關系單一性的缺點。
少數民族文化是中華文化的重要組成部分,是中華民族共有的精神財富。因此,弘揚、保護和傳承少數民族的優秀傳統文化有利于增強中華民族的凝聚力和生命力。知識圖譜實質上是以圖結構的形式來表達客觀世界中的實體、屬性和關系,其中圖的節點表示實體,圖中的邊則用來表示實體間的關系[15]。知識圖譜的構建方法有三種:自頂向下、自底向上和二者混合的方法[16]。自頂向下構建是指通過獲取百科類網站等結構化數據,從較高質量的數據中來獲取本體和模式信息,加入到知識庫中[17]。自底向上構建是借助技術手段先從語料庫或數據集中抽取出實體、屬性和關系,加入到知識圖譜的數據層;然后將同類型的要素進行重新歸納組織,將其抽象成概念,最后形成模式層[5,16-18]。
文中是采用二者相結合的方法來構建少數民族文化知識圖譜。由于網絡上現有的關于少數民族文化數據較為繁雜多樣,有結構化數據、半結構化數據、非結構化數據。為了更好地構建出質量較高的少數民族文化知識圖譜,文中首先通過前期調研確定所構建的少數民族文化知識圖譜數據來源,確定需要哪部分具體數據。然后通過編寫爬蟲程序、手工采集等方式從中華民族文化資源庫(http://www.k.minzunet.cn/)、民族網(http://www.minzu56.net/)、百科類網站、公開數據集等多種數據源中獲取構建少數民族文化知識圖譜所需要的數據。其中,民族類網站主要獲取非結構化數據,百科類網站是半結構化數據的來源,公開數據集是結構化數據的來源。其次,通過分析獲取的少數民族文化數據來設計概念、關系、屬性,利用Protégé本體構建工具來構建本體庫,從而完成少數民族文化知識建模。然后,根據設計好的本體庫和抓取的不同類型的數據形式進行實體、關系和屬性的抽取工作。最后,將抽取得到的實體、關系、屬性進行整合處理,并將得到的知識圖譜三元組數據存儲到圖數據庫Neo4j中,利用Neo4j圖數據庫進行可視化展示,從而完成少數民族文化知識圖譜的構建,整體構建流程如圖1所示。

圖1 少數民族文化知識圖譜構建流程
本體構建是少數民族文化知識圖譜構建過程中較為重要的一環,通過本體構建能夠將知識圖譜中包含的實體屬性及其聯系進行充分的描述。本體作為人工智能中一種知識的表現方法,是對特定領域之中某些概念及其相互之間關系的形式化表達。在本體的構建過程中,為了保證規范性,構建本體時需要按照一定的規范和標準[19]。隨著技術的發展,國內外研究機構和學者們提出了多種本體構建方法,主要有骨架法、METHONTOLOGY方法、七步法、TOVE法和IDEF5法等等[20-21]。其中以斯坦福大學開發的七步法構建領域本體最為成熟[22]。所以文中結合數據本身的特點,選用七步法來構建少數民族文化本體庫。
少數民族文化作為中國獨有的文化資源,研究者們根據自己研究內容的不同對其分類的方法也不同。構建少數民族文化本體庫時需要對概念、屬性和關系等多個方面進行考慮。對于少數民族文化來說,核心是“民族”,因此首先需要確定“民族”這一概念,與“民族”相關聯的必然是“民族地區”、“民族節日”、“民族人物”及“民族建筑”等概念信息,所以將“民族地區”、“民族節日”、“民族人物”和“民族建筑”等信息也加入到概念中。然后,根據“民族節日”和“民族人物”相關聯的情況分析后,發現與“民族節日”和“民族人物”關系較為密切的是“民族藝術”、“民族文學”,故將“民族藝術”和“民族文學”也加入到概念中。然而,在“民族藝術”中又包含“民族音樂”、“民族舞蹈”、“民族美術”、“民族戲劇”等較為重要的概念。因此,文中根據數據的分類情況對“民族藝術”進行子類劃分,劃分為“民族音樂”、“民族舞蹈”和“民族戲劇”等5個子概念。除此之外,“飲食”、“服飾”、“醫藥”、“體育”、“民族工藝”和“民族非遺”等信息也是較為重要的概念。因此,把以上信息也加入到概念中。最后,由于考慮到一些特殊情況,文中新增了一個“其他”的概念,該部分主要包含除上述提到的五個概念之外的其他概念,增加這一概念保證了本體庫的完整性和可擴展性。
綜上所述,文中將少數民族文化分為少數民族、民族節日、民族建筑、民族風俗、民族人物、民族藝術、民族工藝等16個大類,然后在民族風俗類別中細分為5個小類,分別是成長風俗、婚戀風俗、喪嫁風俗、崇敬風俗和禁忌風俗。在民族藝術中劃分5個小類,分別是民族音樂、民族舞蹈、民族器樂、民族美術和民族戲劇。在民族工藝中劃分3個小類,分別是服飾工藝、編織工藝和雕刻工藝。對于劃分的每個類別詳細分析后發現每個概念又具有不同的特征,根據不同的特征對屬性進行定義。本體庫的概念和屬性如表1所示。

表1 本體庫部分概念和屬性
在表1中的本體庫中,每個子概念所包含的實體和實體之間存在不同的語義關系,如民族和節日之間存在“擁有”的關系,人物和文學/藝術之間存在“創作”的關系等。根據前文所述的本體概念設計,確定了最終的9種本體概念間的關系,具體如表2所示。

表2 本體概念間部分關系
文中利用本體構建工具Protégé對少數民族文化進行本體構建,構建過程主要分為類的構建、對象屬性和數據屬性的構建。通過本體的構建展示少數民族文化知識及其相關關系[23],設計的本體概念如圖2所示。

圖2 少數民族文化本體模型
少數民族文化數據資源見證了中華民族從古到今的整個發展過程,其發展時間周期長,過程艱辛,所以整個少數民族文化資源數據類型較為多樣化。為了更好地采集構建少數民族文化知識圖譜所需要的數據,文中根據其數據類型的不同采取了不同的采集方式、數據處理方式。
高情度日非無事,自是高情不覺喧。海氣暗蒸蓮葉沼,山光晴逗葦花村。吟時勝概題詩板,靜處繁華付酒尊。閑伴白云收桂子,每尋流水劚桐孫。猶憑律呂傳心曲,豈慮星霜到鬢根。多少清風歸此地,十年虛打五侯門。
構建少數民族文化知識圖譜所需要的結構化數據主要是存儲在公開的數據集中,文中是通過公開數據集提供的下載鏈接進行下載。
非結構化數據是最豐富的知識來源[5]。在少數民族文化相關的網頁,民族地區旅游網站中含有大量的非結構化文本數據。文中對于利用網絡爬蟲技術獲取到的非結構化文本數據采用自然語言處理方法、基于統計機器學習、深度學習的方法來實現實體識別。
少數民族文化知識圖譜實體屬性獲取的數據來源是百科類網站中的詞條信息框(InfoBox)中的內容。InfoBox中的數據一般為半結構化數據,該部分數據具有較高的完整性和一致性[5]。圖3所示為“土家族”百科InfoBox。想要獲取信息框中的內容,首先需要分析信息框部分的網頁代碼結構,在人工分析的基礎上,手工編寫出適合抓取百科網站信息框內容的抽取表達式。

圖3 “土家族”InfoBox
當前,存儲知識圖譜最常用的非關系型數據庫是Neo4j圖數據庫,它可以將結構化數據存儲在網絡上而不是表中。Neo4j圖數據庫自帶可視化功能,通過Neo4j圖數據庫存儲知識圖譜能夠直接將知識圖譜進行可視化展示。
文中將上述經過知識抽取得到的(實體,關系,實體)和(實體,屬性,屬性值)這樣的知識圖譜三元組存儲在Neo4j圖數據庫中,其中節點表示少數民族文化中的實體,邊表示實體間的關系。Neo4j存儲的數據是通過使用Cypher語句來進行管理。因此,文中使用Cypher語句將少數民族文化數據導入到Neo4j圖數據庫。使用的部分語句如下所示:
批量導入實體(以民族為例):LOAD CSV FROM "file:/// Minzu.csv" AS line MERGE (:Minzu{id:line[0],name:line[1],name2:line[2],location:line[3],culture:line[4]});
導入實體屬性:MATCH(e: Minzu), (cc:Attribute) WHERE e.Name='%s' AND cc.Name='%s' CREATE(e)-[r:%s{relation: '%s'}]->(cc) RETURN r
利用上述Cypher語句將處理完成的數據導入Neo4j圖數據庫后形成少數民族文化知識圖譜,結果如圖4所示(以白族為例),圓圈表示實體或者實體屬性,圓圈之間連線上的文字表示兩實體間的關系。

圖4 知識圖譜展示(以白族為例)
基于上述所構建的少數民族文化知識圖譜,廣大用戶還不能便捷、快速地獲取想要的信息。因此,文中利用深度學習技術,結合構建的少數民族文化知識圖譜搭建了基于少數民族文化知識圖譜的可視化查詢系統,該系統允許用戶自助輸入問句進行查詢。可視化查詢系統在收到用戶搜索的關鍵字時,能夠準確地分析用戶想要搜索的內容并返回答案,從而幫助用戶快速、便捷、高效地獲取信息?;谏贁得褡逦幕R圖譜可視化查詢系統架構如圖5所示。

圖5 少數民族文化可視化查詢系統架構
文中所搭建的少數民族文化知識圖譜可視化查詢系統是利用Python語言、Flask框架、Echarts框架以及Cypher查詢語句實現對查詢結果的可視化展示。搭建的少數民族文化可視化查詢系統主要功能有:
(1)為想要了解少數民族文化知識的廣大用戶提供基礎信息查詢服務;
(2)可以實現遞歸查詢各個少數民族文化的實體。
少數民族文化可視化查詢系統界面如圖6所示。

圖6 景頗族可視化查詢效果展示
近年來知識圖譜逐漸受到廣大研究學者們的關注,在學術界和工業界掀起一股研究熱潮,但國內在知識圖譜構建方面的研究還處于起步階段,存在著許多問題和挑戰。
文中基于海量的少數民族文化數據以及利用知識圖譜技術構建了少數民族、民族節日、民族建筑、民族舞蹈、民族歌曲、民族人物等實體關系的復雜知識網絡,實現了民族文化與知識圖譜的碰撞,并以知識圖譜技術為核心,完成了少數民族文化可視化查詢系統平臺的搭建。所開發的少數民族文化可視化查詢系統達到了實用的水準,系統可以實現少數民族文化相關信息的查詢,能夠滿足廣大少數民族文化愛好者、研究者們的檢索需求。
該研究將為少數民族文化知識圖譜的構建提供一定的參考價值和借鑒意義,但是依然有改進的空間,未來將在以下兩個方向進行研究:
(1)目前所構建的知識圖譜不能實現數據的自動更新,未來將實現知識圖譜的動態更新;
(2)開發的可視化查詢系統功能尚未完善,未來將引入少數民族文化智能問答模塊,可以根據用戶提出的問題返回幾個置信度較高的答案供用戶選擇,這將是未來研究的重點。