999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非物質文化遺產的知識圖譜構建*

2021-10-19 10:25:14范青史中超談國新
圖書館論壇 2021年10期
關鍵詞:語義模型

范青,史中超,談國新

人工智能及大數據的快速發展為非物質文化遺產(以下簡稱“非遺”)的傳承與保護提供了平臺,而如何在繁雜的數據中進行搜索,以可視化方式呈現非遺之間關聯關系是研究的熱點。知識圖譜是非遺可視化的主要應用工具,相關技術為互聯網時代的知識組織和知識關系顯示提供支撐[1]。傳統的知識圖譜在非遺領域的應用存在不足,主要表現為信息碎片化嚴重、知識耦合度不高、知識關聯性不強,限制了可視化的呈現效果。本文以RDF三元組為描述框架,闡釋區域非遺知識結構及數據關聯,為碎片化的區域非遺數據資源統一建模和存儲,實現可視化表達;并以區域非遺項目為例,對非遺知識進行識別、抽取、表示等,構建可視化知識平臺。

1 文獻綜述

知識圖譜是以圖形方式呈現知識之間關聯關系的技術[2]。2012年,谷歌首次提出知識圖譜技術,通過搜索詞條向用戶展示相關詞條或關鍵字的相互關系,以便于快速發現信息和知識[3]。目前成熟的知識圖譜應用有Freebase[4]、Wikidata[5]等。知識圖譜在非遺領域的應用較廣泛,以圍繞本體和語義關系構建的應用為主。美國國家網絡化文化遺產倡導組織專門從事非物質文化的數字建構,如語義信息架構、語義關系、關鍵字索引呈現、文化內容數字化重構[6]。歐洲數字博物館較早采用語義網技術,通過分散、異構數字文化資源間的語義關聯,將不同機構、不同元數據標準的信息資源進行統一,從知識表示、資源描述、本體構建和數據關系等方面實現非遺資源多維度可視化呈現,成為歐洲重要的文化資源平臺[7]。Vincenzo等設計戲劇文化本體模型,包含戲劇實體、數據結構、描述框架等,并利用該模型構建具有人物情感及意圖的可視化圖譜[8]。Carriero等提出利用知識圖譜RDF技術將意大利非遺資源進行編碼分類,最終以SPARQL語言查詢和檢索各項非遺之間的關聯關系[9]。這一系列應用開啟了非遺資源數字化傳播的新時代。

針對不同非遺文化分類及呈現形式,國內一般聚焦非遺數字化和語義關系研究。孫傳明運用知識表示、知識工程等技術,構建民俗舞蹈知識框架模型,為民俗舞蹈數字化保護提供借鑒[10]。上海圖書館推出的家譜知識庫、古籍循證平臺、名人手稿知識庫等數字非遺項目,以關聯數據技術和本體建構作為核心技術,實現知識可視化[11]。

梳理知識圖譜應用現狀,發現基于關聯數據的資源整合集中應用在網絡信息資源、數字圖書館等領域,呈現出從理論研究轉向應用研究的趨勢,出現了大量實踐項目[12]。非遺知識庫的建立是為了通過語義檢索,可視化呈現非遺資源之間關聯關系[13]。目前非遺數字化的建構應用豐富,主要表現在本體、語義關系、數據關聯、資源聚合等方面。

綜合國內外研究,利用語義關系建立關聯數據,使其成為本體構建的一部分,是知識圖譜研究的熱點。國內基于知識圖譜的研究集中在數字人文語義網、數據關聯構建等方面,有關非遺知識圖譜構建、搜索及可視化表達的研究不多,缺乏對非遺領域知識服務的深層理解和應用。知識圖譜構建是非遺數字資源可視化呈現的重要組成部分,不僅涉及語義知識分析、表述框架設計、知識表示方法,還包括人物關系呈現、知識推理等復雜環節。本文針對以上局限,以非遺知識圖譜構建為創新點,探索區域非遺數字資源可視化應用研究。

2 非遺知識圖譜模型構建

目前我國非遺數字化資源保護取得一系列進展,也面臨以下問題:一方面資源入庫信息零散,關聯少;另一方面非遺資源庫缺少統一建設,未實現跨平臺、跨系統應用,難以實現多源異構數據的高效檢索和可視化呈現。知識圖譜技術為解決此問題提供契機,基于知識圖譜的知識構建與檢索可以實現異構非遺數據的共享、語義檢索、自動問答與可視化呈現等智能應用。本文從非遺信息內容、類型、呈現形式等方面著手,遵循從知識建構、知識存儲、知識管理到知識應用(語義搜索)的邏輯,構建以區域分布為特征的非遺知識庫,以解決非遺數字化資源耦合度不高、關聯性不強、低響應高延時等問題,構建框架見圖1。在語義搜索方面,以RDF為描述框架,對非遺資源實體、屬性進行描述,揭示非遺語義關系,形成非遺數據關聯,便于網絡檢索和數字化傳播。

圖1 非遺知識圖譜模型構建流程

2.1 知識建構

知識建構研究可以追溯到人工智能早期由Quillian[14]和Collins等[15]提出關于網絡知識建構的方法。知識建構實際是知識圖譜表示,是指選擇一種合適的語言對圖譜進行建模,描述實體間的語義關系,以便于網絡計算機識別及計算。從知識提取的角度來講,知識建構包括實體識別、知識表示和知識抽取。

2.1.1 實體識別

實體識別是從非遺文本數據源獲取知識的重要組成部分,命名實體是一個詞或一個短語,可以在具有相同或相似的屬性中標識一個事物[16]。命名實體識別(NER)是相同或相似事物集合的過程,有深度學習和機器學習兩種方法。在非遺知識圖譜建構中,本文采取基于深度學習的NER方法,即將非遺的相關文本轉換為自然語言處理的文本序列標注內容,以方便從中提取語義信息。深度學習中常用的架構是LSTM-CRF模型,其主體結構是長短時記憶網絡與條件隨機場(CRF),架構見圖2,由嵌入層、雙向LSTM層和CRF層組成。在嵌入層中,對網絡信息進行數據預處理(即one-hot編碼),將其轉化為向量輸入嵌入層,再經過嵌入層處理得到相應信息的嵌入向量。在雙向LSTM層,有正負向量層(對應li和ri層)和信息加工ci層,li和ri層分別計算輸入對應的向量信息,ci層整合li和ri的信息并進行解碼輸出。在CRF層對輸入信息進行序列標注。

圖2 LSTM-CRF結構圖

2.1.2 知識表示

知識表示是對現實世界的一種抽象表達。一個知識表示載體應具有較強的表達能力,使計算機執行求解過程精確且高效。在計算機中,知識表示通常由符號和數值組成,以關聯圖表示實體間關系,而標量、概率等數值有助于刻畫知識更深層次的細節。在知識圖譜中,語義網絡、RDF三元組、實體關系圖均是知識表現的形式。圖模型是知識圖譜的邏輯表達方式,是人們最容易理解的一種知識表示,其基本思路是用圖中的點與邊代表數值化向量。在知識圖譜中,每一個事實都用一個三元組來表達,即頭實體(head entity),關系(relation),尾實體(tail entity),可將其定義為一個三元組(h,r,t),其中h和r分別表示頭實體和關系的向量,根據TransE模型假設,當h+r≈t,事實(h,r,t)成立,反之則不成立。基于這一思路可以推導出TransE模型損失函數,該函數用實體和關系的分布式向量表示。在函數中,對于每一個事實,三元組(h,r,t)表示頭實體、關系及尾實體對應的分布式向量,它們之間關系成立的程度可以通過平移關系來表達,其函數表達式如下:

其中,l1/l2表示l1正則或l2正則。在知識圖譜中,對應的是實體與實體間存在的關系。例如,“撒葉兒嗬傳承人是黃在秀”和“皮影戲傳承人是林世敏”,三元組分別為(撒葉兒嗬,傳承人是,黃在秀)(皮影戲,傳承人是,林世敏)。頭實體“撒葉兒嗬”和“皮影戲”的向量加上關系“傳承人是”,可能接近尾實體“黃在秀”和“林世敏”,其知識表示的模型見圖3。

圖3 非遺的TransE模型表示

在實際中,函數值越小,對正例三元組集合越有利,而對負例三元組,函數值則需盡可能大。因此,為使非遺知識的區分度更加明顯,將Hing Loss目標函數引入TransE模型,其中r是間隔參數,s是正例集合(知識庫已存在三元組),s'是負例集合(知識庫不存在三元組),使得其正負值盡可能分開:

在非遺知識圖譜知識表示的過程之中,TransE模型通過向量的運算,能實現語義特征的高效獲取以及運算,從而最終實現知識挖掘。筆者采用TransE模型以提高計算效率,將知識內容快速映射到向量圖中,其相應的算法如下:

2.1.3 知識抽取

非遺數據主要有非結構化、結構化、半結構化等類型(見圖4)。結構化數據本身就已存在數據庫中,其知識組織計算機能夠識別,抽取簡單,只需將關系數據中的知識直接映射或轉換映射為RDF數據。半結構化數據是從Web信息中抽取的網頁內容,這類數據不符合關系數據庫的存儲規則,但有標簽及語義元素標記。非遺互聯網數據豐富,半結構化信息抽取也是非遺知識獲取的重要來源。非結構化抽取是從自由文本中提取知識,包括實體、關系及事件3個模塊,抽取過程主要基于已有的標注規則和知識庫,在3種數據來源中難度最大:在數據收集、文本處理、實體抽取、關系抽取等環節都可能存在噪聲和誤差,嚴重影響知識獲取的精度;由于來源多種多樣且結構復雜,數據處理變得尤為困難。在處理非結構化數據時采用API接口技術,允許用戶根據規則抽取文本信息實體與關系,以確保非遺知識圖譜構建的準確性。實體抽取目的是從非遺文本中抽取實體信息,如項目名稱、傳承人、區域、時間、遺產類別。

圖4 知識抽取示意圖

實體抽取,一般先從文本中識別和定位實體開始,然后再將實體劃歸到預定義的類別中。例如,對于自由文本“湖北省政府于2020年公布第六批荊楚非物質文化遺產目錄”,根據規則抽取的實體分別為“湖北省政府”“2020年”“荊楚非物質文化遺產”。

關系抽取,這是指抽取兩個實體間的語義關系。在非結構化數據中,關系抽取與實體抽取密切聯系。在關系抽取中,先行找到三元組實體主體或客體,然后用句子信息填充三元組的其他部分,填充內容即是實體間關系。關系抽取是非結構化數據知識抽取的關鍵,目前基于關系抽取的方法有模板關系抽取、監督學習關系抽取等。針對非遺數據,監督學習抽取方法更為合適。基于監督學習的關系抽取是從知識庫中找出具有實體與屬性的句子,構成訓練集,通過訓練集形成分類器,面向大量分類標注數據樣本,對輸入信息進行加工,以建立關系分類。基于監督學習的關系抽取重點是訓練語料,包括語料獲取和分類器語料優化兩個步驟。早期的知識抽取方法包括基于規則的關系抽取、詞典驅動的關系抽取、本體的關系抽取[17],這些方法描述語句不強,正確率低。為提高其準確率,在關系抽取中設定關系關鍵詞。例如,在非遺領域中,“遺產地區”關系可以為“位于”“坐落”等;“遺產發源時間”的關鍵詞可能是“起源”“建立”“設立”等。因此,在知識庫中關系名稱是單一的,但在網絡資源中對應的關系語言表達是多樣的。如果在關系抽取中直接匹配,會降低關系抽取的精度,而引入關系關鍵詞可以很好解決這一問題。分類器語料優化與人工標注不同,人工標注往往會導致遺漏或錯誤,且只能用于簡單的知識圖譜關系抽取,分類器語料優化是將非遺文本已標注語料設為正例,將未標注語料設置負例,按此算法反復迭代,最終完成文本分類。在分類器模型中,條件概率是關系抽取的關鍵,其公式見下:

在式中,x是上下文,y是關鍵詞標簽,Z(x)是歸一化因子,λi是方程權重,fi(x,y)是特征方程。在關系抽取中,當x與y滿足條件時為1,不滿足時為0。

事件抽取,主要是指從自然文本中抽取用戶所關注的事件信息,并以結構化的形式呈現出來。事件抽取包括元事件抽取和主題事件抽取。元事件是指一個動作的發生或狀態的變化,涉及時間、地點、參與者等。主題事件是指某類核心事件以及與其相關的活動。例如,針對某個非遺項目,可以從非遺文本庫中得到其非遺名稱、傳承人、區域、遺產類別等信息。事件抽取能夠從非結構化文本數據中匯集相關信息,實現對實體的完整描述。表1為事件抽取實例。

表1 事件抽取實例

2.2 知識存儲

非遺資源包含大量數據,其具有關聯性和靈活性,如何將這些數據有效表示和存儲是知識圖譜應用的關鍵。以傳統文件或關系數據庫存儲的知識圖譜越來越難以應用在非遺的知識管理中。基于新型知識圖譜的圖數據庫框架、數據模型及管理模型的設計和選型是大規模數據存儲的關鍵。

2.2.1 存儲架構

在圖數據庫存儲中,非遺數據龐大,必須構建一個能對數據進行高效訪問的圖數據庫框架,以提高知識圖譜存儲效率。圖數據庫存儲與傳統的數據庫存儲存在很大區別。傳統數據庫存儲時需考慮數據的動態讀寫操作等;而知識圖譜的存儲方式以三元組為單元,三元組信息以主、謂、賓的形式存在,其數據組織具有碎片化和靈活性。因此,知識圖譜的數據存儲必然具有高度靈活性和碎片化。知識圖譜存儲涉及到圖的節點、關系和屬性等數據,要想對存儲的數據進行高效訪問,需考慮建立一個存儲代價小、訪問數據快的存儲框架。當數據規模龐大時,可采用分布式存儲以提高存儲系統的可擴展性。在分布式存儲中,各RDF數據節點分散存儲,相對獨立。因而,非遺知識圖譜有兩種存儲方式:屬性存儲和圖數據存儲。在分布式環境中,基于知識圖譜的數據結構,用屬性存儲方式管理數據之間的關系,減少自連接操作次數,執行效率高。而在圖數據存儲中,將RDF數據存儲到一個3列結構表中,對應三元組的主體、謂詞和客體3種數據。當用戶提出查詢請求時,系統會在三元組表中進行多次自連接以得到用戶搜索結果。高效的知識圖譜存儲架構包含數據層和模型層,如圖5所示。

數據層定義存儲的物理結構,是圖數據庫的最底層,決定圖數據庫存儲管理的方式,包括存儲管理及數據操作。存儲管理涉及原生態的數據及關系數據。在數據操作中,數據預處理環節剔除無效數據,以確保圖數據的精確性;此外,還包括數據導入、導出和數據修改。常用的數據層有兩種模型,分別為RDF(圖)模型和屬性圖模型。模型層主要功能是邏輯建模,提供圖數據庫的連接、編碼及接口擴展等服務,同時對外部的存儲訪問提供并行數據操作。

圖5 圖數據存儲框架

圖6 宜昌地區非遺知識圖譜RDF圖模型

2.2.2 數據存儲模型

數據模型定義圖數據庫的上層邏輯結構,其結構操作決定圖數據庫存儲、查詢的方法和效率。知識圖譜數據本質是圖數據,傳統圖數據以二元組表示,其圖結構為G=(V,E),V表示節點集,E為邊集[18]。基于知識圖譜的數據模型源于圖結構表示方法,用頂點表示實體,邊表示實體間關系[19]。在知識圖譜中,以分塊方式來存儲不同實體類型,運用特征聚類方法處理未定義實體,將其歸入相近的語義類型。圖數據庫存儲過程遵循統一語義關系以及集中存儲原則,即底層使用相同存儲結構處理不同類型數據,在語義搜索上兼容不同的數據庫查詢語言。知識圖譜的圖數據模型主要有RDF圖模型和屬性圖模型。

(1)RDF圖模型。RDF是W3C制定的在語義萬維網上計算機可以理解的標準數據模型[20]。在三元組中,節點和邊都帶有標簽,展現知識圖譜的語義關聯。RDF圖模型定義為:設U、B、L分別為有限集合的統一資源標識符(URI)、空結點及字面量,每個RDF三元組(S,P,O)∈(U∩B)×U×(U∪B∪L)是一個陳述句,其中S是主語,P是謂語,O是賓語,則(S,P,O)表示資源S的屬性P取值為O。圖6展示湖北宜昌非遺知識圖譜三元組數據的圖形式,包括長陽山歌、地花鼓、撒葉兒嗬等非遺資源。在該RDF圖模型中,橢圓表示實體,矩形表示屬性值,有向邊表示一個三元組的謂詞,如三元組(長陽山歌,遺產類別,傳統音樂)表示長陽山歌的遺產類別是傳統音樂。長陽山歌申報地區是長陽土家族自治縣,但不知道具體申報地區的信息。實際上,RDF圖模型表示的邊屬性并不清晰,因此需要利用RDF中“具體化”技術[21],即引入額外點來表示整個三元組,將原邊屬性以新的三元組表示。如圖7所示,本文引入Dec_area代表(長陽山歌,申報地區,長陽土家族自治縣),使用三元組的3個 元 素rdf:subject、rdf:predicate和rdf:object對應代表主語、謂語和賓語。這樣就形成了一個新的三元組,其集合形式為:

G=((Dec_area,rdf:subject,長陽山歌),

(Dec_area,rdf:predicate,申報地區),

(Dec_area,rdf:object,長陽土家族自治縣)).

圖7 RDF圖邊屬性表示

部分RDF/XML代碼如下:

<rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdfsyntax-ns#">

<xmlns:inc="http://hbinc.com/foaf/inc/11#">

<xmlns:inc="http://hbinc.com/foaf/inc/21#">

<rdf:Description

rdf:about="http://hbinc.com/foaf/inc/11/ChangyangFolkSong">

<inc:people>Wang Aimin</inc:people>

<inc:alias>Xialibaren</inc:alias>

<inc:sort>Traditional Music</inc:sort>

<inc:region>Changyang</inc:region>

</rdf:Description>

<rdf:Description

rdf:about="http://hbinc.com/foaf/inc/21/Changyang">

<inc:city>Yichang</inc:city>

<inc:area>"3,430"</inc:area>

</rdf:Description>

</rdf:RDF>

RDF圖模型是特殊的有向標簽圖,本文利用這些標簽圖將所有資源連接起來,形成一個大規模的非遺知識圖譜。在標簽圖中,一個三元組的謂語也可以是另一個三元組的主語或賓語,映射在這個數據標簽圖中。邊的屬性也可以做頂點,這是RDF圖表現靈活之處。

(2)屬性圖模型。屬性圖是知識圖譜另一種常用數據模型,定義為:G=(V,E,ρ,λ,σ)。其中,V表示頂點,E表示邊,且V∩E=φ;函數ρ:E→(V×V)是將邊映射到對應頂點,如ρ(E)=(V1,V2)表示頂點V1到V2存在邊E;Lab為標簽,函數λ=(V∪E)→Lab表示頂點或邊對標簽的映射,如e∈E(或v∈V)且λ(e)=l(或λ(v)=l),則邊e(或頂點v)的標簽是l;設屬性為pro,值為Val,函數σ=(E∪V)×pro→Val表示邊或頂點具有關系屬性,如e∈E(或v∈V)、ρ∈pro且σ(e,ρ)=Val(或σ(v,ρ)=Val),則邊e(或頂點v)的屬性pro是Val。與RDF相比,屬性圖對于節點屬性和邊屬性具有內在的支持。由工業界和圖數據管理領域學術界成員共同組成的關聯數據基準委員會(Linked Data Benchmark Council,LDBC)正以屬性圖為基礎對圖數據模型開展標準化工作[22],因此屬性圖在圖數據庫領域應用廣泛。

圖8 非遺屬性圖

圖8是宜昌地區部分非遺資源對應的屬性圖,從圖中可清晰看出每個頂點和邊都有一個ID(頂點:v1-v5,邊:e1-e4),且這些邊和頂點都有對應的類型標簽。在該屬性圖中,每個頂點和邊均有屬性,每一項屬性有賦值(如頂點v1:長陽山歌有3個屬性,賦值分別是:別名=“下俚巴人”,傳承人=王愛民,遺產類別=傳統音樂;邊e1:申報地區有一個屬性,為“特征=少數民族”)。因此,在沒有改變圖的整體結構下,屬性圖能更加清晰地表達非遺信息。

非遺屬性圖的集合形式如下:

函數ρ表示邊與頂點的關聯,函數λ是頂點或邊的標簽,

函數σ是基點或邊的關聯屬性,

2.2.3 非遺知識圖譜存儲管理

非遺知識圖譜數據相對傳統關系數據更具關聯性和鮮活性。在線查詢、離線分析、智能推薦、智能問答及高響應低延時是大規模知識圖譜存儲管理應用的新要求。因此,高效的知識圖譜存儲管理應做到以下兩點:其一是能高效處理隨機訪問數據,圖存儲管理性能的好壞取決于隨機訪問數據的快慢,包括在線查詢任務和離線分析任務;其二是避免圖結構索引,索引通常會消耗大量時間和空間,對超線性、復雜度高、規模大的圖數據來說,獲取圖結構化信息是不可行的,但基于高效存儲及零索引(Index-free)的圖處理不僅可行而且高效[23]。在非遺數據存儲管理中,原生態管理系統Neo4j的最大特性是無索引鄰接,即圖數據的每個頂點、邊、標簽和屬性都被分別存儲在不同文件中,每個頂點都指向鄰接頂點,這種高效的圖遍歷能節省大量查找時間。Neo4j圖數據管理系統分為3層,分別為數據層、圖模型層和圖應用層。其中,數據層使用物理存儲模型,由底向上管理數據訪問接口,負責圖數據的物理訪問和存儲;圖模型層提供圖的節點、邊及標簽等操作接口,用于直觀操作圖數據;圖應用層提供用戶查詢、關鍵詞搜索等功能。

2.3 語義搜索

智能搜索已成為互聯網時代重要的信息服務。語義搜索需處理顆粒度更精細的文本數據。原有的搜索對非結構化數據不再適用,現有的搜索算法也不能直接面向實體與關系的知識圖譜。在非遺數字化領域,語義搜索同樣具有重要的價值。如何從多源異構的數據中,根據用戶個性化信息需求,建立基于語義關系的非遺知識搜索,實現知識圖譜的個性化查詢是研究重點。在語義搜索與優化方面,也需重點研究查詢系統的設計、結果優化及展示等。語義搜索的核心思想在于呈現用戶信息多樣化需求,搜索設計應支持復雜信息需求,以精確的方式匹配用戶查詢,并對搜索結果進行排序。一般語義搜索方法有3種,分別是關鍵詞語義搜索、基于分面的語義搜索和基于表示學習的語義搜索。在非遺知識圖譜構建中,采用關鍵詞語義搜索,利用RDF圖模型,將關鍵詞轉換為結構化搜索。其步驟如下:首先,根據用戶輸入的關鍵詞對知識庫的三元組進行預處理,根據預處理映射關鍵詞索引,并在知識庫中建立與關鍵詞相關聯的邊和頂點;然后,在RDF三元組的知識庫中生成與關鍵詞搜索匹配的查詢子圖,并將子圖中的實體、關系替換成常量、變量和謂詞,生成結構化查詢;最后,通過查詢語言對RDF三元組知識庫查詢結果進行排序。在關鍵詞語義搜索中,圖的頂點距離用來衡量點的相關度,關鍵詞匹配得分是語義搜索過程中所返回的結果與關鍵詞的相符程度。非遺知識圖譜包含大量實體與關系,結構復雜,表達式多樣,而關鍵詞語義搜索使用戶無須指定精確的關鍵詞就能查到相關知識,其優點是不需要建立大規模索引,所占存儲空間小。

3 區域非遺知識圖譜的應用

3.1 非遺知識庫展示平臺

非遺知識圖譜需要多源渠道形成非遺數據知識庫,以知識抽取和融合技術進行構建[24]。其中,RDF技術將非遺數據轉換到圖數據庫中,提供鏈接、共享及查詢等操作。

(1)數據獲取。對非遺信息的組織,文本和圖片資源收集是數據獲取的第一步。非遺種類繁多,有傳統舞蹈、傳統音樂、曲藝、民間文學、手工美術等。本文以地區非物質文化遺產及中國非物質文化遺產數字博物館資源為基礎,收集地區非遺基本信息,構建區域非遺知識圖譜知識庫。信息獲取來源:一是湖北非遺申報數據,二是通過python技術提取網絡數據,然后對數據進行預處理,剔除無效數據。

(2)知識抽取。獲取非遺數據后,需對現有數據的知識和關系進行抽取,以構建非遺知識庫。知識抽取方法很多,有結構化、半結構化和非結構文本抽取。本研究對非遺領域的文本數據采用非結構化抽取,對網頁和數據庫數據采用結構化和半結構化抽取。

(3)知識存儲。對獲取的非遺知識進行加工后,本文按知識圖譜的存儲規則將其轉換成RDF三元組存入知識庫。在存儲過程中,采用分布式存儲技術和分塊管理來保證非遺知識圖譜的使用效率。

3.2 用戶語義搜索

與互聯網中的檢索不同,非遺知識圖譜是處理粒度更細的語義數據,原有算法很難應用到非結構化的實體和關聯數據中。知識圖譜查詢與檢索是通過語義模型建構來實現的,包括語言學模型和概念建模。其中,語言學模型主要涉及詞語關系建模、分類及同義詞庫,而概念模型主要是對語法元素(如主、謂、賓等)進行映射。同時,語義建模的解析過程必須是可以計算。在龐大的非遺知識庫中,語義搜索采用形式化結構,如在知識圖譜的關系庫中,采用RDF和OWL模型,RDF數據與非遺文檔形成了關聯。

知識圖譜數據模型為RDF,它是W3C推薦的用來描述網絡資源、表示語義知識的重要標準。而SPARQL則是面向RDF圖模型的結構化查詢語言,目前已被W3C列為訪問RDF的標準查詢語言和協議。SPARQL查詢的核心類似三元組模式,不同的是,SPARQL語句中主、謂、賓語均是變量。為更好顯示區域非遺知識圖譜的應用,下面以查詢宜昌地區傳統舞蹈非遺項目的SPARQL語句為例,系統探究其查詢效果。有關代碼如下(結果見圖9):

PREFIX inc:<http://hbinc.com/foaf/inc/1/>

SELECT?item?content

FROM <inc.rdf>

WHERE{

?area inc:city?city.

?item inc:area?area.

?item inc:type?ty.

Filter regex(?city,"^YiChang")

Filter regex(?ty,"^dance")

}

圖9 查詢結果

3.3 應用效果呈現

節點是知識圖譜關聯關系呈現的關鍵,在區域非遺知識圖譜中節點數據有幾十萬條,這些數據以RDF形式存儲。下面同樣以宜昌為例,敘述非遺知識圖譜的可視化呈現效果。如圖10所示,湖北宜昌地區的非遺項目非常豐富,但需要注意的是,在非遺知識圖譜中關系均為有向圖,每一個節點都有各自的屬性。

圖10 宜昌地區非遺知識圖譜

本文所構建的非遺知識圖譜以區域形式進行可視化表達,通過城市或地名檢索呈現非遺之間的關系。在相關專家和非遺保護組織的支持下,非遺知識圖譜知識庫將更加豐富和龐大。通過知識庫構建的標準化及共享,非遺領域的可視化應用更加廣泛,實用性及可操作性更強。基于非遺知識圖譜的研究,可為數字人文的應用提供了新思路,對我國非遺的可視化具有可供借鑒的價值。

4 結語

在大數據時代,知識圖譜的發展為非遺資源可視化研究提供新的方向。本文對知識圖譜的理論構建、知識建構、知識存儲等進行深入分析,指出知識建構包括實體識別,知識抽取及知識表示等3種過程。在知識的存儲管理中詳細分析數據存儲的架構、主要模型及管理方式。此外,本文以非遺知識數字化保護為契機,通過構建區域非遺知識庫平臺,運用知識圖譜相關技術展示區域內不同類型的非遺。雖然本文對知識的理論和應用研究還比較粗淺,但將知識圖譜的相關理論應用于區域非遺資源的數字化呈現是本研究的重點,以期為今后非遺數字化保護提出參考。未來的研究將進一步增加非遺的數量,以豐富非遺三元組知識庫;同時,在知識抽取的模型設計中,將深入分析比較不同抽取算法的執行效率,以提高圖計算能力。

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 最近最新中文字幕在线第一页| 亚洲高清在线播放| 亚洲成a人在线播放www| 国产精品福利一区二区久久| 国产91无毒不卡在线观看| 一级毛片中文字幕| 精品国产成人a在线观看| 天天综合网亚洲网站| 91成人精品视频| 伦伦影院精品一区| 2021精品国产自在现线看| 亚洲三级视频在线观看| 天天躁狠狠躁| 亚洲福利视频网址| 国产成人禁片在线观看| 制服丝袜无码每日更新| 大香网伊人久久综合网2020| 内射人妻无套中出无码| 亚洲综合亚洲国产尤物| 中日无码在线观看| 亚洲成人播放| 国产屁屁影院| 91九色最新地址| 色天天综合| 青青久视频| 欧美日本在线观看| 国产又爽又黄无遮挡免费观看| 亚洲熟女中文字幕男人总站| 青青操国产| 国产9191精品免费观看| 色综合久久88| 亚洲三级成人| 制服无码网站| 在线看国产精品| 五月婷婷综合网| 99精品福利视频| 久久精品国产精品一区二区| 国产免费a级片| 女同久久精品国产99国| 欧美区一区| 国产在线精品人成导航| 久久精品人人做人人爽| 伊人精品视频免费在线| 亚洲日韩日本中文在线| 国产乱子伦手机在线| 久久综合五月婷婷| 久热99这里只有精品视频6| 韩日免费小视频| 国产精品第5页| 欧美在线精品怡红院| 国产裸舞福利在线视频合集| 一区二区三区四区精品视频| 国产精品55夜色66夜色| 亚洲精品在线91| 五月天天天色| 亚洲无码高清一区| 在线观看视频99| 亚洲人成成无码网WWW| 日韩一区二区三免费高清| 日韩在线第三页| 亚洲天堂视频在线免费观看| 亚洲成a人片77777在线播放| jijzzizz老师出水喷水喷出| 精品偷拍一区二区| 日韩欧美视频第一区在线观看| 97青青青国产在线播放| 在线观看精品国产入口| 欧美三级日韩三级| 亚洲高清资源| 99久久性生片| a级毛片免费看| 国产精品观看视频免费完整版| 欧美日韩一区二区在线免费观看 | 国产成熟女人性满足视频| 全部免费毛片免费播放| 亚洲黄网在线| 美女被狂躁www在线观看| 久久久久国产一区二区| 亚洲无线国产观看| 色偷偷男人的天堂亚洲av| 国产真实乱子伦精品视手机观看| 2021精品国产自在现线看|