999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義網下動態知識組織模型構建研究

2019-10-26 05:23:54周義剛
圖書館理論與實踐 2019年9期
關鍵詞:語義定義

周義剛,姜 贏

(1.北京大學圖書館;2.北京師范大學珠海分校管理學院)

1 語義網下的動態知識問題

1.1 問題的描述

動態知識指的是隨時間或情境(Condition/Situation)的延續或變化,用于揭示知識內涵的特征屬性的狀態,以及這些特征屬性之間的關系都會隨之演化的知識。[1]

各個領域中都存在動態知識,如在數字圖書館古籍編目整理領域,古籍版本項是基礎q且重要的信息之一。對于中國古代雕版刻書,因書版可以長期保存,出現了書版不斷流傳及流傳過程中多次刷印的現象,在這個過程中,書版所有者經常在原有書版的基礎上進行挖改、修補或增加,形成了不同版、不同印次中包含類似于版本變化的復雜變化信息。[2]同一種書隨著時間的變化,版本和印次也會發生變化,這屬于動態知識。又如在法律領域,法律條文也是動態變化的:有些早期制定的法律經過一段時間后,已不能順應當前社會發展,需要廢止或修訂;再如,由于行政管理體制改革,法律規定的主管部門的稱謂已發生變化,導致一些法律法規需要進行修改,這也是一種動態知識。另外,在中華史籍領域,某個歷史人物在不同時期其配偶、子女、職官等屬性是變化的,這也是本文所指的動態知識。

實際上,在醫學領域、生命科學領域、數字圖書館領域、歷史研究領域等都有大量的動態知識,可以說動態知識存在于方方面面,如何有效地組織這些動態知識是當前亟待解決的一個重要課題。

1.2 本體在解決動態知識問題時的不足

本體在知識組織方面有一定的優勢,它能更準確、規范地對概念及概念間的關系進行描述,從而構造出更為豐富的語義關系。同時,本體有很強的形式化能力、知識推理能力,能夠通過推理機制推論出概念間的隱含關系,可以有效提升知識檢索中的查準率和查全率以及知識的重用和共享。但是,本體僅能解決靜態知識和相對知識的組織問題,對于動態知識和相對知識無法用描述邏輯直接描述,原因主要有兩個方面[3]:一是本體在語義網體系結構中的層次功能定位,本體層在語義網中主要是解決語義問題與知識的描述問題,而其他關于邏輯和信任的問題都交給本體層的上層來解決;二是語義網本體RDF/OWL在設計上的問題,RDF是基于主、謂、賓這樣的三元組的描述,[4]而OWL是基于RDF之上的擴展。[5]雖然數據結構簡單清晰,易于使用和理解,但卻不能勝任更為復雜的動態知識描述。

2 本體分子理論及其理論內涵

2.1 本體分子定義及其能解決的問題

本體分子是指在本體基本元素(三元組、本體實例)基礎之上,用唯一標識符標注的、根據語用或者語義劃分的、無缺失的、最小冗余的本體知識單元。本體分子是在本體基本元素和本體庫之間的一個平衡點,它使得相對粗粒度知識管理成為可能。[6]本體分子是在本體的基礎之上,結合描述邏輯、圖論等相關理論,用于解決動態知識及相對知識組織管理和控制的理論。本體分子不能脫離本體單獨存在,本體分子只是本體理論的擴展與深化。

2.2 本體分子中的抽象概念

本體分子理論是用來解決動態知識管理問題的新理論,其理論內涵正在不斷完善和發展。關于本體分子理論已經有了明確的定義、特征、形式化描述及結構分析圖,但是還缺少該理論引入的一系列用于反映本體分子基本數據結構的抽象語義概念的定義及概念間關系的描述。在本體分子中的數據結構是通過一系列的抽象概念及概念間的關系來定義,這些抽象概念包括維度(Dimension)、維度容器(Dimension Container)、本體分子的核(Core Graph)、本體分子的外圍(Outer Graph)、本體分子(Ontology Molecule)和本體分子圖(Dgraph)。概念間的關系如圖1所示。

圖1 本體分子中的基本概念的關系圖

(1)本體分子中的維度(Dimension)是在知識本質不發生變化的前提下,用來衡量知識內容隨之變化的角度。這些不同的角度分別對應于各個維度類,在維度類中可定義具體的維度,如時間維、地點維,也可以是人物維、機構維等。本體分子理論中通過維度來判斷知識的真實性,維度是描述知識成立條件的工具。只有當查詢條件中的維度存在于修飾語句的維度之內時,該條語句才為真。

(2)維度容器(Dimension Container)是由來自多個不同維度類的維度組成的。本體分子中的維度容器是管理維度的對象。維度并不直接與本體分子、本體分子的核或本體分子的外圍發生關聯,而是通過維度容器與本體分子中的其他對象發生聯系。這種設計的原因是因為通常某個動態知識成立的條件是處在一個多維環境下的,如某個事實是成立于特定的時間段和特定的地理范圍。維度容器中可能存在一個或多個維度,也可能不存在任何維度。在驗證知識的正確性時,需要逐個驗證維度容器中的維度。動態三元組是以維度容器形式描述的約束條件與三元組相結合而組成的,它是本體分子中的最小知識單元,表示的是在特定的維度容器下三元組為“真”的陳述。

(3)本體分子的核(Core Graph)是本體分子中的靜態知識部分,本體分子核中的知識存在于默認維度容器下或存在某個特殊定義的維度容器下。定義在該維度容器下的知識在任何條件、任何維度下都為真。

(4)本體分子的外圍(Outer Graph)是本體分子中的動態知識或相對知識部分。本體分子外圍中的知識成立于某個或某些特定的條件下。與本體分子的外圍關聯的維度對這個條件或多個條件進行限定。本體分子的外圍和本體分子的核之間為函數對應關系。單個本體分子的外圍只可能與某一個本體分子的核發生關聯,但一個本體分子的核可能與多個本體分子的外圍相關聯。

一個本體分子由一個本體分子的核和一個本體分子的外圍組成。圖1中本體分子的核(Core Graph)與其中一個本體分子的外圍(Outer Graph1)組成一個本體分子(Ontology Molecule 1);圖2中,還是這個本體分子的核(Core Graph)與另外一個本體分子的外圍(Outer Graph2)組成另一個新的本體分子(Ontology Molecule 2),這兩個不同的本體分子都與同一個本體分子的核相關聯,都有自己的維度容器。

圖2 本體分子中的基本概念的關系圖

實際上,一個核子可能有多個外圍,該核子和每個外圍都形成了一個本體分子,一個核子和若干個外圍組成了本體分子圖(Dgraph)。本體分子圖存在于某個特定的維度下,也擁有自己的維度容器。本體分子圖的維度取決于本體分子的外圍維度。

2.3 本體分子在解決動態知識組織時的優勢

基于本體分子的動態知識組織方案具備一些其他方案所不具備的優勢。。

(1)更準確的知識描述。本體分子技術具有更強的描述能力,能夠描述知識的不變部分即靜態知識和知識的可變部分即動態知識,從而擴展了知識描述的范圍。本體分子技術要求對語句的成立范圍進行進一步驗證,添加維度容器。在添加維度容器的過程中會對知識的正確性進行校驗,從而提高知識描述的準確性。

(2)更充分的知識揭示。本體分子不僅能夠揭示動態知識演變的結果,還可以揭示出動態知識演變的過程。

(3)更靈活高效的知識存儲。本體分子的設計在物理結構上依然遵循OWL的規范,是在OWL規范的基礎上進行擴展,這種設計使得它對于其他任何應用都是兼容的,在實際操作中,可以靈活選取適當的知識存儲方案。另外,本體分子在知識表達時,沒有引入新的類和屬性,不會產生冗余數據,可以帶來高效的存儲。

3 動態知識組織建模

3.1 整體設計思路

在語義網發展初期,研究的主要集中于對互聯網資源進行語義標注,讓人們可以更方便地找到網絡資源。科學家開發了一系列元數據描述語言用來描述網絡資源;之后,又制定了本體描述語言來進一步細化語義分析,在此基礎上還開發了各種領域本體(Ontology)。近二十年來,在各個領域已經積累了非常多的本體。雖然人們能夠按照自己的需求自由創建各自的本體,但在很多領域都有領域專家帶領他們的團隊創建領域本體庫。根據自然淘汰的法則,在絕大多數領域只有被廣泛接受的本體最終才會被留下。由于大量的元數據和本體的存在,這本身就是巨大的知識資源,“Web of Data”的思想就是這么產生的,也就是通過結構化的數據將龐大的網絡資源連在一起,從而構成人類巨大的知識寶庫。[7]這些語義網中資源的組織主要表現在以RDF為描述語言,來描述關于Web資源的元數據,以及以OWL為描述語言的各個特定領域本體,而并不十分關心知識資源本身的動態變化。

本文所關注的是語義網中的動態知識組織問題,這正是面向用戶服務的深度知識組織需要。而基于本體的知識組織模型并不能完全解決動態知識問題,因此筆者提出了一個動態知識組織模型,旨在將動態知識整序并向用戶展示知識的動態演變過程。在該模型中,知識分為靜態知識和動態知識,靜態知識的組織還是以本體為依托,而動態知識的組織則依托于本體分子,本體分子可以很好地描述知識的不變部分和可變部分,可以很好地展示動態知識的變化過程和變化結果。

3.2 本體分子動態知識組織模型

筆者設計的基于本體分子的動態知識組織模型分為知識源層、元數據層、靜態知識(本體)層、動態知識層4個層次(見圖3)。其中,動態知識層是本文關注的重點。

圖3 基于本體分子的動態知識組織模型

(1)知識源層位于四層模型的底層。知識源層包括圖形、符號、文本、XML/HTML等半結構化數據、關系數據庫/面向對象數據庫等結構化數據。在實際項目應用中需要對知識源進行處理,即根據特定領域知識源的特征,在領域專家的指導下進行元數據項的確定,并通過自然語言處理技術,完成領域知識元數據的抽取工作,為下一層做準備。當然,元數據項的設置也是建立在對特定領域知識特征的反復分析之上。

(2)元數據層位于模型的第二層,元數據是關于數據的數據,語義網中用元數據來表述網絡資源的屬性,需要定義基本的描述元素,如標題、作者、URI、日期、主題等,并給出相應的語義。元數據能較為準確地描述網絡資源,便于用戶發現所需要的資源,但無法進一步發掘該資源內所含的領域知識;另外,雖然RDF和XML相結合,建立了描述層的語法環境與格式,能夠實現網絡資源基于語義的描述,但還不能給數據賦予語義,即數據的含義和各種數據之間的聯系。[8]描述領域知識并賦之以語義正是本體層所要解決的問題。可以說,元數據層為本體層的知識組織奠定了基礎。

(3)靜態知識(本體)層位于模型的第三層,本體層用來解決領域知識的語義問題,包括知識表示和知識推理兩個部分。獲取知識后,就需要用本體描述語言來表示知識。當前,萬維網聯盟(World Wide Web Consortium,W3C)推薦的本體描述語言包括RDF、RDFS、OWL,這些語言已廣泛被接受并成為標準。利用本體可以描述領域知識,在基于本體的知識檢索系統中,可以方便地檢索到知識間的關聯關系;如果說知識表示是通過顯性的形式化描述來進行知識組織,那么知識推理就可以說是在知識表示之上尋找一種推理機制,從而挖掘出更多的隱性知識。特別是可以通過定義推理規則來發現領域蘊涵的隱性知識,光是這一點就有非常重大的意義,它能夠在現實的本體庫基礎上構建龐大的虛擬本體庫,通過本體推理規則的定義可以大大豐富知識的內涵。而且基于本體的智能推理有其實現的可行性,并非空中樓閣,具體的推理方式可以根據實際系統的需要進行配置。可選擇的推理方式有OWL推理、RDFS推理、傳遞推理、自定義規則推理、外部推理機制等。常見的具有推理功能的相關工具如Pellet、Jena、Racer、FACT等。

(4)動態知識層位于模型的頂層,動態知識是本文關注的重點,同時也是知識組織的難點。對于動態知識也有不同的理解,David Taniar等認為,動態知識發現是指分布式系統中的每一個節點在給定時刻、給定目標集中查找那些最能滿足某種特定需求的信息資源的能力。[9]這是從形態和分布上理解動態信息,而四層模型中的動態知識和靜態知識是從內容上對知識進行的分類。另外,還需弄清楚基于本體分子的動態知識層具體包含哪些內容,筆者根據本體分子的理論內涵以及具體的項目實踐,對動態知識層的內容進行了歸納,主要包括動態三元組、動態三元組標識符、本體分子所包含的抽象概念及其實例。

由圖3可知,模型的知識源層、元數據層、靜態知識層實際上是基于本體的靜態知識組織模型,該三層通過不同層面對知識進行組織,在實際的應用系統中可以同時使用,也可以根據需要有所側重,如本體層中的知識推理的部分可根據實際項目的需求,可指定強弱不同的推理規則。如果實際項目中涉及到動態知識的組織問題,則第四層即動態知識層是必不可少的。

4 動態知識組織過程

從知識源到動態知識庫,動態知識組織主要經過動態知識獲取、維度抽取、動態知識表示、動態知識存儲等過程(見圖4)。

圖4 動態知識組織過程

(1)動態知識獲取。這里的知識獲取指的是從知識源到計算機可處理的知識轉換過程,即怎樣從各種知識源和領域專家頭腦中提取知識,并采用一種恰當的知識描述方法將知識轉移到計算機中。[10]該定義同樣可以用到動態知識獲取中,動態知識獲取就是要將特定領域內未經組織的各類動態知識(顯性知識)和存在于人腦的專家技能(隱性知識)轉化為直接可復用、可檢索形式的知識。一直以來,我們主要依靠領域專家和計算機專家對話的形式來逐個挖掘出知識的動態變化。隨著本體研究的深入,出現了一些較好的半自動、自動甚至智能化的知識獲取方法。需要說明的是,這些知識獲取方法是領域獨特的,不同領域根據自身知識特征選擇適當的自然語言處理技術來獲取知識。

(2)維度抽取。動態知識的特點就是知識并不是永遠正確的,只是存在于一定的條件下。而本體分子中的維度(Dimension)是在知識本質不發生變化的前提下,用來衡量知識內容隨之變化的角度,通過維度來判斷知識的真實性,維度是描述知識成立條件的工具。如“北京大學校長是蔡元培”,這條語句并不是永遠成立。影響到這條語句成立與否的關鍵變量是時間,時間就是這條語句的維度。只有加上時間維度的限定才可以保證該語句的正確性。本體分子維度的確定過程正是動態知識和靜態知識的區分過程。如果任何維度下表達的知識三元組都是正確的,那么該三元組所表示的知識為靜態知識。關于維度抽取的方法,通常是在結合常用的維度(如地點維、人物維、時間維等)基礎上,由領域專家根據沖突語句人工確定。

(3)動態知識表示。本體分子可以方便地描述知識的可變部分和知識的不變部分。本體分子的外圍知識的表示依然遵循OWL。在實際操作中就是為靜態知識添加相應的維度,維度并不直接與本體分子、本體分子的核或本體分子的外圍發生關聯,而是通過維度容器與本體分子中的其他對象發生聯系。因此,動態知識的表示就是將動態知識以及與之相關的維度類、維度容器用OWL語言表示出來。

(4)動態知識存儲。本體分子的技術是以RDF/OWL為基礎,是RDF/OWL在動態知識描述上不足的技術擴展。本體分子有自己的基本元素,如維度、維度容器等抽象的語義概念,這些抽象的語義概念是對RDF/OWL語義和結構的擴展。本體分子與RDF/OWL的這種關系需要在選擇本體分子存儲服務器時,充分考慮到實際的技術實現方案,既要考慮到本體分子對RDF/OWL的依賴還要考慮到它對RDF/OWL的擴展,既要考慮到存儲效率還要考慮到語義缺失及語義推理問題。由于基于內存及文件的存儲方式均不適合大規模的數據存儲,筆者推薦本體分子的數據庫存儲方式。可通過Oracle關系數據存儲方式,也可以基于Allegro Graph RDFStore的圖數據庫存儲方式存儲。[11]

5 本體分子中的動態知識描述

OWL是W3C推薦標準的基于描述邏輯的本體描述語言,具有強大的機器解釋能力和表達推理能力。本體分子采用OWL來描述其定義的抽象概念(即OWL類)以及這些概念間的關聯(即OWL屬性)。

5.1 本體分子的OWL類

OWL中的所有個體(Individual)都是類owl:Thing的成員。于是,用戶自定義的所有類都是owl:Thing的子類。如果需要定義某個領域的類,只需將它們聲明為一個具名類(Named Class)即可。通常情況下,我們還需描述類成員,一般來說類成員是一個個體,而不是屬性或另一個類。要引入一個OWL實例(Instance)或者OWL個體,只需將它們聲明為某個類的成員。

為了準確地用OWL類來描述本體分子中的抽象語義概念,從而達到描述動態知識的目的,我們首先需要認真剖析這些概念特征,然后劃分出OWL類及其實例。表1是筆者為本體分子定義的OWL類及其含義。

表1 OWL類及其含義

根據以上定義,可以把地點維度類定義為“eg:LocationDimension”、把學科維度類定義為“eg:DisciplineDimension”,二者都是維度類的子類。如果要定義一個具體的維度,如一個具體的地點維度,可以用“eg:北京”表示,它是“eg:LocationDimension”的實例,表達的是“在北京”。

根據本體分子的定義,除了上表中定義的OWL類之外,還需要用一個唯一的標識符來標識本體分子,這個標識符稱之為“動態三元組ID”(以下簡稱dstatement-id)。動態三元組ID不僅可以用來唯一識別一個動態三元組,而且可以通過它來與其他三元組進行關聯,便于動態三元組的引用。這個設計類似于關系數據庫中的主鍵,主鍵的值本身沒有什么意義,但可以通過主鍵來建立主鍵所在的表與存放在其它表中的數據的關聯。實際設計中,是通過dstatement-id來建立動態三元組與本體分子圖、維度容器之間的關聯關系。由于RDF中沒有dstatement-id的知識描述方式,這也正是本體分子與RDF知識描述框架不兼容的地方。正如前文所述,本體分子與RDF/OWL是既依賴又擴展的關系。因此,在實際項目中,選擇本體分子存儲服務器時,既要考慮到本體分子對RDF/OWL的依賴還要考慮到它對RDF/OWL的擴展,既要考慮到存儲效率還要考慮到語義缺失及語義推理問題。

5.2 本體分子的OWL屬性

OWL有兩種屬性:一是對象屬性(Object Property),是指將對象相互關聯的屬性;另一個是數據類型屬性(Datatype Property),是指將對象與數據類型值相關聯的屬性。[12]一個OWL屬性可以通過指定定義域(Domain)和值域(Range)來對二元關系進行限定。

表2 OWL屬性定義

表2展示了本體分子的OWL屬性定義。由表2可知,維度容器和維度間的關聯關系是通過對象屬性“om:hasDimensions”來定義的,而本體分子圖與維度容器之間的關聯關系是通過對象屬性“om:hasDimensionContainer”來定義的。如前文所述,動態三元組與維度容器之間的關聯關系是通過dstatement-id來建立,而dstatement-id是字符串或數字,不是OWL實例,因此通過數據類型屬性來建立它們之間的關系。同樣,我們也通過數據類型屬性建立了本體分子圖和動態三元組間的關聯關系。

5.3 本體分子中抽象概念的具體描述

(1)維度容器,對應于“om:DimensionContainer”類,設計這個類是考慮到動態知識的復雜性,某個動態知識的成立條件可能是與多個維度相關,如某個知識的成立同時與時間維度和人物維度相關,具體描述如下。

(2)本體分子,對應于“om:Ontology Molecule”類。

(3)本體分子的核和本體分子的外圍的描述與“om:Dgraph”類相關,在實際操作中,在“om:Dgraph”類下定義了2個實例“om:CoreGraph”和“om:Outer-Graph”,每個子類都是多個陳述語句的集合。

(4)Dgraph,是有關本體分子的核和1個或多個本體分子的外圍的陳述的集合,在上文本體分子的屬性描述中介紹了多個屬性都與之相關,如“om:hasDstatements”定義了Dgraph與動態三元組之間的關系,有關該概念的具體描述如下。

語義網環境下存在著大量的動態知識。本文在分析了動態知識的特征及本體在解決動態知識組織問題時的不足后,闡述了本體分子理論的抽象概念及其之間的關聯;構建了本體分子動態知識組織模型,并深入分析了動態知識組織過程;最后,詳細地闡述了基于本體分子的動態知識描述方法,創建了本體分子的OWL類和屬性,對本體分子的類屬含義及關系進行了說明,同時利用所定義的本體分子類和屬性,對本體分子的相關概念及概念關系進行了描述。今后的研究工作將包括利用該模型創建動態知識庫以及通過構建動態知識檢索模型,解決動態知識提供的問題。

猜你喜歡
語義定義
永遠不要用“起點”定義自己
海峽姐妹(2020年9期)2021-01-04 01:35:44
定義“風格”
語言與語義
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
認知范疇模糊與語義模糊
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲欧美精品一中文字幕| 激情五月婷婷综合网| 国产精品原创不卡在线| 色久综合在线| 亚洲国产综合自在线另类| 国产精品香蕉在线观看不卡| 欧美在线伊人| 国产视频一二三区| 日韩欧美亚洲国产成人综合| 22sihu国产精品视频影视资讯| 国产一级α片| 国产屁屁影院| 久久婷婷色综合老司机| 精品国产一区二区三区在线观看| 综合色天天| 99久久精品免费看国产电影| 91精品久久久无码中文字幕vr| 四虎永久免费地址| 永久在线精品免费视频观看| 亚洲第一极品精品无码| 97国产在线播放| 色综合天天视频在线观看| 亚洲va欧美va国产综合下载| 免费精品一区二区h| 午夜啪啪网| 亚洲无码高清一区二区| 99在线小视频| 亚洲一本大道在线| 色婷婷成人网| 亚洲欧美精品一中文字幕| 国产午夜一级毛片| 免费在线视频a| 亚洲天堂网在线播放| aaa国产一级毛片| 日韩AV无码免费一二三区| 久久一日本道色综合久久| 日本在线亚洲| 九九线精品视频在线观看| www.日韩三级| 丰满人妻中出白浆| 亚洲人成网站日本片| 精品人妻无码区在线视频| 亚洲精品无码人妻无码| 日韩中文精品亚洲第三区| 中文字幕无码av专区久久| 久久久久青草线综合超碰| 91福利国产成人精品导航| 亚洲欧美综合精品久久成人网| 欧美第九页| 国产最新无码专区在线| 亚洲视频免费播放| AV不卡无码免费一区二区三区| 日本精品视频| 国产日韩欧美在线播放| 欧美亚洲中文精品三区| 四虎国产精品永久在线网址| 日韩精品成人网页视频在线| 日韩成人在线视频| 国产精品九九视频| 久久综合色天堂av| 国产91九色在线播放| 99999久久久久久亚洲| AV老司机AV天堂| 沈阳少妇高潮在线| 久久不卡精品| 国产成人永久免费视频| 国产成人免费观看在线视频| 一级毛片a女人刺激视频免费| 亚洲第一黄片大全| 国产欧美视频在线| 尤物午夜福利视频| 依依成人精品无v国产| 欧美在线中文字幕| 亚洲日韩在线满18点击进入| 2021国产精品自拍| 婷婷亚洲综合五月天在线| 欧美亚洲激情| 国产毛片久久国产| 九色综合伊人久久富二代| 免费视频在线2021入口| 中文字幕波多野不卡一区| 国产成人久久777777|