任志遠

摘要:針對版權知識的結構并考慮到版權本體需要不斷迭代更新,在充分分析版權知識結構的基礎上融合現有本體構建技術,通過提取中華人民共和國國家版權局和中國裁判文書網數據,提出適合版權知識本體的自動構建方法。
關鍵詞:本體;版權;知識庫
DOIDOI:10.11907/rjdk.162585
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2017)006-0142-03
0 引言
隨著社會發展,版權知識變得越來越重要。但是版權知識比較復雜瑣碎,人們查找學習版權知識時比較困難。目前,大部分知識庫都只是基于字符串檢索,檢索結果準確性差,知識獲取效率低。本體作為語義網的重要組成部分,可以極大提高檢索效率。本文旨在探討版權知識本體的構建方法,最大程度減少構建版權知識本體的難度。
1 本體構建方法簡述
由于領域知識在構建本體時有特定需求,比較成熟的方法有七步法、METHONTOLOGY法,另外還有骨架法、五步獲取法、循環獲取法。各方法的優缺點及用途比較如表1所示。
1.1 METHONTOLOGY法
METHONTOLOGY法是專門用于構建化學本體的方法,該方法支持本體層次構建,但是該方法無法進行更新迭代。該方法主要應用于化學領域,流程如圖1所示。
1.2 七步法
七步法是由斯坦福大學提出的一種實用的本體開發方式,但是該方法沒法評價過程,無法迭代更新,該方法適用于醫學本體構建,開發流程如圖2所示。
1.3 五步循環法
五步循環法主要用于語義網本體構建,該方法有評價環節,構建的本體可以迭代更新,但是該方法操作性差,難度大,因此適用范圍不廣。
2 版權知識本體構建
本文融合以上方法的優點提出新的適合版權知識本體構建方法,將版權本體的構建分成兩方面,其中法律采用手動構建本體,而案例等采用自動構建。最后添加評價步驟,使得整個流程不斷地迭代更新。在本體構建過程中,數據來源于中華人民共和國版權局和中國裁判文書網。
2.1 改進的本體構建方法
對于法律案例來說,一般裁判文書結構明確,適合自動構建。從樣例中可以看出案例文書的結構非常直接,案例涉及的人物等信息很容易被準確提取出來。首先,本體構建分成兩個主要方面,一方面是法律,因為法律的嚴謹性以及版權法字數較少,可以人工構建,中國裁判文書網涉及版權相關的數據條件大約有3萬個。在已提出方法的基礎上改進流程,使得符合版權知識的結構特點。流程為:①整理版權概念詳細術語;②根據知識內容主要分為兩個具有代表性的類型,法律和案例;③對于法律來說首先將概念之間的關系整理出來,構建概念模型;④使用OWL本體描述語言將第三步生成的結構化文檔形式化表達;⑤評價法律本體;⑥對于案例,在本體模板的基礎上,自動提取案例的概念以及屬性;⑦檢查案例本體是否具有邏輯錯誤。圖3為版權本體的構建流程。
2.2 版權法律本體構建
法律本體是版權知識本體的重要組成部分。法律本體構建依據《中華人民共和國著作權法》、《計算機軟件保護條例》等相關法律。法律本體包括著作權相關概念、權利、處罰等內容。
2.2.1 復用本體
目前已經有LKIF、FOLaw兩個比較優秀的法律本體模型。LKIF 基于LRI-Core但是減少了對子類的約束。LKIF包含200多個概念,但是LKIF提出的概念太抽象。而FOLaw更像是一個認知框架,兩者對于著作權相關法律本體的構建更多的是借鑒意義,復用意義不大。
2.2.2 版權知識概念關系抽取
根據領域知識界定,版權知識本體主要有9個類、55個子類、466個概念。這幾個類通過概念關系互相構成一個網狀的概念圖,如作品、人物、權利等,如圖4所示。根據概念關系圖分類手動提取法律法規文本中的概念。
2.2.3 創建實例
構建本體框架以及提取概念及關系后,實例化本體的方法分為手動構建和自動構建。具體如下:①手動導入,可以通過本體構建工具Protégé手動構建本體。在Protégé的Individual by class選項卡中手動輸入概念以及關系;②自動導入,通過提取概念關系后,版權法律法規中的概念以及概念之間的關系已經成為結構化數據。然后通過Jena語義網工具讀取本體概念,添加本體的實例及屬性的方式將概念或屬性添加到本體文件中,實現本體自動擴充。
2.3 案例知識本體構建
案例裁定書一般由五部分組成:首部、事實、理由、判決結果、尾部。首部主要說明相關涉案人,事實包括公司再審審稱和法院再審復查查明等,理由是判決依據,尾部是判決結果。
2.3.1 案例知識結構
根據需求,首先構建案例的概念之間關系以及概念跟屬性之間的關系。圖5為案例中的概念層次。
2.3.2 概念提取
(1) 結構化數據提取。建立概念之間的關系以及屬性之間的關系,需要提取概念來實例化本體,而且文書格式比較嚴格,所以根據正則匹配就可以提取出大部分概念。首先將文書按照格式規范分成5部分,根據開頭詞語確定該段落歸屬于哪一類。根據規范提取部分相關詞如表2所示。
(2)非結構化數據提取。提取非結構化數據首先需要對文本進行分詞,這一步使用開源框架IKAnalyzer分詞工具進行分詞、標注。在分詞過程中使用版權術語表制作字典提高分詞準確率,通過分詞標注后,通過n-gram算法提取出其中的概念,將概念通過Jena語義網工具添加到本體中。
3 結語
由于本體在知識工程以及人工智能知識表示方面的優勢,使得本體一直是語義網的重點研究方向。然而,本體的構建尚沒有成熟的標準體系。由于國內也尚無標準評價體系和工具,本文沒有討論本體的評價問題。目前本體質量只能通過領域專家進行人工評定。本文主要討論了版權知識的基本結構,分析構建本體的基本過程,為本體自動構建作準備。下一步主要研究將機器學習整合到本體構建的過程中,通過監督學習使得本體構建自動化。
參考文獻:
[1]賈焰,王永恒,楊樹強.基于本體論的文本挖掘技術綜述[J].計算機應用,2006,26(9):2013-2015.
[2]曹燦.基于本體的軟件工程課程知識庫研究和應用[D].北京:北京林業大學,2010.
[3]有關著作權(copyright)的一些詞匯(中英文對照)[EB/OL].http://blog.sina.com.cn/s/blog_4d53c365010188w7.html.
[5]郭沖,王振宇.面向細粒度意見挖掘的情感本體樹及自動構建[J].中文信息學報,2013,27(5):75-92.
[6]巫建偉,陳崇成,葉曉燕,等.基于Jena的土地適宜性評價本體知識庫構建研究[J].計算機工程與設計,2014,35(1):287-292.
[7]李景.主要本體構建工具比較研究[J].情報理論與實踐,2014,29(2):109-111.
[8]田宏,馬朋云.基于Jena的城市交通領域本體推理和查詢方法[J].計算機應用與軟件,2011,28(8):56-63.
[9]李景.本體理論及在農業文獻檢索系統中的應用研究——以花卉學本體建模為例[D].北京:中國科學院研究生院,2004.
[9]尚新麗.國外本體構建方法比較分析[J].圖書情報工作,2012,56(4):116-119.
(責任編輯:陳福時)