楊勇 任鴿

摘要:維吾爾語語義本體庫在維吾爾語計算語言學研究中扮演著重要角色,在維吾爾語語義理解、詞義消歧、信息檢索等多項研究領域中發揮重要作用,本文利用了漢語各類語義知識庫和詞典,充分借鑒了其中的各類語義關系,設計了維吾爾語語義本體的構建方法,利用軟件工程知識設計了維吾爾語語義本體輔助構建系統,實踐結果表明,該系統可以有效地提高維吾爾語語義本體庫的構建效率,加快建設維吾爾語語義本體庫的建設周期。
關鍵詞:本體;維吾爾語語義;輔助構建
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2019)05-0066-02
0 引言
本體(Ontology)是對共享概念的正規、明確的表述。本體始于哲學概念,90年代初被引入人工智能后,作為一種能在語義和知識層面上描述信息系統的概念模型建模工具[1]。中文的語義本體知識庫的代表有HowNet(知網)[2,4],知網是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。知網作為一個知識系統,實副其名是一個網而不是樹,它所著力要反映的是概念的共性和個性,以及反映概念之間和概念的屬性之間的各種關系,它包含上下位關系、同義關系、反義關系、部分整體關系等16種關系,知網通過義原標注概念的含義。英語的語義本體知識庫的代表是WordNet[3,5],英文WordNet是詞匯學家米勒(Mill George A)以及他的研究小組于1985年著手構建開發的一部在線詞典數據庫系統,是基于英語的詞匯語義網絡系統,它以詞的同義詞集合表示一個基本的詞匯概念,并在這些詞匯概念間建立多種詞匯語義關系。
目前,維吾爾語語義研究領域還缺乏本體知識庫建設,究其原因是多方面的,其中一個很重要的原因就是缺乏本體輔助構建系統的支持,本文將研究維吾爾語語義本體的構建方法,并在此基礎上設計并實現維吾爾語語義本體輔助構建系統。
1 維吾爾語語義本體構建過程
第一步,利用《維吾爾語同義詞詞典》,《維吾爾語大辭典》等維吾爾語詞典獲取維吾爾語同義詞集合。
第二步,通過《維漢雙語詞典》將維吾爾語同義詞集合翻譯為漢語,在漢語的《同義詞詞林》的找到對應的分類,確定類別名稱,借鑒《同義詞詞林》的分類體系,將維吾爾語語
義本體分為12大類,94個中類、1428個小類。
上述建立的維吾爾語語義本體知識庫中詞語只有上下位關系和反義關系,可以參照HowNet添加比較常見的整體-部分關系和反義關系,具體過程如下:
第一步,遍歷維吾爾語語義本體知識庫,獲取類別名稱。
第二步,以該類別名稱作為關鍵詞搜索HowNet,獲取其整體-部分詞語和反義詞語。
第三步,在維吾爾語語義本體知識庫中標注其整體-部分詞語和反義詞語,建立相關關系。
2 需求建模
維吾爾語語義本體輔助構建系統能夠實現系統管理和分類管理兩大模塊,系統管理和分類管理均采用樹形結構實現,系統管理通過用戶管理、角色管理以及菜單管理,實現不同的用戶可以授予不同的角色,不同的角色可以授予不同的權限,從而實現不同用戶登錄后的顯示界面不同,這樣既保護了數據的安全性,又滿足了不同用戶的需求。分類管理模塊以《同義詞詞林》作為本體標注的基礎,整個標注體系由大類、中類、小類、與標題詞四級組成,共有十二個大類,包括人、物、時間與空間、抽象事物、特征、動作、心理活動、活動、現象與狀態、關聯、助語、敬語,每一詞群以一最常用詞為標題詞(例如:Aa、01、人、人民、眾人)。能夠對分類的標注數據實現數據錄入、數據修改、數據刪除、數據導出、數據存儲、數據查詢以及數據的瀏覽等功能。在標注過程中系統要充分利用《同義詞詞林》、HowNet,《維吾爾語同義詞詞典》、《維吾爾語大詞典》《維漢詞典》等外部知識庫資源,設計讀取各類資源的功能,使用者按照第2節所描述的維吾爾語語義本體構建過程,構建維吾爾語語義本體庫。下面通過用例圖描述整個系統的功能,如圖1,圖2所示。
3 概要設計
系統共分為9個模塊,整體模塊圖如圖3所示,每個模塊的具體功能如下:
(1)用戶管理模塊: 管理員登錄系統后,進入系統的主界面,可以實現對用戶信息的管理,可以瀏覽所有用戶的信息,添加新用戶的信息,修改、刪除已有用戶的信息,并能夠通過用戶名進行模糊搜索,也可以通過用戶角色進行精確搜索,還可以根據需要將用戶信息導出到excel中。(2)角色管理模塊 :管理員登錄系統后,進入系統的主界面,可以實現對角色信息的管理,可以查看所有角色信息,添加新角色,修改、刪除角色信息,對角色進行角色授權,賦予角色更多的權限或取消角色擁有的權限,并能夠根據角色名進行模糊查詢。(3)菜單管理模塊:超級管理員登錄系統后,進入系統的主界面,可以實現對菜單信息的管理,能夠瀏覽所有的菜單信息,添加菜單信息,修改、刪除菜單信息。(4)詞典管理模塊:管理員登錄系統后,可以添加、刪除各類機讀詞典,并可對詞典里的數據進行添加和修改。(5)標注管理模塊:管理員登錄系統后,可以對語義標注體系進行管理,語義標注體系來源于《同義詞詞林》的分類體系。(6)語義本體管理:管理員登錄系統后,可以完成對已標注語義本體的導入、導出操作。(7)維漢翻譯:標注人員同過維漢翻譯模塊,獲取要標注維吾爾語的漢語翻譯,便于獲取在漢語詞典中的各種關系。(8)標注單詞管理:標注人員利用語義本體標記對維吾爾語單詞進行標注同義、上下位、整體-部分等語義關系,構建語義本體庫。(9)查詢詞典:標注人員通過查詢漢語詞語在《同義詞詞林》,HowNet中各類詞語的關系,確定相應維吾爾語詞語之間的相互關系。
4 系統實現效果
系統登錄效果如圖4所示,登錄后效果如圖5所示。
5 結語
維吾爾語語義本體庫在維吾爾語計算語言學研究中扮演著重要角色,在維吾爾語語義理解、詞義消歧、信息檢索等多項研究領域中發揮重要作用,本文借鑒《同義詞詞林》的分類體系,設計了維吾爾語語義本體標注體系,針對語義本體中的各種復雜關系的擴充與確定問題,采用維漢翻譯的方式,獲取維吾爾語對應翻譯結果在HowNet中的關系來擴充維吾爾語語義本體庫,為方便研究人員更有效率的構建維吾爾語語義本體庫,設計了功能完善的維吾爾語語義本體輔助構建系統,極大的提高了標注人員的工作效率,未來可在建成的維吾爾語語義本體庫基礎上開展詞義消歧義,語義理解多多方面的研究,促進維吾爾語計算語言學的發展。
參考文獻
[1] 趙小兵,邱莉榕,趙鐵軍.多民族語言本體知識庫構建技術[J].中文信息學報,2011,25(04):71-74.
[2] 孫柳.《同義詞詞林》的改進與應用研究[D].廣西師范大學,2015.
[3] 哈斯.蒙古語名詞詞匯語義網的構建[D].內蒙古大學,2013.
[4] 知網[OL]http://www.keenage.com/[t1].
[5] WordNet[OL] http://wordnet.princeton.edu/.