999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)字圖書館本體的構建方法研究與應用

2016-04-12 00:00:00尤勝
現(xiàn)代電子技術 2016年17期

摘 要: 設計并實現(xiàn)了中文領域術語抽取系統(tǒng),提出了基于前后綴的中文領域術語抽取算法,該算法獨立于具體的領域,并且對包含常用前后綴的領域術語具有較好的抽取效果;通過對領域本體構建中關鍵技術的研究,提出了適用于不同領域的領域本體半自動構建方法;最后,數(shù)字圖書館氣候變化領域本體的成功構建驗證了基于多源數(shù)據(jù)的領域本體半自動構建方法的有效性,并且該方法可以很方便地移植到其他領域。

關鍵詞: 本體; 本體構建; 術語抽?。?關系抽取

中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)17?0112?04

0 引 言

本體是網(wǎng)絡信息組織和檢索的理想選擇,信息組織以便于信息檢索和利用為目的,本體的引入能夠促進信息組織向知識組織轉(zhuǎn)變,由于本體能夠提供領域知識的共享和重用,以這樣的方式進行信息組織,能夠更好地為人們提供信息檢索和利用服務。語義Web的發(fā)展迫切需要簡單快捷的本體構建方法。國內(nèi)外對本體理論及其技術進行了一系列研究,提出了多種本體構建方法,產(chǎn)生了多種本體構建工具和描述語言。雖然本體構建工具已經(jīng)相當成熟,但它支持的仍然是手工構建本體的方法,手工構建本體耗費大量的時間、人力和物力,難以適應時代發(fā)展的要求。因此,通過機器學習的辦法讓計算機參與到本體構建的過程中來,以縮短本體構建的周期,減少人員投入,成為語義Web的一個重大課題。

1 系統(tǒng)介紹

目前以本體為核心的語義Web技術正在為解決異構系統(tǒng)之間的互操作問題提供一種解決思想。本體的實質(zhì)就是實現(xiàn)領域知識的共享和重用,形式化和標準化的領域本體為信息系統(tǒng)之間的互操作提供了良好的工具,因此,將本體技術引入到數(shù)字圖書館,可以解決分布式網(wǎng)絡環(huán)境下的互操作問題。本體在數(shù)字圖書館中具有很大的應用空間。例如:可以創(chuàng)建跨系統(tǒng)、跨平臺之間的通信中介;可以提供元數(shù)據(jù)的映射方案;可以提高計算機支持的協(xié)同工作的能力;可以提高分布式環(huán)境下查詢請求的自動分發(fā)能力和語義理解能力;可用于數(shù)字圖書館的數(shù)據(jù)挖掘等多個方面。

2 本體半自動構建方法

將機器學習技術應用到領域術語抽取及概念關系抽取中,提出了基于多源數(shù)據(jù)的領域本體半自動構建方法,具體流程如圖1所示。

多源數(shù)據(jù)是指構建領域本體所使用的源數(shù)據(jù),包括txt文本、敘詞表、HTML文本,既有非結(jié)構化的數(shù)據(jù),也有半結(jié)構化數(shù)據(jù),而不僅僅限于某一種數(shù)據(jù)來源。

文中長度為1的領域詞稱為基本術語,復合術語也即詞組型術語,其長度大于1,通過分析領域術語,復合術語通常包括一個前綴或一個后綴。因此,領域術語通??梢员硎緸橐韵聨追N形式:

3 術語關系獲取

3.1 術語解釋抽取模塊

術語解釋抽取模塊主要用來抽取術語的詞條解釋,以及該術語在百科中的相關詞條,以此獲得需要從中抽取術語關系的所有術語的概念解釋。整個術語解釋抽取流程可描述為:

(1) 初始化候選詞表,初始候選詞表是氣候變化領域種子術語。

(2) 從候選詞表中選擇一個候選詞,下載其對應的百科網(wǎng)頁,并保存到Access數(shù)據(jù)庫。

(3) 利用SVM分類器判斷當前網(wǎng)頁是否是氣候變化領域詞匯,如果是,則抽取當前候選詞對應的百科名片數(shù)據(jù),并保存到Access數(shù)據(jù)庫;否則,不做任何操作。

(4) 抽取當前詞匯百科名片中的鏈接詞匯,并加入到候選詞表;同時抽取該詞匯在百科網(wǎng)頁中的相關詞匯,加入到候選詞表,同時保證候選詞表中的候選詞不重復。

(5) 重復步驟(2)~步驟(4),直到候選詞表為空。

術語解釋抽取模塊抽取的術語解釋保存在Access數(shù)據(jù)庫中。

3.2 抽取模板學習模塊

抽取模板學習模塊主要分析術語的百科名片解釋,通過機器學習訓練關系抽取模板。該模塊的流程框圖包含三大步驟:

抽取候選標記詞:在本文中,標記詞是在百科名片解釋中出現(xiàn)次數(shù)較多,并且比較抽象的詞;

人工篩選標記詞:候選標記詞集中并不是所有的詞都被最終選作標記詞,通過分析百科名片解釋的語言表達特點,結(jié)合候選標記詞在候選標記詞集中的頻率信息,對候選標記詞集進行了人工篩選;

生成關系抽取模板:對術語百科名片解釋進行分詞,分詞時只保留術語本身、標記詞和標點符號,其他詞用其詞性代替。

3.3 本體關系抽取模塊

本體關系抽取模塊使用關系抽取模板抽取本體中的上下位關系,實驗結(jié)果如表1所示。

通過實驗結(jié)果可以看出:基于百科的術語間關系抽取的方法的召回率比較低,準確率相對較高。經(jīng)分析可知影響召回率的因素如下:術語的百科名片中不含上位概念;關系抽取模板覆蓋不夠充分,基于百科的術語關系抽取本質(zhì)上是術語基于模板的關系抽取方法,模板集的完備性會對關系抽取效果產(chǎn)生很大的影響。

分析可知影響準確率的因素如下:分詞程序切分不準確。分詞結(jié)果的不準確使得模板無法正確匹配術語的上位概念,從而影響了關系抽取的準確率;模板錯誤匹配;術語百科名片信息本身的問題。一些術語的百科解釋中并不會包含術語的上位概念,這樣從術語的百科名片解釋中當然無法抽取其上位概念。

4 應用案例

4.1 數(shù)字圖書館氣候變化領域本體構建

為實現(xiàn)對已獲取氣候變化領域新聞的分類,方便用戶分類查找,同時完成對信息進行語義標注,本文利用基于多源數(shù)據(jù)的領域本體半自動構建方法進行構建,構建的氣候變化領域本體具有樹狀結(jié)構,最大深度是5層,與其他本體不同的是,該本體中只有上下位關系,這些關系是由人工確定的。

(1) 期刊文獻關鍵詞

通過氣候變化領域?qū)<彝扑],獲得了氣候變化領域的445篇核心期刊文獻。通過對這些文獻的來源期刊進行分析,可以初步勾畫出氣候變化所涉及到的學科領域。對這445篇文獻的關鍵詞進行搜集整理,并與第一輪中得到的關鍵詞對比,經(jīng)過去重復及刪除不相關詞語之后,將整理得到的關鍵詞添加到詞匯集中。

(2) 開放網(wǎng)絡信息

氣候變化領域相關新聞中包含了大量的氣候變化領域術語。鑒于新聞的實時性,其在一定程度上反映了當前的熱點問題,利用本文提出的基于前后綴的領域術語抽取技術,通過分析和處理大量的氣候變化領域新聞,抽取出該領域的術語,經(jīng)過去重復后將抽取出的術語添加到詞匯集中,對詞匯集進行擴充。

基于前后綴的中文領域術語抽取算法,首先分析種子術語的常用前后綴;其次對實驗語料分詞,統(tǒng)計與常用前后綴相鄰的詞的頻次信息,根據(jù)頻次信息計算前后綴與相鄰詞是否構成候選術語;然后再根據(jù)詞語在語料中出現(xiàn)的頻率擴充初始候選術語集;最后通過詞語共現(xiàn)分析過濾候選術語,得到最終的領域術語集。術語抽取系統(tǒng)的界面如圖3所示。

圖3中展示了基于前后綴的中文領域術語抽取系統(tǒng)界面,界面上方是系統(tǒng)工具欄和設置算法中閾值的設置區(qū)域,算法需要使用的閾值一共有三個,判斷出現(xiàn)在某一前綴詞后面的詞是否與該前綴構成候選術語的閾值,判斷出現(xiàn)在某一后綴詞前面的詞是否與該后綴詞構成候選術語的閾值,判斷某一候選術語是否是氣候變化領域術語的閾值。左側(cè)用來顯示抽取出的領域術語以及有關該術語的一個值,該值是每一個候選術語在算法中計算出的判定該候選術語是否是氣候變化領域術語的指標,為了便于人們觀看,已經(jīng)對該值進行降序排列展示。

4.2 本體的初始化

本體的初始化即構建初始化的領域本體,使得能夠通過對初始化的本體進行精煉和校正得到最終的領域本體。在氣候變化領域本體的構建過程中,項目開發(fā)組針對氣候變化本體的層次構建問題組織了相關專家進行研討,綜合專家意見將氣候變化領域進行結(jié)構分類,如圖4所示。

在完成對領域術語的分析整理和本體框架的初步建立后,開始進行術語與知識節(jié)點之間關系的確定,采取的主要方法是根據(jù)專家領域知識,把術語掛接到所建立的氣候變化領域知識樹的葉節(jié)點之下。對構建的氣候變化領域本體知識樹進行掛接,采用由根到葉的分類方法。

4.3 本體的精煉與確認

領域?qū)<沂褂帽疚闹虚_發(fā)的本體編輯器,可以很方便地完成本體的校正。系統(tǒng)啟動時,就會將已有的本體知識樹和待掛接的候選術語載入到系統(tǒng)中,同時候選術語解釋區(qū)域能夠為本體編輯器的使用者提供一定的幫助。氣候變化領域本體的成功構建驗證了基于多源數(shù)據(jù)的領域本體半自動構建方法的有效性。最終構建的氣候變化領域本體具有樹狀層次結(jié)構,最大深度為5層,共包括233個分類節(jié)點和932個領域術語。氣候變化領域本體已經(jīng)應用到“應對氣候變化科技成果集成與服務平臺建設”中,用于新聞定制和新聞閱讀器。

隨著全球性氣候變化問題的日益嚴重,將會有更多的人、數(shù)據(jù)庫和信息系統(tǒng)涉及本領域的電子圖書館知識管理系統(tǒng)。領域本體的核心價值是知識共享,為該領域提供一個統(tǒng)一框架或規(guī)范模型,減少概念和術語上的歧義,使來自不同背景、持不同觀點和目的的人員之間的交互和理解成為可能,在人和其他Agent之間對信息結(jié)構達成共同認識,方便人機對話和信息系統(tǒng)之間的互操作。

5 結(jié) 論

本文探討了領域本體的構建方法,提出了基于前后綴的中文領域術語抽取算法,在抽取包含前后綴的領域術語方面具有良好的抽取效果,并且基于該算法實現(xiàn)了一個中文領域術語抽取系統(tǒng)。同時,提出的基于百科的術語關系獲取方法,充分利用了術語的百科名片解釋,能夠有效地抽取出術語間的關系,實現(xiàn)了上下位關系的抽取。然后,通過使用基于多源數(shù)據(jù)的領域本體半自動構建方法,使計算機參與到本體構建的過程中來,提高了本體開發(fā)的效率。

參考文獻

[1] 古小東,夏斌.我國推行合同能源管理的問題與對策研究[J].企業(yè)經(jīng)濟,2013(3):149?152.

[2] 李恒杰,李軍權,李明.領域本體建模方法研究[J].計算機工程與設計,2008,29(2):381?384.

[3] CIMIANO P, LKER J V O. Text2Onto [C]// Proceedings of 2005 10th International Conference on Applications of Natural Language to Information Systems. Alicante: IEEE, 2005: 227?238.

[4] 胡金強,冀亞林,孟妍,等.基于Protege的裝備保障知識本體構建方法[J].現(xiàn)代電子技術,2010,33(6):207?210.

[5] NAVIGLI R, VELARDI P. Learning domain ontologies from document warehouses and dedicated web sites [J]. Computational linguistics, 2004, 30(2): 151?179.

[6] 季培培,鄢小燕,岑詠華.面向領域中文文本信息處理的術語識別與抽取研究綜述[J].圖書情報工作,2010,54(16):124?129.

[7] 周浪,張亮,馮沖,等.基于詞頻分布變化統(tǒng)計的術語抽取方法[J].計算機科學,2009,36(5):177?180.

[8] 賈秀玲,文敦偉.一種本體學習中分類關系提取方法的研究[J].計算機技術與發(fā)展,2007(10):31?33.

[9] 袁小艷,唐青松,賀建英.高校知識本體的構建及應用研究[J].現(xiàn)代電子技術,2014,37(16):58?61.

主站蜘蛛池模板: 无码电影在线观看| 996免费视频国产在线播放| 毛片在线播放网址| P尤物久久99国产综合精品| 女人av社区男人的天堂| 亚洲av成人无码网站在线观看| 国产无码在线调教| 成人国产一区二区三区| 国产中文一区二区苍井空| 999精品色在线观看| 97亚洲色综久久精品| 色综合成人| 日本不卡在线| 亚洲成A人V欧美综合天堂| 亚洲国产精品人久久电影| 国产无人区一区二区三区| 欧美午夜久久| 国产精品成人免费综合| 多人乱p欧美在线观看| 尤物精品国产福利网站| 人妻丰满熟妇αv无码| 18禁黄无遮挡网站| 亚洲制服中文字幕一区二区| 国产91麻豆免费观看| 国产精品19p| 欧美成人国产| 色偷偷一区二区三区| 国产成人福利在线| 婷婷丁香色| 亚洲欧美综合另类图片小说区| 亚洲高清日韩heyzo| 九九九九热精品视频| 亚洲人在线| 亚洲视频四区| 她的性爱视频| 色久综合在线| 欧美亚洲欧美区| 亚洲成人手机在线| 手机在线国产精品| 色屁屁一区二区三区视频国产| 毛片在线看网站| 国产美女丝袜高潮| 大香伊人久久| 欧美a在线视频| 综合色天天| 国产乱视频网站| 国产欧美日韩18| 日韩性网站| 日韩AV手机在线观看蜜芽| 性视频久久| 午夜色综合| 亚洲国产天堂在线观看| 91激情视频| 国产亚洲欧美在线中文bt天堂| 91香蕉国产亚洲一二三区 | 亚洲日韩国产精品综合在线观看| 午夜国产大片免费观看| 91网在线| 国产一级毛片网站| 国产00高中生在线播放| 99视频精品全国免费品| 91免费在线看| 欧美.成人.综合在线| 手机精品视频在线观看免费| 在线观看无码av五月花| 婷婷六月激情综合一区| a级免费视频| 欧美在线黄| 91视频青青草| 91丝袜乱伦| 国产91线观看| 国产精品三级专区| 92精品国产自产在线观看| 黄色福利在线| 又污又黄又无遮挡网站| 国产精品永久久久久| 欧美自慰一级看片免费| 日韩精品久久无码中文字幕色欲| 久久综合丝袜日本网| 亚洲精品大秀视频| 九九视频免费在线观看| 国产经典在线观看一区|