999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于word2vec的數字圖書館本體構建技術研究

2016-04-12 00:00:00閉炳華
現代電子技術 2016年15期

摘 要: 針對傳統本體構建既費時又費力等問題,設計了一種基于Web的領域本體半自動構建方法,提出了基于word2vec的領域本體概念抽取算法,采用基于中英文詞典的方法抽取同義關系,研究了基于特征向量的上下位關系抽取算法。最后將基于Web的領域本體半自動構建方法應用于數字圖書館氣候變化領域,實踐表明,該方法大大縮短了本體構建的周期,減少了人工參與。

關鍵詞: 本體構建; 領域本體; 概念抽取; 關系抽取; 數字圖書館現狀

中圖分類號: TN911?34; G250.76 文獻標識碼: A 文章編號: 1004?373X(2016)15?0090?05

Abstract: To improve the time?consuming and strenuous situations existing in the traditional ontology construction, a domain ontology semi?automatic construction method based on Web was designed, and the domain ontology concept extraction algorithm based on word2vec is put forward. In this paper, the method based on Chinese?English dictionary is used to extract the synonymous relation, and the hyponymy extraction algorithm based on feature vector is studied. The domain ontology semi?automatic construction method based on Web was applied to the climate change field of the digital library. The practice results show that the method can shorten the ontology construction period greatly, and reduce the manpower participation.

Keywords: ontology construction; domain ontology; concept extraction; relationship extraction; digital library situation

0 引 言

本體構建是本體應用的基礎,隨著本體的理論研究逐步深入和在工程實踐中的廣泛應用,形成了許多的構建方法和構建工具。但本體的構建過程仍需要通過人工的參與,人們憑借一定專業領域知識,依據自己的知識和理解主觀地判斷概念之間的關系。這種依靠人的經驗和知識積累的本體構建方式非常費時費力,成為領域本體發展的一個瓶頸。因此,為了減輕人工工作量,縮短本體構建的周期,人們期望可以自動半自動地構建本體,提高本體構建的效率和自動化程度,于是本體學習的概念就被提了出來。

本文對領域概念的抽取和領域概念間關系的抽取等關鍵技術進行了深入研究;采用了基于word2vec的領域本體概念自動抽取算法,并采用迭代算法,擴充領域概念的候選詞集;同時,對領域概念間關系自動抽取的方法也進行了一定研究;最后,將基于Web的領域本體半自動構建方法應用于氣候變化領域構建氣候變化領域本體。

1 基于Web的領域本體半自動構建方法

本文基于本體學習技術,設計了一種基于Web的領域本體半自動構建方法,該方法包括領域信息采集、領域詞典構建、本體學習、本體編輯和本體評價五大模塊。其中,本體學習模塊是構建領域本體的重點和難點,該模塊主要采用機器學習技術、自然語言處理技術,結合語言學、統計學等知識,從大量領域數據中自動地抽取領域概念和概念間的關系。基于Web的領域本體半自動構建方法框圖,如圖1所示。

2 基于word2vec的領域本體概念抽取

領域概念獲取是構建領域本體的基礎工作,領域概念自動抽取是指從一定規模的自由文本中抽取出能夠反映某一特定領域特征或共性的詞匯。本文在研究相關算法的基礎上,采用了一種基于word2vec的領域本體概念抽取算法。該算法如圖2所示,共包含三部分:中文分詞、領域概念候選詞抽取、領域概念候選詞評價。

領域詞典的構建是概念抽取的基礎,在中文分詞環節,領域詞典為其提供領域詞匯,將領域詞典添加到原有的分詞詞典中,使更多的領域詞匯可以被識別出來。在領域概念候選詞抽取和評價環節,領域詞典為其提供領域的種子概念,用于對候選詞進行抽取和評價。

在中文分詞環節,增加了新詞發現模塊。本文采用的是中科院計算所的ICTCLAS分詞工具對中文原始語料進行分詞,本文在中文分詞環節增加了新詞發現模塊,將發現的新詞詞典和構建的領域詞典都添加到了原有的分詞詞典中,從而組成了新的分詞詞典。

在領域概念候選詞抽取環節,本文引入了深度學習的思想,它通過構建具有多隱層的機器學習模型從海量訓練數據中學習更有用的特征,本文利用word2vec工具學習Web領域語料,訓練詞向量模型,通過計算向量間的相似度,得到兩個詞之間的相似度,由此將領域種子概念的相關詞匯作為領域概念候選詞。

領域概念候選詞評價環節是指從領域概念候選詞中篩選詞匯作為領域概念,本文采用基于雙序列比對的中文術語語義相似度計算方法計算這些候選詞與種子概念的相似度,將與種子概念語義相似度高的候選詞作為領域概念。

2.1 中文分詞

中文分詞與詞之間有明顯分隔,因此分詞是對中文進行自然語言處理的首要步驟,分詞的好壞直接影響概念抽取的效果。分詞結果的好壞取決于所采用的分詞工具和分詞方法。目前,分詞詞典中的大多數詞條是通用領域的,對領域專業詞匯的識別率較低,因此構建領域詞典,并將領域詞典添加到分詞詞典中是很有必要的。由此,本文在中文分詞中加入新詞發現模塊,采用大規模語料新詞發現技術,將得到新詞詞典和領域詞典中的詞匯加入到原有的詞典中,構成新的分詞詞典。然后對原始的領域語料進行分詞,得到分詞后的領域語料為概念抽取做準備。

(1) 新詞發現

要從海量文本中發現新詞,通常考慮三個因素:字符串在文本中出現的頻率、字符串的內部聚集程度和邊界劃分能力。本文采用基于大規模語料的新詞發現技術,并分別用互信息和信息熵衡量一個字符串的內部聚集程度和邊界劃分能力。給出判斷該字符串能否作為一個新詞的評價指標,公式如下所示:

[Walue=log(Mi+1)?log(min(leEntropy,riEntropy)+1)]

式中:Mi代表字符串的互信息;le_Entropy代表字符串左鄰字集的信息熵;ri_Entropy代表字符串右臨字集的信息熵。

(2) New分詞詞典

本文采用中國科學院計算技術研究所研制的漢語詞法分析系統ICTCLAS分詞工具,將領域詞典、新詞發現得到的新詞詞典和原有的分詞詞典組成新(New)分詞詞典,利用New分詞詞典對語料庫進行分詞。

2.2 領域概念候選詞抽取

采用基于word2vec的領域概念候選詞抽取算法。word2vec是一個把詞轉變為向量的工具,可以通過兩個向量之間的余弦值得到兩個詞的相似度。本文將與種子概念具有一定相似度的詞匯作為領域概念候選詞,具體步驟如圖3所示。利用word2vec工具對分詞后的原始語料進行訓練得到詞向量模型,將種子概念對輸入詞表進行初始化,利用該模型計算與輸入詞表具有一定相似度的詞匯作為領域概念候選詞。要擴大候選詞數量,采取迭代的算法,將輸入詞表作為迭代變量,將輸出詞表與輸入詞表的差集作為輸入變量,再次調用詞向量模型抽取候選詞,直至符合迭代結束條件停止。

使用word2vec工具訓練詞向量模型步驟如下:

(1) 將文本語料進行分詞,并以空格或Tab隔開。

(2) 將分好詞的訓練語料進行訓練,假定語料名稱為test.txt且放入word2vec目錄中。

(3) 訓練好模型之后,得到詞向量模型文件vectors.bin。

得到詞向量模型后,便可以通過計算兩個向量的余弦值來計算兩個詞的相似度。本文提出利用word2vec工具訓練得到的詞向量模型抽取種子領域概念的相關詞匯,將相似度大于某一閾值的相關詞作為領域概念的候選詞。要擴充候選詞集,設計迭代算法,將得到的輸出詞表與輸入詞表的差集作為輸入,再運行程序得到更多領域概念候選詞。算法流程如下:

(1) 程序初始化,將從領域詞典中選取的種子概念對輸入詞表進行初始化;

(2) 調用word2vec的詞向量模型抽取輸入詞表中概念的相關詞匯,并將這些相關詞匯作為領域概念候選詞;

(3) 將抽取得到的候選詞集合作為輸出詞表輸出;

(4) 根據結束條件判定程序是否結束,如果不符合結束條件,則計算輸出詞表與輸入詞表的差集[S,]將[S]作為輸入詞表,轉步驟(2),符合結束條件,程序結束。

該算法采用迭代算法以期獲取更多的領域概念候選詞,從而擴充候選詞集。由上述算法流程可見,該算法中的迭代變量為輸入詞表,輸入詞表經過word2vec訓練的詞向量模型得到一個輸出詞表,然后將輸出詞表與輸入詞表的差集賦值給輸入詞表,再次進行抽取,這就是迭代過程。迭代算法中迭代結束條件可以是程序循環次數、輸出詞表與輸入詞表差集中元素的個數小于某個閾值和抽取概念的個數達到一定的數量等幾種情況,具體的結束條件可根據需求的本體規模來確定。

2.3 領域概念候選詞評價

采用迭代算法可抽取出大量的領域概念候選詞,然而本體的概念應是精煉的,本體的規模也是確定的,應對這些基于word2vec得到的領域概念候選詞進行過濾,進一步提取領域概念。本文以種子概念為基準,計算概念候選詞與種子概念的語義相似度,認為候選詞與種子概念在語義上越相近,該候選詞與領域越相關,本文將語義相關度高的詞語作為抽取的領域概念,具體流程如圖4所示。

采取基于雙序列對比的中文術語語義相似度計算方法進行語義相似度計算,該方法有效地利用《同義詞詞林2》對詞語進行有效的語義相似度計算,并且對組合詞語之間的相似度也進行了深入研究,效果較好。

3 領域本體概念關系抽取

本體概念之間的關系主要包括同義關系、上下位關系、整體?部分關系等。其中,同義關系和上下位關系是基本的語義關系,構成了本體的基礎框架。

3.1 同義關系抽取

本文利用中英文詞典抽取概念間的同義關系。假設概念C1翻譯得到的英文單詞或短語有[{w1,w2,…,wn},]概念C2翻譯得到的為[{w′1,w′2,…,w′m},]如果兩個集合有交集,即兩個概念有相同的英文解釋,就認為這兩個概念具有同義關系。將一個概念與其相關概念組成的概念對集合作為關系解空間,從解空間中抽取同義關系。為了抽取更多的同義關系,需要擴大關系解空間。

3.2 上下位關系抽取

本文提出了一種基于概念對的語義特征和語境特征的特征向量來抽取具有上下位關系的概念對,從概念對的構詞、共現、特征詞出現數量、概念對在句中位置的距離出發,構建概念對上下位關系的特征向量,并使用支持向量機(SVM)進行訓練和預測,從而實現本體上下位關系的抽取。具體算法實現如下:

步驟1:初始化所有的概念對和特征詞;

步驟2:判斷一個待計算特征向量的概念對是否符合擴展的包含原理,是則該概念對的特征向量[T]為(1,0,0,0),否則該概念對的[T1]值標記為0,進行步驟3;

步驟3:利用百度搜索引擎,對概念對進行查詢,保存查詢結果的前10條,計算該概念對的特征向量[T;]

步驟4:判斷是否所有的概念對處理完畢,否,則轉步驟2,是則形成特征集[W(T);]

步驟5:調用LIBSVM工具,將[W(T)]導入到訓練集中;

步驟6:設置SVM訓練參數,分別選用4種核函數進行實驗,選取分類效果最好的核函數;

步驟7:運行程序,從概念與其相關的概念組成的概念對中抽取上下位關系。

4 數字圖書館氣候變化領域本體半自動化構建

本文采用氣候變化領域主題網絡爬蟲方法從Web上采集與氣候變化領域有關的數據,共采集了1.5 GB的Web領域數據,數據的來源主要有2個。其中,基于開放搜索引擎搜索和氣候變化權威的領域內新聞共有198 104篇,數據1.04 GB,百度百科領域內數據105 660篇,數據556 MB。本文利用這些從Web上采集的領域數據作為初始學習語料,從中自動的抽取氣候變化領域本體概念和概念之間的關系,形成初始本體,最后利用本體編輯器,由領域專家人工對初始領域本體進行審核和編輯,以得到更為完善的知識體系和更為精準的本體描述。

4.1 基于word2vec的領域概念抽取實驗

(1) 中文分詞

采用中科院計算所的ICTCLAS分詞工具對原始語料進行分詞,在分詞前,首先對原始語料進行新詞發現,再將新詞發現的結果和構建的領域詞典中的詞添加到原有分詞詞典中,形成新的分詞詞典。

實驗中采用基于互信息和信息熵的新詞發現技術從采集的氣候變化領域語料中發現新詞,本文只抽取5個字和5個字以下的詞語,實驗過程中,首先對字符串進行頻率過濾,設定頻率閾值,如果大于該閾值,則再進行信息熵過濾,否則,直接將其排除。由于目前還沒有統一的設定閾值的標準,本文中的閾值都是經過反復試驗,選取使效果較佳的閾值。實驗發現新詞情況如表1所示。

利用原有分詞詞典和在原有分詞詞典的基礎上加入新詞詞典和領域詞典后,對語料進行分詞的結果進行對比,其結果證明采用新的分詞詞典進行分詞,分詞的準確率大大地提高了。

(2) 領域概念候選詞抽取

首先對采集的氣候變化領域語料利用原有的分詞詞典進行分詞,利用word2vec工具對該分詞文件進行訓練,得到詞向量模型文件vectors.bin。采用構建的領域詞典作為初始輸入詞典,通過調用詞向量模型文件vectors.bin,計算與種子概念距離近的詞匯,得到領域概念的候選詞。

(3) 領域概念候選詞評價

采用雙序列比對的中文術語相似度計算方法,將獲得的11 032個領域概念候選詞與領域詞中的種子概念做語義相似度計算,本文將與種子概念相似度大于一定閾值的候選詞選作領域概念。實驗過程中,該閾值取0.7。利用構建的領域詞典中的1 080個詞匯作為種子概念,采用兩種方法做對比實驗(將基于前后綴的中文領域術語抽取方法稱為原有算法,將本文采用的基于word2vec的領域本體概念抽取算法稱為改進算法),實驗結果如表2所示。

由表2可見,改進的算法無論是在領域概念抽取詞抽取環節還是領域概念候選詞評價環節,不僅大大地增加了抽取詞匯的數量,而且領域術語所占的比重也比之前提高了。

4.2 概念關系抽取實驗

(1) 同義關系抽取。本文采用在線的有道詞典進行約束,同義關系抽取結果如表3所示。由實驗結果可知,得到的結果準確率較高但召回率比較低,由于使用詞典約束以及關系解空間等因素影響了召回率,可通過對數據進行擴充,其中包括使用word2vec的訓練語料和雙語詞典等改進方法來提高召回率。

(2) 上下位關系抽取。本文從關系解空間中抽取上下位關系,從中選取并手工標記800對概念對,其中正例400對,反例400對。實驗中,在800對正反例中各取大約3/4的向量作為訓練集,剩余的1/4對作為測試集。將本文提出的基于特征向量的本體概念上下位關系驗證與基于百科的術語關系抽取方法進行對比驗證,對比結果如表4所示。

從實驗結果可得:本文提出的基于特征向量的上下位關系驗證方法具有更高的準確率、召回率和[F]值,而且采用本文提出的算法比基于百科的術語上下位關系抽取發現的具有上下位關系的概念對多。

4.3 數字圖書館氣候變化領域本體的應用

氣候變化問題已經逐漸成為各界熱議的焦點,世界各國的統計部門、氣象部門等都已經積累了龐大的數據集,研究者很難從龐大而分散的數據集與觀點成果中快速找到期望的信息,更難以在這些信息中尋找數據之間的關聯與規律。基于以上問題,設計開發出了針對氣候變化領域的RSS閱讀器系統。新聞、數據文件等以本體的組織框架進行組織。點擊某一知識節(領域概念),便可查看相關的新聞信息等,操作方便快捷。用戶通過該閱讀器系統能實現對氣候變化領域內最新、最全新聞信息的實時獲取,從而減少人工搜索和篩選的工作,提高了新聞信息搜索效率和信息推薦的準確度。

5 結 論

本文探討了領域本體構建方法,設計了一種基于Web的領域本體半自動構建方法,對基于word2vec的數字圖書館本體構建技術進行研究,采用基于中英文詞典的方法抽取同義關系,提出基于特征向量的上下位關系抽取算法。基于此,設計開發出了針對氣候變化領域的RSS閱讀器系統,通過實驗及實際應用證明文中所提方法縮短了本體開發周期,節省了大量的人工參與,自動抽取本體質量較高。但領域概念抽取結果依賴于word2vec工具,具有一定的局限性,因此,可以考慮混合其他的概念抽取方法來獲取領域概念。

參考文獻

[1] 顧英,柯平,李澤華.基于領域本體的數字圖書館及應用研究[J].圖書館工作與研究,2013(5):41?44.

[2] 李志隆,王道平,關忠興.基于領域本體的用戶興趣模型構建方法研究[J].情報科學,2015,33(11):69?73.

[3] 陳衛.基于本體的數字圖書館個性化推薦模型構建研究[D].武漢:湖北工業大學,2015.

[4] 李躍鵬,金翠,及俊川.基于word2vec的關鍵詞提取算法[J].科研信息化技術與應用,2015(4):54?59.

[5] PU Q. Research on E?negotiation process mixed with domain ontology and reasoning technology [C]// Proceedings of 2013 Joint International Conference. Vina del Mar: Springer, 2013: 471?475.

[6] LUO J, WANG Q, LI Y. Word clustering based on word2vec and semantic similarity [C]// Proceedings of 2014 33th IEEE Control Conference. Nanjing, China: IEEE, 2014: 517?521.

[7] 袁小艷,唐青松,賀建英.高校知識本體的構建及應用研究[J].現代電子技術,2014,37(16):58?61.

[8] 熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構及其應用[J].南京師范大學學報(工程技術版),2015(1):43?48.

主站蜘蛛池模板: 亚洲国产成熟视频在线多多| 欧美午夜久久| 久久久久国产一级毛片高清板| 亚洲无码在线午夜电影| 国产手机在线ΑⅤ片无码观看| 国产成年女人特黄特色毛片免| 在线另类稀缺国产呦| 欧美精品在线观看视频| 伊人福利视频| 欧美成人区| 国产不卡网| 园内精品自拍视频在线播放| 亚洲欧美日韩中文字幕在线| 国产真实乱了在线播放| 亚洲最大情网站在线观看 | 人妻精品全国免费视频| 人妻无码AⅤ中文字| 国产日韩欧美成人| 亚洲美女久久| 欧美午夜在线观看| 精品国产自在在线在线观看| 国产成人精品2021欧美日韩| 久久熟女AV| 国产精品无码久久久久AV| 激情午夜婷婷| 欧美国产在线精品17p| 激情乱人伦| 日韩av电影一区二区三区四区| 亚洲欧美日韩动漫| 亚洲成人网在线观看| 这里只有精品在线播放| AV无码国产在线看岛国岛| 久一在线视频| 福利视频99| 欧美区一区| 亚洲精选高清无码| 国产午夜无码专区喷水| 国产美女精品人人做人人爽| 女人18毛片水真多国产| 午夜精品福利影院| 精品视频一区二区观看| 国产午夜一级毛片| 国产亚洲欧美日韩在线一区二区三区| 91在线高清视频| 亚洲国产黄色| 啪啪免费视频一区二区| 欧美成人午夜视频免看| 巨熟乳波霸若妻中文观看免费| 国产产在线精品亚洲aavv| 国产无码网站在线观看| 成人在线综合| 无码久看视频| 老司机久久精品视频| 国产自产视频一区二区三区| av大片在线无码免费| 免费观看男人免费桶女人视频| 亚洲va欧美va国产综合下载| 午夜三级在线| 香蕉99国内自产自拍视频| 亚洲欧洲自拍拍偷午夜色| 亚洲热线99精品视频| 欧美性猛交一区二区三区| 在线观看视频一区二区| 日韩在线永久免费播放| 国产特级毛片aaaaaa| 天堂网国产| 免费国产黄线在线观看| 成人午夜在线播放| 国产成人久久777777| 波多野结衣AV无码久久一区| 91精品最新国内在线播放| 2019年国产精品自拍不卡| 国产精品尹人在线观看| 无码精品福利一区二区三区| 国产精品黄色片| 国产成人三级在线观看视频| 国产剧情一区二区| 国内精品手机在线观看视频| 黄色福利在线| 免费在线色| 久久这里只有精品免费| 亚洲欧洲日产国码无码av喷潮|