999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于石油領域本體的概念相似度級聯模型①

2018-07-18 06:07:06趙國梁宮法明
計算機系統應用 2018年7期
關鍵詞:語義概念模型

趙國梁, 宮法明

(中國石油大學(華東) 計算機與通信工程學院, 青島 266580)

1 概述

概念的語義相似度計算已經成為數據挖掘和信息檢索領域的基本問題, 而且是自然語言處理的核心問題[1]. 例如, 語義相似性度量已應用于詞義消歧[2]、信息提取[3]、文本相似度計算[4]以及文本聚類[5].

目前, 語義相似度的計算方法大致可分為兩類:(1)依賴于分類中術語間的層次關系的基于路徑的度量; (2)根據概念的特異性分類, 基于語料庫信息內容(IC)的測度. 許多相似度計算是建立在本體的內在結構上, 在本文中, 我們首先考慮在查詢概念對在本體中的路徑信息, 然后我們不僅考慮了相關概念的父類集合, 并考慮了子代集合. 這種方法可以獲取進行相似性度量的概念對間更多、更具體的信息. 事實上, 不同的度量方法從不同的角度刻畫了兩個對象的相似性或相異性, 這可能有助于整合各種相似性度量以獲得更好的結果.

我們引入了一個新的級聯模型進行高效的概念相似度排名. 與以前的方法不同, 級聯模型能夠逐步修剪本體和細化排名順序. 通過級聯, 可以產生更高質量的結果和更快的查詢執行時間. (1)在粗計算階段, 我們的方法是針對整個本體使用基于路徑的訓練措施獲來計算過兩個概念間的相似度得分; (2)精確計算及擴展階段, 我們使用不同的IC算法從不同的方面來計算每一個概念的相似度得分. 為了充分考慮概念中的可用信息, 將目標概念使用其子代和父代概念集進行擴展,然后用于下一個階段的訓練; (3)利用權重來平衡粗計算和精確計算的相似度得分; (4)最后通過訓練BP神經網絡得到概念的相似性排名. 我們在石油本體模型和Babel-net上對本文的模型進行了測試, 實驗結果表明我們的方法提高了相似度計算的準確度.

圖1 概念相似度計算的模型體系結構

2 相關工作

語義相似度估計是自然語言處理(NLP)的一個重要組成部分, 在許多NLP應用中得到了成功的應用.基于路徑的方法主要考慮概念在本體中的路徑距離來確定它們的語義相似度[6]. 基于IC的方法主要比較所涉及的概念及其父代或子代的屬性[7]. 與基于路徑的方法相比, 基于IC的度量對可變語義距離的問題不敏感[8].此外, 基于IC的方法強調了本體的同一層次上的術語并不總是等價的思想, 因為它們在本體中的重要性或特異性是由它們的信息量來衡量的[9]. Alexopoulou[10]提出了“Closest Sense”的方法, 該方法計算了可能的概念語義類型與目標詞周圍的語義類型之間的平均最短距離. Garla[11]使用 Patwardhan[12]提出的語義關系算法對基于路徑和基于分類的相似性度量進行評價.Resnik[8]和Jiang[13]提出的語義相似度算法被廣泛的使用. Rada[14]提出了一種基于兩個目標詞間最短路徑的相似度計算方法. Wu[9]定義一個相似性度量由三部分組成: 概念在本體中的公共子集, 概念間的公共屬性以及它們的最近公共父代距離.

最近, Dang[15]提出了一種新的兩階段學習模型.Dang使用一組有限的特征集合, 包括加權詞語、相鄰性和擴展項來訓練整個檢索的排名函數. Wang[16]提出了一種級聯模型, 通過逐步細化和精煉候選文檔集來盡可能減少檢索中的不利因素, 提高檢索的質量. 朱新華等[17]提出了一種綜合的詞語語義相似度計算方法,算法通過特殊的單調遞減曲線的邊權重策略, 并且采用以詞語距離為主要因素、分支節點數和分支間隔為微調節參數的方法, 改進了現有的詞林詞語相似度算法. 李陽等[18]提出一種通用的實體相似度計算方法, 通過清洗噪聲數據, 對數值、列表以及文本等不同數據類型進行預處理, 使用SVM、隨機森林等集成學習模型以及排序學習模型進行建模. Pesquita[19]考慮了影響相似度的內在和外在問題, 以及如何處理這些問題, 強調了不同環境下的最佳措施, 并比較了不同的實施策略及其使用效果.

3 模型

在這部分, 我們介紹計算概念相似度的級聯模型的具體細節. 模型的體系結構如圖1所示.

3.1 粗計算階段: 基于路徑的相似度算法

粗計算階段是模型的第一階段, 我們使用基于路徑的相似計算方法來計算概念間的相似度得分, 然后將該得分以及路徑集合作為后續階段輸入數據, 以生成最終的查詢結果.

Leacock[20]最先提出了一種基于路徑的本體相似度計算方法, 并且被廣泛的使用. 假設c1和c2是兩個概念, 他們考慮了概念的最大深度, 定義了公式(1):

本文考慮到不同本體領域存在許多差異性, 采用Batet[21]提出的特定領域的相似性度量模型, 它充分考慮了本體的特性以及多重繼承的關系, 與石油領域本體基本相似, 如公式(2)所示:

本文使用公式(1)對公式(2)進行了改進, 如公式(3)所示:

3.2 精確計算階段: 基于IC相似度計算

在精確計算階段, 本文使用基于IC的相似度算法去計算從擴建階段獲得的所有結果集中每個概念的得分. 每個概念的得分將被作為構建成特征向量. 本階段將采用5種目前使用最為廣泛的基于IC的相似度算法作為精確計算階段的方法, 先使用這5種去獲取概念在本體上部(概念與其父代集合)的相似度得分, 并且通過擴展階段重新定義公式, 來獲取概念在本體下部(概念與其子代集合)的相似度得分. 以下五種算法都是基于概念在本體上部的相似度計算方法.

Resnik首先把概念信息量(IC)應用到相似度計算中. 在Resnik的模型中, 相似度通過兩個概念的最小公共集合的IC進行計算, 公式定義如下:

Lin[22]在Resnik相似度算法的基礎上, 額外考慮了概念和概念的IC信息量值. 模型(Lin)定義如下:

Jiang和Conrath提出的模型根據公式(6)進行量化:

Sánchez和Batet提出了一種新的語義相似度度量方法, 定義如公式(7)所示:

通過考慮到本體中概念對之間的語義距離以及概念在本體中的深度, Wu提出的相似度計算模型定義如公式(8):

3.3 擴展階段

為了能夠獲取概念的更多屬性, 以便獲得更好的數據進行訓練, 使最終計算結果的準確性更高、更具潛力. 因此, 我們擴展本體概念集合以獲得更多信息.

Zhang[23]發現兩個概念的共同子集同樣影響相似性得分. 本文中, 我們認為兩個概念的下一代子集影響兩個概念間的相似度得分, 如圖2所示.

圖2 概念子集圖

這意味著兩個概念的子代集合也可以用來描述它們的相似性度量. 我們在下面的公式中重新定義子代公共部分的IC值:

最終, Resnik提出的相似的計算模型就被重新定義為如下:

其余四種相似度算法以同樣的方式重新定義.

3.4 相似度特征

本文把兩個概念之間的相似度得分作為是每一對概念的特征值, 通過構造基于本體的不同相似度模型獲取相似性得分值來進一步構造特征向量來表示概念對, 相似度特征表示為公式(11):

3.5 得分權重

基于路徑的相似度算法只考慮到概念對在本體中的路徑長度, 忽略了每個概念的信息量. 相反, 基于IC的相似度算法只考慮到每個概念的信息量, 忽略了每個概念對在本體中的路徑長度. 為了充分利用這兩種信息, 本文通過使用得分門網絡來實現的, 該網絡為每個概念生成聚合權重, 控制兩種相似度算法計算的的相似度得分對最終相似度得分的貢獻. 綜合特征向量被改寫為公式(14).

3.6 BP神經網絡

BP神經網絡是誤差反向傳播算法訓練的多層前饋神經網絡, 是目前應用最廣泛的神經網絡模型之一.BP網絡可以學習和存儲大量的輸入輸出映射關系, 而不需要揭示描述映射關系的數學方程. BP神經網絡的結構由輸入層、隱層和輸出層, 在神經元的連接權值和閾值, 輸入層和輸出層只有一個, 它的單位數量與實際輸入輸出參數一致; 隱層可以是一個或多個神經元參與, 數字必須重復計算. 由于三層神經網絡具有很好的函數逼近功能, 結構設計簡單, 運算能力強. 在本文中, 我們是用三層BP神經網絡, 如圖3所示.

隱藏層節點的數目由公式(15)確定:

圖3 三層 BP 神經網絡

訓練BP神經網絡時, 我們將最終的相似度特征向量作為BP神經網絡的輸入, 將兩個概念對應的相似度分類作為輸出.

對于輸出結果, 我們期望BP神經網絡將兩個概念的相似性分數劃分為10個類別, 0個代表不相似, 9個代表極其相似 (相同), 值越高, 相似度越高.

4 實驗評估

4.1 數據集

在本文中, 石油本體和BabelNet[24]用來作為數據集測試本文的方法. 我們收集了石油領域的數據, 建立了自己的石油領域本體. BabelNet 是一個多語言語義網絡, 其概念和關系是利用自動映射算法從英語中最大的有效語義詞典WordNet[25]和最大的覆蓋面的百科全書Wikipedia中獲得的.

4.2 評判基準

為了得到一個比較基準, 我們的實驗標準類似于Miller和Charlest提出的基準, 給予五十名受試者(四十名石油工程學生和十名石油領域教授)相同的330個名詞對(30個名詞對與Miller和Charles相同,300個名詞對是關于石油的). 這些操作和Miller和Charles的用法完全一樣. 一半的受試者以隨機順序收到單詞對的列表, 另一半接受固定順序的列表. 對于同一概念對, Miller和Charles基準的平均評分和本文中評價基準的平均評分之間的相關程度為95%, 說明我們的基準是有效的.

4.3 實驗結果

為了驗證所提出方法的有效性, 本研究采用十倍交叉驗證, 并以精確度作為驗證指標. 在十次交叉驗證中, 數據集被隨機劃分為十個相等的子集, 驗證過程重復十次. 每次保留其中一個子集作為驗證數據, 其余四個子集作為訓練數據. 交叉驗證的十個結果的平均值產生一個總體估計. 使用公式(17)表示的準確率和召回率來判斷實驗結果,

表1和表2列出了實驗的預測結果特點, 在石油本體和babelnet上采用了不同的相似性度量策略. 從表格中, 我們可以看出, 采用基于路徑、基于概念父代、子代擴展集合的信息量相似度計算方法相結合的特征通常比只采用其中一種策略對應的綜合特征具有更高的精度.

表1 不同相似性算法在石油本體中的精度得分

表2 不同相似性算法在 BabelNet中的精度得分

從表2中的結果可以得出幾個結論. 本文中的相似度計算方法在石油本體和BabelNet獲得最高的精確度得分, 分別為90.44%和92.33%. 這表明我們從本體中獲得的信息越多, 分類器的預測能力就越好. 本文中的算法在不同的本體上表現出良好的性能.

5 結論

在本文的研究中, 我們提出了一種基于石油本體的概念對語義相似性的計算方法. 將不同相似性測度得到的信息作為BP神經網絡的輸入. 我們相信, 基于路徑的、基于IC和擴展的基于IC的測度的更多信息可以提高預測性能, 我們的方法的缺點是計算量大, 預測性能會受到BP神經網絡的影響. 將來, 我們計劃采用一種更全面的方法來預測兩個概念的相似性.

猜你喜歡
語義概念模型
一半模型
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 天堂成人av| 国产三区二区| 免费毛片a| 久久国产精品影院| 久久久久久久97| 热思思久久免费视频| 狠狠色丁香婷婷| h视频在线播放| 国产91熟女高潮一区二区| 日韩欧美在线观看| 啪啪啪亚洲无码| 国产精品高清国产三级囯产AV| 亚洲欧美日韩色图| 欧美成人精品一级在线观看| 91免费在线看| 欧美一级黄片一区2区| 国产永久在线视频| 久久综合成人| 香蕉视频国产精品人| 91精品最新国内在线播放| 97国产精品视频自在拍| 国产不卡一级毛片视频| 婷婷综合亚洲| 欧美精品导航| 91麻豆精品国产91久久久久| 精品国产电影久久九九| 乱人伦视频中文字幕在线| 日韩欧美国产三级| 鲁鲁鲁爽爽爽在线视频观看 | 亚洲一区免费看| 成人亚洲国产| 高清无码一本到东京热| 91热爆在线| 久久夜色撩人精品国产| 夜精品a一区二区三区| 精品人妻AV区| 亚洲毛片一级带毛片基地| 播五月综合| 99在线观看视频免费| 91探花在线观看国产最新| 国产凹凸一区在线观看视频| 亚洲国产精品一区二区高清无码久久| 在线国产综合一区二区三区| 91精品视频在线播放| 免费人成黄页在线观看国产| 五月婷婷中文字幕| 九一九色国产| 国产区在线观看视频| 亚洲一区无码在线| 尤物在线观看乱码| 亚洲精品无码成人片在线观看 | 手机在线看片不卡中文字幕| 中日无码在线观看| 永久免费AⅤ无码网站在线观看| 日本成人精品视频| 91精品免费久久久| 亚洲国产日韩在线成人蜜芽| 99精品影院| 亚洲人成高清| 男女性午夜福利网站| 国产在线第二页| 免费观看亚洲人成网站| 一级成人a毛片免费播放| 久久青草免费91线频观看不卡| 欧美日韩免费| 色爽网免费视频| 亚洲有码在线播放| 国产日韩AV高潮在线| 久久久久人妻一区精品| 精品国产美女福到在线不卡f| 99999久久久久久亚洲| 亚洲国产精品一区二区高清无码久久 | 国产亚洲精久久久久久久91| 免费 国产 无码久久久| 操美女免费网站| 青青草原偷拍视频| 国产免费久久精品99re丫丫一| 在线综合亚洲欧美网站| 成人国产免费| 2020国产免费久久精品99| www.日韩三级| 久久综合色播五月男人的天堂|