999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的語義相關度研究

2018-12-19 12:44:28周兵孟慧君王棟
現代計算機 2018年32期
關鍵詞:語義概念深度

周兵,孟慧君,王棟,2

(1.河南大學,開封 475004;2.中國科學院遙感與數字地球研究所,北京 100101)

0 引言

在當下計算機網絡技術飛速發展的信息化時代,人們對計算機信息的存儲、傳輸以及處理能力的要求也迅速增加,而檢索作為獲取信息的重要方式也越來越受到研究人員的關注。傳統的檢索方法大多只停留在比較關鍵字異同的層面,往往忽略了更深層次的語義層面所隱含的信息,從而未能達到用戶理想的檢索效果。語義檢索從搜索語句和檢索目標的語義出發,來提高檢索的準確性。本文通過對本體中的概念及屬性進行研究,試圖尋找多個概念之間以及概念的屬性之間的多種聯系,通過它們之間的相關度來鎖定檢索目標,并獲得最終的檢索結果。

1 相關研究介紹

信息檢索技術是一個從簡單到復雜發展的過程,從以往的基于關鍵詞的信息檢索方式發展到現階段的語義檢索,隨著用戶需求的增加以及研究的深入,語義檢索將在信息檢索領域發揮越來越重要的作用。

文獻[2]提出了一種匹配本體圖的語義檢索方法,該方法根據本體、關系、本體圖三者之間的語義相關性,提出了一種能夠計算語義相關性的本體圖匹配框架。在此方法中,本體之間的相關度是由兩者之間的距離決定的。文獻[3]提出的語義檢索方法是將傳統的搜索技術與傳播激活技術相結合。在給定初始的本體集和相應的初始的激活權值下,由傳播激活機制系統查詢到相關的本體。這些初始的權值是由對與本體相關的本體數據進行經典的搜索得到的[3]。文獻[4]利用上述思想進行了實驗分析,并證實了方法的正確性,傳播激活機制和這種基于本體的方法結合起來得到了令人滿意的結果。

2 基于本體的語義相關度研究

在計算機科學與信息科學領域,本體指的是一種“形式化的,對于共享概念體系的明確而又詳細的說明”,是一種共享詞表,是特定領域中那些存在著的對象類型或概念及其屬性和相互關系。或者說,本體實際上就是對特定領域中某套概念及其相互之間關系的形式化表達。本體中概念之間總是存在各種各樣的關系,從某一個概念出發總可以找到多個與之相關的概念。

2.1 文檔和查詢的概念表示

2.2 相關度計算

(1)概念相關度

本體中概念相關度主要由概念或實例之間的距離以及其深度來決定。相同深度下若兩個概念間的距離越短則表示概念間的相關度越大,反之相關度就越小。由于在本體中,概念的深度越深表示概念間劃分的越來越細,概念間的區別越來越小,所以若兩個概念間距離相等,那么概念所處的深度越深則表示兩個概念間的相關度越大,反之相關度就越小。

為了便于描述,我們用simc=(ci,cj)表示概念相關度,用dis(ci,cj)表示兩個概念ci,cj間的距離,用dep(ci,cj)表示兩個概念的深度。當兩個概念中一個為另一個的直接子孫概念時,兩個概念間的距離dis(ci,cj)=|dep(ci)-dep(cj)|。否則,需要通過兩個概念的公共父概

在文檔的語義檢索過程中,我們將文檔具體化為多個概念或實例,用概念或實例來表示文檔;同理將用戶的檢索信息也用概念來表示。以概念為基礎,在本體中尋找概念及其屬性之間的關系并計算搜索概念與文檔中概念的相關度。

用W表示待標引的文檔集,w表示文檔集W中的某個文檔。從文檔w中可以抽取多個概念,用c表示文檔w中的某個概念,概念c在領域本體中包含多個屬性(屬性是對概念的進一步說明,用 p0,p1,p2..來表示)。文檔中概念和屬性為一個語義向量,一個文檔中可以抽取出多個語義向量,語義向量可表示為[6]:

其中Sj表示文檔中的一個語義向量,cj表示該語義向量中的某個概念或實例,p表示用于描述該概念或實例的多個屬性。

同理,對于用戶輸入的搜索請求,也可以抽取為一個或多個語義向量來表示:

語義檢索是根據文檔和查詢語句具體化得到的語義向量之間的相關度來確定檢索結果集的,語義向量的相關度包括兩部分,即概念相關度和屬性相關度。在上述表示中,屬性是對某個概念的描述,而文檔的主要表示元素是概念或實例。我們可以以具體查詢中概念和屬性的重要性為依據來決定概念和屬性的權值來進行最終語義相關度的計算。念來計算兩個概念間的距離,用cfar(ci,cj)表示兩概念ci,cj的公共父概念。設根結點深度dep(root)=0,相鄰兩概念邊的權值設為1,當ci≠cj時:

考慮概念深度對相關度的影響,取兩個概念深度的平均值作為dep(ci,cj),即:

由于文檔中有多個概念,每個概念或實例在文檔中的重要程度也不盡相同,為了提高檢索的查準率,我們對文檔中概念的重要性進行計算,并將計算結果作為權值引入概念相關度計算中。用θ表示概念權值,設概念或實例在文檔中出現次數為cont,某個文檔中出現次數最多的概念的出現次數為contmax,則概念重要性即權值按公式(5)進行計算:

概念相關度值得范圍為sim(ci,cj)∈[0,1],由以上公式(3)、公式(4)和公式(5)我們將概念相似度 sim(ci,cj)定義為:

由公式(5)可以知道,當ci,cj為同一概念且文檔中概念cj為出現次數最多的概念時,sim(ci,cj)=1。當θ取值相同時,將概念間距離dis(ci,cj)、概念深度dep(ci,cj)和概念相似度如表1表示:

表1 θ=1時相似度與概念距離深度的關系

從表1中信息可以明顯看出,當概念權值θ=1時,對于表格中的每一行,兩概念距離dis(ci,cj)相同時,深度越深,概念間的相關度就越高;對于表格中的每一列,當深度dep(ci,cj)相同時,兩概念間的距離越遠則概念間的相關度越小。

表2 θ=0.5時相似度與概念距離深度的關系

對比表1和表2可以看出,當文檔中概念出現的次數越少,即重要性越低θ越小時,計算所得的概念相關度的就越低。通過對文檔中概念的重要性進行標記,相同文檔中多個概念的相似度有了更加詳細的區分,為語義相似度的進一步細化準備了條件。

(2)屬性相關度

由于在一般語義相關度計算中屬性相關度所占比重較輕,且語義向量中屬性數量較多,在這里我們不在逐向量分析其語義,而是采用相對簡單的屬性值對比的方法進行相似度計算。同理,在該計算過程中,對屬性相似度進行加權處理,其權值同該屬性對應的概念或實例的權值θ,屬性相關度計算如下:

由公式(7)可以看出,屬性相關度的范圍為 sim((pi0,pi1..pin-1),(pj0,pj1..pjn-1))∈[0,1]。

屬性相似度由兩個語義向量中相同屬性的數量決定,當兩個概念 ci=cj時,其屬性相關度sim((pi0,pi1..pin-1),(pj0,pj1..pjn-1))=1。

(3)語義相關度

根據前兩小節中對概念和屬性相關度的計算,將語義相關度計算定義為如下公式:

公式(8)中α表示在該語義相關度計算中概念的權值,β表示屬性的權值,且α+β=1。α的取值越大表示概念的重要性越高;同理,β越大表示屬性所占的比重越高。α和β的值反映了該檢索中概念和屬性的重要程度,可根據檢索需求來決定。

根據公式(8)計算查詢向量Si與文檔中各個語義向量Sj的相關度,設相關度閾值為δ,若計算所得相關度的最大值simmax(Si,Sj)≥δ,則表示該文檔符合檢索要求,將該文檔放入檢索結果集。

3 實驗分析

實驗從網絡獲取HTML文件,并進行標記清除和文檔核心內容獲取等相關處理。以處理后數據為實驗數據集進行實驗。在該實驗中,我們分別去概念和屬性的權值α=0.6,β=0.4,取閾值 δ=0.6。將優化后的相似度算法和文獻[6]方法進行實驗對比,比較二者查準率和查準率,結果如下圖1和圖2所示:

圖1 改進前后查準率對比圖

圖2 改進前后查全率對比圖

當概念和屬性的權值以及閾值相同時,從圖1可以明顯看出優化后算法的查準率高于改進前。圖2顯示本文提出的算法查全率較另一算法低,這是因為改進的算法對概念以及屬性的相關度計算進行了加權處理,且權值θ≤1,這樣雖然將概念進行了更加詳細的相關度區分,但是也影響了查全率。該問題可通過增大閾值的方法來解決。

4 結語

由于傳統檢索方式的局限性,語義檢索逐漸出現在人們的視野,并且受到了越來越多的重視。通過對已有的語義檢索方法進行學習和研究,在基于本體的基礎上,研究概念的組織結構形式,在原有概念相似度的計算方法基礎上做進一步的優化,并考慮文檔中概念和屬性的重要程度,提出對相似度加權的計算方法,最終通過實驗分析證實了算法的有效性。

猜你喜歡
語義概念深度
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
深度理解一元一次方程
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
深度觀察
深度觀察
學習集合概念『四步走』
深度觀察
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 91成人在线免费视频| 国产黄网永久免费| 69视频国产| 永久免费精品视频| 久久精品午夜视频| 日本日韩欧美| 精品国产污污免费网站| 中文字幕在线免费看| 亚洲一区二区日韩欧美gif| 国产素人在线| 日韩欧美中文字幕在线精品| 精品无码一区二区三区在线视频| 精品视频一区二区三区在线播| 久久性视频| 92精品国产自产在线观看| 久久精品只有这里有| 欧美激情第一欧美在线| 色噜噜在线观看| 国产精品亚洲天堂| 国产成人毛片| 天堂成人av| 高清欧美性猛交XXXX黑人猛交| 婷婷成人综合| 亚洲日韩精品伊甸| 91色在线观看| 久久77777| 深夜福利视频一区二区| 全部毛片免费看| 成人精品午夜福利在线播放 | 在线免费亚洲无码视频| 97色伦色在线综合视频| 国产亚洲精久久久久久无码AV| 99久久国产综合精品2020| 在线观看网站国产| 国产av剧情无码精品色午夜| 国产精品短篇二区| 欧美一级高清视频在线播放| 波多野结衣久久精品| 久久午夜夜伦鲁鲁片不卡| 精品综合久久久久久97| 国内精品小视频福利网址| 免费毛片全部不收费的| 一级黄色网站在线免费看| 少妇被粗大的猛烈进出免费视频| 18禁色诱爆乳网站| 国产欧美成人不卡视频| 久久亚洲精少妇毛片午夜无码| 91精品网站| 精品久久综合1区2区3区激情| 日本不卡在线| 伊人精品成人久久综合| 亚洲午夜福利精品无码| 国内精品久久久久鸭| 老熟妇喷水一区二区三区| 婷五月综合| 国产第一页第二页| 日韩第一页在线| 久久香蕉国产线| 毛片手机在线看| 欧美亚洲国产精品第一页| 草逼视频国产| 五月激情综合网| 天天色综合4| 妇女自拍偷自拍亚洲精品| 国产欧美视频在线| 在线精品亚洲一区二区古装| 毛片免费高清免费| 又大又硬又爽免费视频| 欧美黑人欧美精品刺激| 日韩午夜福利在线观看| 欧美国产日韩在线观看| 无码日韩精品91超碰| 国产精品视频公开费视频| 国产 在线视频无码| 久精品色妇丰满人妻| 色成人综合| 国产成人一区在线播放| 女人av社区男人的天堂| 99热国产这里只有精品9九| 亚洲精品片911| 国产欧美综合在线观看第七页| 日本不卡免费高清视频|