999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MIML的OGC網絡服務語義檢索方法研究

2021-07-06 02:15:28孫君禎苗立志徐興永
計算機技術與發展 2021年6期
關鍵詞:語義詞匯服務

孫君禎,苗立志,2*,徐興永

(1.南京郵電大學 地理與生物信息學院,江蘇 南京 210023;2.南京郵電大學 江蘇省智慧健康大數據分析與位置服務工程實驗室,江蘇 南京 210023;3.南京郵電大學 通信與信息工程學院,江蘇 南京 210003)

0 引 言

地理信息有著數據源廣、發布形式多樣以及應用多元化的特點,這使得地理信息數據表達形式也具有多樣化的特點。隨著云計算、大數據等相關技術的不斷發展,為實現地理信息數據的有效共享,地理信息服務數據量增長趨勢亦愈發明顯,在有效降低地理信息數據采集難度的同時,也使得越來越多的用戶在互聯網上共享地理信息服務數據。但是,日益增長的地理信息服務空間數據在地理信息知識表達方面存在“數據豐富、知識匱乏”的現象,傳統的檢索方法已不能滿足人們獲取知識的需求。并且,傳統的地理信息服務語義檢索在元數據領域的標記方式在目前還沒有統一的標準,語義標記實現后容易導致次生的共享障礙。MIML(multi-instance multi-label learning,多示例多標記學習)是針對對象的歧義性而提出的一種學習框架[1,2],在該框架下,表述地理信息服務數據的語義信息由包含多個示例的示例包來表示,且其對應的描述該地理信息服務元數據的類別標記也不再是唯一的,而是變成多個標記該元數據的標記組成的集合。因此,MIML學習可以在地理信息服務語義標記方面得到有效應用。

Zhou等[1-2]于2007年提出MIML學習框架以來,已被相關研究者廣泛用于標記任務,如生物圖像信息學、圖像標注、視頻標注、文本分類等相關領域[3-4]。唐俊等[5]基于MIML方法的手機游戲道具推薦可以與任何機器學習模型進行結合,向用戶推薦所需要的游戲道具;王超俊[6]針對基于MIML方法的圖像分類標注進行研究,能夠提取更加全面的圖像,而且圖像分類也更全面,使得圖像的豐富性得以顯現出來;Zha等[7]基于隱含條件隨機場提出了一種集成MIML方法,可以同時捕獲語義標記和區域的關系以及標記間的關系;羅飛[8]基于MIML方法研究了圖像語義標注方法;彭亮[9]提出利用MIML對圖像與視頻進行自動語義標注方法,可有效地改善圖像和視頻標注的準確性。由上可以看出,MIML方法在語義標注方面已有較多的研究,但未有用于地理信息服務的語義標注相關研究。因此,該文將MIML方法用于OGC(open geospatial consortium,開放地理空間聯盟)地理信息服務(OGC web services)語義標注,在不破壞OWS能力文檔原有機構的基礎上實現海量OWS基于語義層面的檢索,解決地理信息服務語義的歧義性,實現檢索的查全率和查準率的雙重提高。

1 服務標簽值與標記詞匯提取

1.1 OWS標簽屬性值解析

OWS文件中包含豐富的地理信息數據,每個能力文件中擁有多個描述地理信息服務的語義標簽,包括:服務標題(title)、服務摘要(abstract)、圖層摘要(layer abstract)、圖層關鍵字(layer keyword)、服務提供者的聯系信息(contact information)、請求能力描述(request GetCapabilities)、所支持的地圖格式(GetMap format)等,如圖1所示;但是,這些標簽值內容存在大量的冗余的描述地理信息的語義詞匯[10-11],如服務提供者的聯系信息、請求能力描述、所支持的地圖格式等標簽。根據標簽重要程度,該文選取其中四個主要的語義描述標簽來表述單個OGC地理信息服務能力文件的具體內容,分別為服務標題、服務關鍵字、服務摘要和圖層關鍵字,并解析提取描述地理信息服務內容的語義標簽title、keyword、abstract和layer keyword,同時獲取語義標簽的具體地理信息數據內容,如表1所示。

表1 元數據標簽屬性值提取

圖1 WMS能力文件描述文檔

1.2 基于TF-IDF的OWS標記詞匯提取

為了從元數據標簽值中提取能夠體現OWS服務的標記詞匯,該文采用TF-IDF算法檢索、分類和過濾有價值的標記詞匯。TF-IDF權值的高低由兩部分組成,包括特征詞匯在一個信息文本中的出現權值和該特征詞匯在整個信息文本中的出現權值,兩者的乘積越高TF-IDF權值越高。因此,TF-IDF算法可以過濾無用特征詞匯,提取可以用于標記信息文本的重要詞匯。在地理信息服務能力文件中,TF的值表述某個地理詞匯在給定的能力文件中的出現頻率。對于在某個特定的地理信息服務能力文件里的地理詞匯ti來說,其重要性可表示為:

(1)

將所有地理信息服務能力文件總數除以含有該地理詞匯的文件的總數,再將結果商取對數獲得能力文件中某個特定地理詞匯的IDF值:

其中,|D|為研究對象中地理信息服務能力文件總個數,|{j:ti∈dj}|表示含有地理詞匯ti的能力文件數目,如果該地理詞匯未包含在所研究的能力文件中,則會導致被除數為零;因此,式(2)中使用1+|{j:ti∈dj}|。tfi,j×idfi=tfidfi,j表示某一特定地理信息服務能力文件內的高地理詞匯頻率,以及該地理詞匯在整個能力文件集合中的低文件頻率的乘積,可以使TF-IDF占有較高的權重。

該文將OGC地理信息服務能力文件作為訓練樣本,對能力文件的描述內容進行數據預處理后,再對OWS文件的特征詞匯提取分類并反饋,實現TF-IDF算法后向能力文件推送權值最大的標記詞匯組,如表2所示。

表2 TF-IDF算法提取標記詞匯組

2 基于MIMLBoost算法的語義標記

2.1 MIMLBoost算法

設X表示示例空間,Y表示標記空間,數據集D={(X1,Y1),(X2,Y2),…,(Xm,Ym)},其中,Xi?X為一組示例{Xi1,Xi2,…,Xi,ni},Xi,j∈X(j=1,2,…,ni)為第i個包的第j個示例,而Yi?Y為Xi的一組合適類別標記{yi1,yi2,…,yi,ni},ni為Xi中所含示例的個數,ki為Yi中所含標記的個數。

多示例多標記學習的目的是得到f:2X→2Y,MIMLBoost算法以多示例學習為橋梁,將學習目標轉化為fm:2X×y→{-1,+1},然后再進一步轉化為傳統監督學習問題:給定(xi,yi),對示例空間和標記空間進行拼接,將集合轉化為|Y|個多示例樣本,原數據集D則轉化為多個多示例單標記樣本:{([Xi,y]),φ[Xi,y]|y∈Y};其中,[Xi,y]包含ni個示例{(Xi1,y),(Xi2,y),…,(Xini,y)},φ[Xi,y]=+1當且僅當y∈Yi,否則φ[Xi,y]=-1。上述轉換過程完成后再利用多示例學習算法MIBoosting[12]進行求解。

2.2 基于MIMLBoost算法的語義標記

基于MIMLBoost算法實現對OGC地理信息服務的語義標記,例如對文件名為Combined Bedrock and Superficial Geology and mineral的OWS文件(http://ows.geogrid.org/GSJ_CCOP_Combined_Bedrock_and_Superficial_Geology_and_Age/wms)語義標記可以得到如表3所示的描述該OWS文件的具體地理信息數據和語義標記。

表3 基于MIMLBoost算法的示例包

OGC地理信息服務元數據里的語義標簽服務標題(title)、服務摘要(abstract)、服務關鍵字(keyword)、層關鍵字(layer keyword)分別表示MIMLBoost算法里的示例包的示例單元,如表4所示。

表4 基于MIMLBoost算法的標記包

基于MIMLBoost算法示例包里的示例內容與每個標記關鍵字分別放入集合中,當集合中的每個地理關鍵字分別在四個示例單元中出現,則認為該地理關鍵字可以作為代表性描述詞匯用來標記OWS文件。結合表2和表3,OWS文件Combined Bedrock and Superficial Geology and mineral則可以用bedrock、geology、mineral對其主要描述內容進行語義標記。

3 實驗驗證

為驗證基于MIMLBoost的OGC地理信息服務的語義檢索系統的查準率和查全率,采用來源于OneGeology[13]開放網站和美國地質勘探局(USGS)數據共享中心[14]的300條可正常訪問的地理信息服務數據。用戶在執行檢索界面查詢“mineral”時,查詢關鍵字通過地質礦產本體庫擴展,獲取該查詢關鍵字的本體詞集,檢索結果界面檢索出與“mineral”及與之相關的本體詞集相匹配的所有地理信息服務,檢索結果如圖2所示。

圖2 以“mineral”為關鍵字的檢索結果

該文分別基于GeoNetwork[15]檢索、基于MIMLBoost學習框架的語義檢索和MIMLBoost匹配與本體庫結合的檢索3種方式進行實驗,其對應的查全率和查準率如圖3所示。

圖3 基于“金屬礦”為關鍵字檢索結果對比

與基于GeoNetwork的查詢結果相比,在應用基于MIMLBoost學習框架的語義檢索后,查全率與查準率兩個指標都有較大程度的提高,分別提高了10%和7.86%;而將基于MIMLBoost的多示例多標記的學習框架、TF-IDF加權算法與地質礦產領域的本體庫結合后,OWS查全率與查準率與基于GeoNetwork的查詢相比分別提高22%和16.34%,達到92%、93.48%,對OGC Web Service地理信息服務檢索的查全率與查準率有較為明顯的提高。

4 結束語

OWS地理信息服務的元數據描述是基于XML的文件,包含大量的領域信息,但目前所使用的面向OWS的檢索軟件僅基于關鍵詞層面,而無法發現其蘊含的語義信息。該研究通過將MIML與地理本體相結合的方式,實現了面向OWS地理信息服務的語義層面的檢索,解決了用戶在查詢應用地理信息服務時,難以獲取其真正所需的OWS數據的問題。該方法無論在查全率還是查準率方面都有較大程度的提高,為OWS地理信息服務語義檢索相關研究提供了一種參考思路。

猜你喜歡
語義詞匯服務
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 色婷婷国产精品视频| 欧美亚洲国产精品久久蜜芽| 亚洲国产亚综合在线区| 久久精品国产999大香线焦| 免费不卡视频| 在线观看国产黄色| 国产网站免费观看| 不卡网亚洲无码| 国产精品区视频中文字幕| 伊人久久婷婷| 国产浮力第一页永久地址| 国产丝袜第一页| 中文字幕有乳无码| 国产欧美日韩综合一区在线播放| 亚洲美女一级毛片| 午夜视频免费一区二区在线看| 蝴蝶伊人久久中文娱乐网| 国产理论最新国产精品视频| 久久99国产综合精品1| 丁香五月激情图片| 久草性视频| 国产综合精品一区二区| 激情五月婷婷综合网| 无套av在线| 国产在线视频二区| 亚洲成A人V欧美综合| 中文毛片无遮挡播放免费| 久久国产精品电影| 亚洲第一成网站| 国产xx在线观看| 精品久久久久久成人AV| 香蕉蕉亚亚洲aav综合| 黄色网站不卡无码| 国产午夜不卡| 欧美日本视频在线观看| 97一区二区在线播放| 亚洲欧美另类久久久精品播放的| 色综合久久88| 成人免费网站久久久| 91福利片| 综合色婷婷| 99久久精品视香蕉蕉| 国产毛片高清一级国语 | 国产在线精品99一区不卡| 中国国语毛片免费观看视频| 欧美日韩理论| 婷婷丁香在线观看| 人妻夜夜爽天天爽| 无码中文AⅤ在线观看| 国产精品成人啪精品视频| 波多野一区| 久久久亚洲色| 成人免费视频一区| 国产又粗又猛又爽视频| 一本大道东京热无码av | 免费A∨中文乱码专区| 国产精彩视频在线观看| 国产h视频免费观看| 99精品视频九九精品| 中文字幕日韩欧美| 十八禁美女裸体网站| 99久久精品美女高潮喷水| 一区二区三区成人| 凹凸精品免费精品视频| 亚洲精品你懂的| 午夜无码一区二区三区在线app| 又爽又大又光又色的午夜视频| a毛片免费在线观看| 免费无码一区二区| 少妇人妻无码首页| 人妻精品久久久无码区色视| 国产熟睡乱子伦视频网站 | 欧美、日韩、国产综合一区| 91在线日韩在线播放| 国产精品片在线观看手机版| 国产无人区一区二区三区| 成年A级毛片| 精品成人免费自拍视频| 国产97色在线| 欧美一区福利| 国产一级毛片yw| 在线播放精品一区二区啪视频|