孫君禎,苗立志,2*,徐興永
(1.南京郵電大學 地理與生物信息學院,江蘇 南京 210023;2.南京郵電大學 江蘇省智慧健康大數據分析與位置服務工程實驗室,江蘇 南京 210023;3.南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
地理信息有著數據源廣、發布形式多樣以及應用多元化的特點,這使得地理信息數據表達形式也具有多樣化的特點。隨著云計算、大數據等相關技術的不斷發展,為實現地理信息數據的有效共享,地理信息服務數據量增長趨勢亦愈發明顯,在有效降低地理信息數據采集難度的同時,也使得越來越多的用戶在互聯網上共享地理信息服務數據。但是,日益增長的地理信息服務空間數據在地理信息知識表達方面存在“數據豐富、知識匱乏”的現象,傳統的檢索方法已不能滿足人們獲取知識的需求。并且,傳統的地理信息服務語義檢索在元數據領域的標記方式在目前還沒有統一的標準,語義標記實現后容易導致次生的共享障礙。MIML(multi-instance multi-label learning,多示例多標記學習)是針對對象的歧義性而提出的一種學習框架[1,2],在該框架下,表述地理信息服務數據的語義信息由包含多個示例的示例包來表示,且其對應的描述該地理信息服務元數據的類別標記也不再是唯一的,而是變成多個標記該元數據的標記組成的集合。因此,MIML學習可以在地理信息服務語義標記方面得到有效應用。
Zhou等[1-2]于2007年提出MIML學習框架以來,已被相關研究者廣泛用于標記任務,如生物圖像信息學、圖像標注、視頻標注、文本分類等相關領域[3-4]。唐俊等[5]基于MIML方法的手機游戲道具推薦可以與任何機器學習模型進行結合,向用戶推薦所需要的游戲道具;王超俊[6]針對基于MIML方法的圖像分類標注進行研究,能夠提取更加全面的圖像,而且圖像分類也更全面,使得圖像的豐富性得以顯現出來;Zha等[7]基于隱含條件隨機場提出了一種集成MIML方法,可以同時捕獲語義標記和區域的關系以及標記間的關系;羅飛[8]基于MIML方法研究了圖像語義標注方法;彭亮[9]提出利用MIML對圖像與視頻進行自動語義標注方法,可有效地改善圖像和視頻標注的準確性。由上可以看出,MIML方法在語義標注方面已有較多的研究,但未有用于地理信息服務的語義標注相關研究。因此,該文將MIML方法用于OGC(open geospatial consortium,開放地理空間聯盟)地理信息服務(OGC web services)語義標注,在不破壞OWS能力文檔原有機構的基礎上實現海量OWS基于語義層面的檢索,解決地理信息服務語義的歧義性,實現檢索的查全率和查準率的雙重提高。
OWS文件中包含豐富的地理信息數據,每個能力文件中擁有多個描述地理信息服務的語義標簽,包括:服務標題(title)、服務摘要(abstract)、圖層摘要(layer abstract)、圖層關鍵字(layer keyword)、服務提供者的聯系信息(contact information)、請求能力描述(request GetCapabilities)、所支持的地圖格式(GetMap format)等,如圖1所示;但是,這些標簽值內容存在大量的冗余的描述地理信息的語義詞匯[10-11],如服務提供者的聯系信息、請求能力描述、所支持的地圖格式等標簽。根據標簽重要程度,該文選取其中四個主要的語義描述標簽來表述單個OGC地理信息服務能力文件的具體內容,分別為服務標題、服務關鍵字、服務摘要和圖層關鍵字,并解析提取描述地理信息服務內容的語義標簽title、keyword、abstract和layer keyword,同時獲取語義標簽的具體地理信息數據內容,如表1所示。

表1 元數據標簽屬性值提取

圖1 WMS能力文件描述文檔
為了從元數據標簽值中提取能夠體現OWS服務的標記詞匯,該文采用TF-IDF算法檢索、分類和過濾有價值的標記詞匯。TF-IDF權值的高低由兩部分組成,包括特征詞匯在一個信息文本中的出現權值和該特征詞匯在整個信息文本中的出現權值,兩者的乘積越高TF-IDF權值越高。因此,TF-IDF算法可以過濾無用特征詞匯,提取可以用于標記信息文本的重要詞匯。在地理信息服務能力文件中,TF的值表述某個地理詞匯在給定的能力文件中的出現頻率。對于在某個特定的地理信息服務能力文件里的地理詞匯ti來說,其重要性可表示為:
(1)

將所有地理信息服務能力文件總數除以含有該地理詞匯的文件的總數,再將結果商取對數獲得能力文件中某個特定地理詞匯的IDF值:
其中,|D|為研究對象中地理信息服務能力文件總個數,|{j:ti∈dj}|表示含有地理詞匯ti的能力文件數目,如果該地理詞匯未包含在所研究的能力文件中,則會導致被除數為零;因此,式(2)中使用1+|{j:ti∈dj}|。tfi,j×idfi=tfidfi,j表示某一特定地理信息服務能力文件內的高地理詞匯頻率,以及該地理詞匯在整個能力文件集合中的低文件頻率的乘積,可以使TF-IDF占有較高的權重。
該文將OGC地理信息服務能力文件作為訓練樣本,對能力文件的描述內容進行數據預處理后,再對OWS文件的特征詞匯提取分類并反饋,實現TF-IDF算法后向能力文件推送權值最大的標記詞匯組,如表2所示。

表2 TF-IDF算法提取標記詞匯組
設X表示示例空間,Y表示標記空間,數據集D={(X1,Y1),(X2,Y2),…,(Xm,Ym)},其中,Xi?X為一組示例{Xi1,Xi2,…,Xi,ni},Xi,j∈X(j=1,2,…,ni)為第i個包的第j個示例,而Yi?Y為Xi的一組合適類別標記{yi1,yi2,…,yi,ni},ni為Xi中所含示例的個數,ki為Yi中所含標記的個數。
多示例多標記學習的目的是得到f:2X→2Y,MIMLBoost算法以多示例學習為橋梁,將學習目標轉化為fm:2X×y→{-1,+1},然后再進一步轉化為傳統監督學習問題:給定(xi,yi),對示例空間和標記空間進行拼接,將集合轉化為|Y|個多示例樣本,原數據集D則轉化為多個多示例單標記樣本:{([Xi,y]),φ[Xi,y]|y∈Y};其中,[Xi,y]包含ni個示例{(Xi1,y),(Xi2,y),…,(Xini,y)},φ[Xi,y]=+1當且僅當y∈Yi,否則φ[Xi,y]=-1。上述轉換過程完成后再利用多示例學習算法MIBoosting[12]進行求解。
基于MIMLBoost算法實現對OGC地理信息服務的語義標記,例如對文件名為Combined Bedrock and Superficial Geology and mineral的OWS文件(http://ows.geogrid.org/GSJ_CCOP_Combined_Bedrock_and_Superficial_Geology_and_Age/wms)語義標記可以得到如表3所示的描述該OWS文件的具體地理信息數據和語義標記。

表3 基于MIMLBoost算法的示例包
OGC地理信息服務元數據里的語義標簽服務標題(title)、服務摘要(abstract)、服務關鍵字(keyword)、層關鍵字(layer keyword)分別表示MIMLBoost算法里的示例包的示例單元,如表4所示。

表4 基于MIMLBoost算法的標記包
基于MIMLBoost算法示例包里的示例內容與每個標記關鍵字分別放入集合中,當集合中的每個地理關鍵字分別在四個示例單元中出現,則認為該地理關鍵字可以作為代表性描述詞匯用來標記OWS文件。結合表2和表3,OWS文件Combined Bedrock and Superficial Geology and mineral則可以用bedrock、geology、mineral對其主要描述內容進行語義標記。
為驗證基于MIMLBoost的OGC地理信息服務的語義檢索系統的查準率和查全率,采用來源于OneGeology[13]開放網站和美國地質勘探局(USGS)數據共享中心[14]的300條可正常訪問的地理信息服務數據。用戶在執行檢索界面查詢“mineral”時,查詢關鍵字通過地質礦產本體庫擴展,獲取該查詢關鍵字的本體詞集,檢索結果界面檢索出與“mineral”及與之相關的本體詞集相匹配的所有地理信息服務,檢索結果如圖2所示。

圖2 以“mineral”為關鍵字的檢索結果
該文分別基于GeoNetwork[15]檢索、基于MIMLBoost學習框架的語義檢索和MIMLBoost匹配與本體庫結合的檢索3種方式進行實驗,其對應的查全率和查準率如圖3所示。

圖3 基于“金屬礦”為關鍵字檢索結果對比
與基于GeoNetwork的查詢結果相比,在應用基于MIMLBoost學習框架的語義檢索后,查全率與查準率兩個指標都有較大程度的提高,分別提高了10%和7.86%;而將基于MIMLBoost的多示例多標記的學習框架、TF-IDF加權算法與地質礦產領域的本體庫結合后,OWS查全率與查準率與基于GeoNetwork的查詢相比分別提高22%和16.34%,達到92%、93.48%,對OGC Web Service地理信息服務檢索的查全率與查準率有較為明顯的提高。
OWS地理信息服務的元數據描述是基于XML的文件,包含大量的領域信息,但目前所使用的面向OWS的檢索軟件僅基于關鍵詞層面,而無法發現其蘊含的語義信息。該研究通過將MIML與地理本體相結合的方式,實現了面向OWS地理信息服務的語義層面的檢索,解決了用戶在查詢應用地理信息服務時,難以獲取其真正所需的OWS數據的問題。該方法無論在查全率還是查準率方面都有較大程度的提高,為OWS地理信息服務語義檢索相關研究提供了一種參考思路。