孫洪亮,王志寶,孫相棋,管澤禮
(1.東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318;2.大慶油田有限責任公司第四采油廠 地質大隊,黑龍江 大慶 163511)
基于WebGIS與SOLR的地學可視化檢索系統研究
孫洪亮1,王志寶1,孫相棋2,管澤禮1
(1.東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318;2.大慶油田有限責任公司第四采油廠 地質大隊,黑龍江 大慶 163511)
地球科學是數據密集型科學,信息檢索是地學研究的必要步驟。文中針對目前主流的信息檢索系統空間語義感知能力不足的問題,設計了顧及空間和語義的檢索系統架構。在地學知識庫的支持下,采用命名實體識別、實體消歧等自然語言處理技術,將非結構化文檔空間化,采用WebGIS地理空間信息技術對查詢過程與檢索結果可視化。文中以石油勘探為例,在開源檢索平臺SOLR和空間數據庫PostgreSQL的基礎上實現了方法驗證。經過系統測試和用戶使用的驗證,該系統提高了地球科學信息檢索性能與用戶體驗。
地學信息檢索;SOLR;地球科學;網絡地理信息系統
隨著數字地球和智慧地球進程的推進,地球科學也進入大數據時代,在Web上和相關機構內部積累了海量的地球科學信息,信息檢索是地球科學研究人員信息過濾和知識獲取的必要工具。據統計,網絡搜索引擎系統19%左右的檢索詞包含地理名詞,15%左右的檢索詞包含空間信息[1]。由于相關的地理科學、地質科學、環境科學等領域的地球空間依賴性,地球信息檢索系統要能主動感知用戶查詢和文檔中的空間信息,并提供符合語境的可視化查詢與結果瀏覽界面。目前主流的信息檢索系統,在用戶查詢階段忽略了地名等關鍵詞的特殊空間語義,在文檔分析階段也沒有對文檔中的空間信息進行識別和編碼。例如,“河北南部的景區”切詞成“河北”、“南部”和“景區”三個關鍵詞,按照某種信息檢索模型,實現查詢和文檔的最大匹配,發現最相關文檔。這個過程不論是從語義角度,還是從檢索可視化角度,都不能滿足地球科學領域的特殊信息檢索需求。
利用自然語言處理技術挖掘地球科學非結構化文檔中的空間信息,采用地球空間信息技術實現對地學信息檢索的可視化,對提高地學信息檢索的性能具有現實意義。
為實現空間感知的網絡信息檢索,2002年歐洲的卡迪夫大學、蘇黎世大學等六所大學發起的SPIRIT(Spatially-aware Information Retrieval on the Internet,空間感知的網絡信息檢索)項目,提出了地理空間信息檢索的系統架構,以及文本空間解析、地理信息檢索可視化、地理知識庫、混合索引等研究主題,開辟了GIR(Geographic Information Retrieval,地理信息檢索)研究方向[2]。
2006年,西班牙巴侖西亞理工大學開發了面向網頁搜索的地理信息檢索系統(Geographically-enhanced web search engine,GEOOREKA),基于谷歌和雅虎搜索服務,集成了地理空間數據庫,采用地圖的方式允許用戶對進行空間和主題雙維查詢,提高了網頁地理搜索的質量[3]。
2010年,西班牙拉科魯尼亞大學(Local Search)針對地理信息檢索的需求,提出了一種支持查詢擴展的混合索引結構,設計了地理信息檢索系統架構,采用TREC FT-91和TREC FT-94數據集對原型系統進行了評測[4]。
2012年,弗吉尼亞理工學院與谷歌公司提出了時間、空間和文本集成檢索框架,采用自然語言處理技術對文本中的時空信息和主題信息建模,使用標簽云和熱度圖方法對相關信息進行了可視化[5]。
2010年,德國海德堡大學使用UIMA文本管理平臺和共現模型,提取了文檔的時空軌跡,并采用WebGIS技術對文檔的軌跡進行了可視化[6]。
2013年,北京大學針對當前定量化的地理信息檢索模型無法有效處理自然語義導致檢索結果不理想的問題,以定性表達為基礎,以推理方法為手段,實現Web文檔中空間信息內容與查詢請求的定性表達和信息提取,并使用實現了基于WebGIS的可視化信息檢索系統—GeoSearch[7-8]。
這些系統提取文本中的空間信息,通過空間和文本雙重索引實現對非結構化文檔的管理,采用信息可視化技術對檢索結果進行視覺呈現。但是這些系統多是針對英文文檔管理,主要抽取的是以地名為載體的地理空間信息,而地球科學還很關注地層等地質空間特征。
文中從定性的角度出發,考慮中文環境下地球科學文檔空間特征的復雜性,采用開源技術方案,實現對地球科學領域文檔的可視化檢索,提高了地球科學的信息檢索體驗與效率。
該系統的技術架構(見圖1)主要由兩部分組成:文檔的預處理階段和檢索運行時階段。

圖1 地學可視化信息檢索系統架構
在預處理階段,對地學文檔進行歸一化轉換、領域分詞,建立文本索引,文中采用SOLR平臺作為文本處理平臺;此外,還要做文檔空間化處理,即采用空間命名實體識別方法抽取文檔中的地理空間信息與地質空間信息。文中采用空間知識庫,結合空間實體在文檔中的頻率與排版樣式,建立實體的重要性模型,在此模型的基礎上給出文檔的空間主題,在空間知識庫的支持下將文檔的空間主題映射到地球空間的實際位置。文檔空間矢量化根據每個文檔的空間主題建立文檔集的矢量圖層,存儲到PostGIS空間數據庫,作為可視化引擎的輸入。
在查詢運行時階段,用戶輸入主題查詢和空間查詢,表達自己的地學信息檢索需求。如果用戶的空間查詢是一個空間實體,可以在地理視圖上直接定位到該區域,進行查詢可視化,用戶也可以在地理視圖上選擇感興趣的區域和地層作為空間查詢輸入。將業務查詢與文本索引進行匹配,將空間查詢與空間索引進行匹配,然后對兩個結果集取交集運算,對最終的結果考慮主題和空間兩個因子進行排序輸出,將命中文檔的空間范圍疊置在BingMap展示,同時配合用戶的交互操作,對文檔列表視圖和地理視圖進行關聯更新,實現對檢索結果的可視化。
文檔空間化主要包括領域分詞、空間命名實體識別、語義消歧、空間編碼、矢量化和索引化,如圖2所示。其中,空間命名實體識別、語義消歧、空間編碼是技術難點[9]。
領域分詞:地球科學對某一字符串有自身特定的語義理解,比如“松深60”是一個探井井名,但是在一般的切詞算法中容易被分割為“松深”+“60”兩個詞。文中采用基于領域詞典和正向迭代最細粒度切分相結合[10]的切詞方法。
空間命名實體識別:識別文本中涉及的地理空間命名實體與地質空間命名實體,地球科學涉及地球各個圈層,文中采用SWEET[11]地球與環境科學本體中具有空間屬性的概念作為命名實體分類,識別方法也是采用知識與機器學習結合的方法[12-13]。除此之外,還解決了實體歧義問題,例如“薩爾圖”是地理行政區域也是地質空間的底層。
語義消歧:包括地學空間實體與地學空間實體的歧義,例如“薩爾圖”可能是松遼盆地的一個油田,也可能是指大慶市的一個行政區;還有地學空間實體與非地學空間實體的歧義,例如“鐵人”可以是王進喜,也可以是鐵人廣場。文中系統采用基于本體的語義消歧方法,即在地球科學本體的統一約束下,根據詞匯上下文的語義判定詞匯的最大可能類別[14]。
空間編碼:文檔可能會涉及水平空間和垂向空間的多個空間位置,文中認為這些空間位置中隱含著這個文檔的空間主題,將文檔中識別出來的空間命名實體做聚焦計算,將結果映射到地球空間,實現文檔的空間主題編碼。包括水平空間和垂直空間兩個維度的映射,例如一篇文檔的水平空間信息為“松遼盆地北部”,垂直空間信息為“白堊紀”地層。
矢量化:遍歷整個文檔數據庫,通過空間編碼信息,根據地名數據庫和地球科學領域空間數據,根據每個文檔的MBR建立一個矢量圖層,所建立的圖層保存在PostGIS空間數據庫中,以便于支持空間查詢。
建立空間索引:采用R樹索引建立海量文檔矢量索引,提高文檔空間查詢的效率。然后,使用文中的倒排索引和R樹建立組合索引,支持用戶的主題和空間的組合查詢。

圖2 文檔空間化流程圖
地學空間本體:在地學文檔空間化中多處用到地學空間本體,文中系統以SWEET本體為基礎建立本體TBox,ABox來自于各類地學詞典、敘詞表和權威地學數據庫。地學空間本體采用融合式建立方法,對于TBox層的語義沖突主要還是人工消解,對于Abox的語義沖突采用半監督機器學習方法消解。
信息檢索可視化將文檔、用戶查詢、信息檢索模型、檢索過程以及檢索結果中各種語義關系轉換成圖形,在一個二維或者三維的空間中可視化,幫助地學研究人員理解檢索結果、調整檢索方向。WebGIS在瀏覽器中實現了高效豐富的地學信息瀏覽與空間查詢,是地學研究人員常用的信息管理工具,為抽象的地學信息檢索相關對象提供了具體直觀的地學上下文,是天然的地學信息檢索可視化空間。
地學信息檢索可視化原理如圖3所示。

圖3 地學信息檢索可視化原理
利用WebGIS先對用戶空間查詢進行可視化或者定義用戶的空間查詢,WebGIS內在的廣角與聚焦信息可視化技術實現快速地定義用戶的感興趣區域;在結果瀏覽階段,文檔集視圖與地理信息視圖通過關聯更新,在互動中實現對目標文檔的定位。微軟BingMap具有豐富的空間數據、友好的用戶體驗和豐富的二次開發功能。文中系統以BingMap JS API為基礎,通過OpenLayers開源組件對BingMap進行尺度變換控制,使用文檔MBR對文檔空間特征進行表達,將檢索結果在地圖上呈現,并采用關聯更新技術對文檔視圖進行動態更新。
文中系統采用開源軟件SOLR 5.1作為檢索平臺,SOLR的分詞與文本分析都支持插件式的功能集成,文檔查詢與索引都支持REST風格的網絡服務API,可與其他模塊實現快捷的松耦合通信,SOLR的近實時索引技術和集群擴展技術為以后的大規模應用提供了保障。BingMap是微軟的在線地圖,具有豐富的影像數據與空間矢量數據,是很好的在線WebGIS。文檔矢量圖層與BingMap的客戶端渲染采用OpenLayers實現,文檔的關鍵詞檢索與列表顯示采用JQuery庫實現。為保證用戶體驗,瀏覽器與服務端的通信采用XMLHTTP協議,通信格式使用JSON格式。
系統測試數據來自CNKI下載的2 000篇文檔,主要領域為地球科學石油勘探子領域。對這些文檔進行歸一化處理,形成SOLR可索引的格式,再讓專業人員對文檔進行標注,形成測試預料庫。檢索結果排序采用雙維模型:語義維和空間維。彌補了傳統文檔檢索忽略文檔空間信息而導致的準確率降低的問題。通過實驗證明,文中系統的F1測度在75%以上,這是一個不錯的結果,同時也是一個可應用的結果。
文中分析了地球科學領域對空間可視化信息檢索的領域需求,分析了現有領域信息檢索系統和地理信息檢索系統的不足。考慮地球科學領域對信息檢索的特殊需求,設計了地學可視化信息檢索系統架構,給出了非結構化文檔的空間化方法,實現了文檔中空間信息的提取,實現了基于WebGIS的交互式地學信息檢索可視化。最后以開源信息檢索平臺SOLR5.1為基礎平臺,集成了Jquery、EasyUi、OpenLayers若干開源模塊,實現了系統原型。該原型系統經過專業人員的測試和試用,可以提高地球科學專業人員的信息檢索效率。
未來的工作,將進一步考慮地球科學含有三維空間信息的事實,進一步區分水平空間信息和垂向空間信息,同時研發基于3D數字地球的可視化平臺,以地球空間作為信息可視化空間,同時結合信息檢索本源的語義空間檢索可視化,進一步提升地球科學信息可視化檢索的效果。
[1]SandersonM,KohlerJ.Analyzinggeographicqueries[C]//SandersonM,JrvelinK,AllanJ,etal.Proceedingsofthe2004workshopongeographicinformationretrieval,27thannualinternationalACMSIGIRconference.NewYork:ACMPress,2004:245-246.
[2]JonesCB,PurvesRS.Geographicalinformationretrieval[J].InternationalJournalofGeographicalInformationScience,2008,22(3):219-228.
[3]BuscaldiD,RossoP.Geooreka:enhancingWebsearcheswithgeographicalinformation[C]//deAntonellisV,CastanoS,CataniaB,etal.ProceedingsoftheseventeenthItaliansymposiumonadvanceddatabasesystems.[s.l.]:[s.n.],2009:205-212.
[4]BrisaboaN,LuacesM,PlacesA,etal.Exploitinggeographicreferencesofdocumentsinageographicalinformationretrievalsystemusinganontology-basedindex[J].GeoInformatica,2010,14(3):307-331.
[5]WangB,DongH,BoedihardjoAP,etal.Anintegratedframeworkforspatio-temporal-textualsearchandmining[C]//Proceedingsofthe20thinternationalconferenceonadvancesingeographicinformationsystems.[s.l.]:ACM,2012:570-573.
[6]Str?tgenJ,GertzM,PopovP.Extractionandexplorationofspatio-temporalinformationindocuments[C]//Proceedingsofthe6thworkshopongeographicinformationretrieval.[s.l.]:ACM,2010:1-8.
[7] 劉 磊,高 勇,林 星,等.定性地理信息檢索方法及其實現[J].北京大學學報:自然科學版,2013,49(6):1017-1024.
[8] 林 星.地理信息檢索中的定性信息表達方法和檢索模型研究[D].北京:北京大學,2011.
[9] 張 毅,王星光,陳 敏,等.基于語義的文本地理范圍提取方法[J].高技術通訊,2012,22(2):165-170.
[10]LinLiangyi.ik-analyzer-java開源中文分詞器[EB/OL].2015.https://code.google.com/p/ik-analyzer/.
[11]JetPropulsionLaboratory.SWEEToverview[EB/OL].2015.http://sweet.jpl.nasa.gov/.
[12] 鞠久朋,張偉偉,寧建軍,等.CRF與規則相結合的地理空間命名實體識別[J].計算機工程,2011,37(7):210-212.
[13] 唐旭日,陳小荷,張雪英.中文文本的地名解析方法研究[J].武漢大學學報:信息科學版,2010,35(8):930-935.
[14]BuscaldiD.Approachestodisambiguatingtoponyms[C]//ProcofSIGSPATIAL.NewYork,NY,USA:ACM,2011:16-19.
Research on Geoscience Visualization Information Retrieval System Based on WebGIS and SOLR
SUN Hong-liang1,WANG Zhi-bao1,SUN Xiang-qi2,GUAN Ze-li1
(1.College of Computer & Information Technology,Northeast Petroleum University,Daqing 163318,China;2.Geological Department,the Fourth Oil Production Plant of Daqing Oilfield Company,Daqing 163511,China)
Earth science is data-intensive science,and information retrieval is a necessary step in earth sciences.As the mainstream information retrieval system can identify space semantic weakly,the architecture taking into account spatial entities and thematic information is put forward.The spatialization of unstructured documents are implemented with natural language processing including named entity recognition and disambiguation with the help of geoscience knowledge base.The visualization method of the query and retrieved results is put forward by using of WebGIS.A demo system based on SOLR,an open source information retrieval platform and PostgreSQL,a spatial database,is implemented to verify the method.Practices show that the system improves the performance and user experience by data test and validation.
geo-information retrieval;SOLR;earth sciences;Web GIS
2015-08-13
2015-11-18
時間:2016-05-05
黑龍江省大學生創新項目(201410220056);東北石油大學青年科學基金(NEPUQN2014-18)
孫洪亮(1992-),男,研究方向為信息檢索;王志寶,副教授,博士,通訊作者,研究方向為地理信息檢索、知識庫。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0828.076.html
P208; TP311
A
1673-629X(2016)06-0171-04
10.3969/j.issn.1673-629X.2016.06.038