999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本的地理命名實體標注

2012-01-31 08:23:26張雪英朱少楠張春菊
測繪學報 2012年1期
關鍵詞:語義文本

張雪英,朱少楠,張春菊

南京師范大學虛擬地理環(huán)境教育部重點實驗室,江蘇南京210046

1 引 言

全球技術(shù)研究和咨詢公司2002年調(diào)查報告表明,未來10年中至少95%的人機交互信息是文本語言,而80%以上的文本中涉及地理信息描述[1]。文本、圖形/圖像/地圖、GIS和虛擬地理環(huán)境是現(xiàn)實世界和虛擬世界應用的主要地理語言[2]。除了傳統(tǒng)的攝影測量和地圖數(shù)字化手段之外,GPS、遙感影像、文本等已成為新型的重要地理信息來源[3-4]。實現(xiàn)文本中地理信息的語義解析,有助于更加深入地理解空間認知和空間語言的表達規(guī)律,建立自然語言與GIS計算模型之間的語義映射關系,可廣泛應用于GIS空間查詢、地理信息檢索、空間推理等方面[9-12]。在文本描述中,空間概念可能頻繁改變,而且涉及不同的實體、空間關系、屬性等信息[5-8]。這些信息在文本中主要采用特定的空間詞匯和定性方式進行表達,但是在詞匯、句法和語義等方面存在較為明顯的不確定性。語料庫不僅是語言定性、定量分析研究的基礎,而且支持特定領域的應用系統(tǒng)開發(fā)[13-15]。標注體系構(gòu)建的任務是對語言中特定信息進行分析,發(fā)現(xiàn)文本中特定領域信息的語言結(jié)構(gòu)(比如詞、詞組、句法模式等),建立描述它們的元數(shù)據(jù)[16]。不同層次標注的語料庫是文本信息解析系統(tǒng)的必備資源,為其提供標準化的訓練和測試數(shù)據(jù)。相關標注體系和語料庫的匱乏是阻礙文本中地理信息解析的重要因素[17]。

地理標記語言(geography markup language,GML)以一種互聯(lián)網(wǎng)上容易共享的方式來描述、表達現(xiàn)實世界中的地理信息。GML定義數(shù)據(jù)的格式和數(shù)據(jù)內(nèi)容,提供一個描述地理對象的框架。KML(keyhole markup language)是基于XML(extensible markup language)語法和文件格式的文件,用來描述和保存地理信息,并在Google Earth客戶端中顯示。GML和KML是當前應用最廣的兩種地理信息標記語言,主要面向結(jié)構(gòu)化、定量化地理信息的描述、表達和保存,且二者具有較好的兼容性。GUM(generalized upper model)是一個通用語言驅(qū)動本體,將自然語言中空間表達式形式化為:SpatialLocating SL(locatum"XX",placement GL(hasSpatial-Modality XX,relatum"XX"|hasSpatialModality XX,relatum"XX"+quantitativeDistance-Extent"XX",relatum"XX")),SpatialModality指連接、相離、左、右、遠等關系狀態(tài)[18]。TRML(toponym resolution markup language)是用于標注英文文本中地名及其要素名稱、幾何類型、經(jīng)緯度、上層實體等屬性的標注體系[19]。GeoTagger與TRML較為類似,可以對不同類型不同語言的文檔進行地名標注,已應用于MetaCarta公司的智能化地名搜索系統(tǒng)。TESLA(the geospatial language annotator)是專用于實時路徑描述的語音語料標注系統(tǒng),與GIS數(shù)據(jù)庫相結(jié)合,構(gòu)建了PURSUIT語料庫,對路徑描述中的坐標、街道、交叉口、地址和標志性點狀實體進行了標注[20-21]。SpatialML定義了文本中地名及其空間關系的標注體系,并擴展為ACE(automatic content extraction)英文文本空間關系抽取評測語料庫的標注規(guī)范[17]。20世紀80年代以來,面向語言學和信息抽取方法研究,國內(nèi)相繼建立了一些大型的標注語料庫。但是,絕大多數(shù)都沒有考慮空間語義的表達與解析問題。哈爾濱工業(yè)大學對中文版《伊索寓言》中的地名、人、物等實體和空間關系進行了標注[22]。文獻[23]初步探討了中文文本的空間語義角色標注,并以30篇標注文本為數(shù)據(jù)集,測試了中文文本中地理實體、空間關系和空間過程的信息抽取效果。綜上所述,GUM、TRML和SpatialML等較為完善的標注體系適用于英文文本中地名標注,而針對漢語的相關研究尚處于初步探索階段,缺乏較大規(guī)模的應用型標注語料庫。

2 中文文本和GIS中地理實體描述與表達機制的差異

命名實體是自然語言處理、信息抽取和文本數(shù)據(jù)挖掘等領域廣泛使用的概念,通常指文本中描述具有特定意義實體的特殊短語,包括人名、地名、機構(gòu)名、專有名詞等[24]。地理命名實體(geographical named entities,GNE)可看成是特定領域的命名實體,即文本中描述具有地理位置特性的命名實體,包括地名、地址、機構(gòu)名、郵政編碼等,具有模糊性、不確定性和多維動態(tài)等特點[25]。地名是地理命名實體的重要組成部分,具有濃厚的語言表達特征[26-27]。具體來講,中文文本中地理命名實體的語言描述特征包括:① 用字較自由、分散,但具有相對集中的覆蓋能力[28];② 結(jié)尾常有特征詞,比如“省、路、山”等;③ 附加方位詞,比如 “五臺山”是一個地名,而“五臺山北部”則是一個完整的地理命名實體;④ 大多數(shù)情況下作為名詞出現(xiàn),有時作為形容詞修飾其他實體,如“[老山]洋槐蜜”;⑤ 有的地理命名實體沒有具體名稱,但是根據(jù)上下文中的空間位置關系描述,可以對其進行空間定位,比如“南師大正門前的池塘”中的“池塘”是一個地理命名實體,但不是一個嚴格意義上的地名。很顯然,中文文本和GIS中對于地理實體的描述與表達機制存在較大的差異(表1)。

表1 中文文本與GIS中地理實體描述與表達機制的差異Tab.1 Difference of representation of geographical entities in Chinese text and GIS

3 地理命名實體的標注體系

地理命名實體標注體系側(cè)重于地理實體在文本中的空間語義表達,同時考慮信息的兼容、共享與交換性能。本文以XML為標記元語言,設計了地理命名實體的標注體系。地理命名實體采用〈GNE〉標簽,包括4個屬性:①id是標注單元序號;②type和typecode分別描述地理實體的要素類型和代碼,本文樣例中分類參考《地理命名實體要素類型分類體系(GNEC)》[29];③form,標識地理命名實體的具名和不具名特性,NAM和NOM分別指示有具體名稱和無具體名稱的地理實體;④mod,文本中經(jīng)常存在對地理命名實體的一些限制性修飾(如方位詞),為了便于實體的空間位置語義解析,這些詞匯作為實體的mod屬性標注。

在標注過程中,需要考慮漢語中地理實體描述的語言特點。地理命名實體的標注以句子為單位,在保證空間位置語義基本完整的前提下,對地理實體概念進行最小語義單元的標注,具體標注定義如下。

(1)組合式地理命名實體:對于不同等級連續(xù)描述的地理命名實體,按照地理范圍進行分級標注。

(2)并列式地理命名實體:以頓號、短劃線或其他符號分隔的地理命名實體,如果單獨標注會破壞空間語義的完整性,則整體進行標注。

(3)關聯(lián)式地理命名實體:多個地理命名實體與上下文連接起來描述某種空間關系,將實體分開標注。

若一個或多個具名的地理命名實體和一個不具名的地理命名實體合起來表示一個地理實體,則進行整體標注。

(4)后綴式地理命名實體。

空間關系詞匯:地理命名實體通常后接表示方位詞,指示實體的區(qū)域范圍,此類詞匯作為地理命名實體的屬性標注。

地理概念:一個地理命名實體與表示地理要素類型詞語合起來表示一個新的地理實體,則進行整體標注。

混合型:空間方位詞加岸、麓、坡等地理要素概念構(gòu)成的實體名稱,如上游、南岸、南麓,南坡等,首先標注為空間關系詞匯〈SIGNAL〉,然后作為地理實體的mod屬性。

(5)指代名稱:地理命名實體在下文中通常以指代名稱出現(xiàn),如××省、××縣在下文通常表達為“省、市、縣”,或者下文中繼續(xù)描述該地理實體的“北部、東部”等。如果指代名稱與完整地理實體名稱位于同一語句,則對指代名稱進行標注,否則不予標注。

(6)地理分區(qū):有些區(qū)域名稱描述的地理實體,并沒有固定邊界,如“中東地區(qū)”和“西北地區(qū)”等,需要進行標注。

(7)機構(gòu)名稱:機構(gòu)名稱具有空間位置的指示作用,作為地理命名實體標注。

(8)替代性名稱:地理命名實體的別名、簡稱等替代性名稱,需要標注。但是,“意指(意為)[× ××]”等不作標注。

(9)抽象概念:如果地理命名實體不包括地理位置含義,而是僅僅作為一個抽象概念使用,則不進行標注,如“[麥當勞]24小時營業(yè)”。

為了確定文本中地理實體的地理位置,標注者可以使用整篇文章作為語義背景,或者參考常識知識和專業(yè)知識。如果文本中沒有明確的位置指示,可以不標注地理參考,或者標注為最高級別的行政區(qū)劃類別。例如,“蕪湖”可以指安徽省的“蕪湖市”,也可以指蕪湖市的蕪湖縣。

4 標注語料庫

開源自然語言處理軟件GATE,可接受XSD格式的schema文件,使用戶按照一定標注框架對文本進行標注,同時提供標注數(shù)據(jù)管理方案,經(jīng)過GATE處理的語料可統(tǒng)一存儲為XML格式。本文以《中國大百科全書中國地理》為源數(shù)據(jù)(約213萬字),以GATE為標注平臺(圖1),參考本文設計的地理命名實體標注體系,建立了大規(guī)模的標注語料庫GeoCorpus。

圖1 基于GATE的地理命名實體標注界面Fig.1 Annotation interface of geographical named entities with GATE

表2 語料庫GeoCorpus中各大類標注樣例Tab.2 Annotation samples of main classes in GeoCorpus

續(xù)表2

語料庫中各大類標注樣例參見表2。地理命名實體標注總數(shù)為7135個,其中大類“境界、政區(qū)與其他區(qū)域”3387個、“水系”1497個、“居民地及設施”983個、“地貌”958個、“交通”256個、“組織機構(gòu)”49個、“管線”等其他類5個;“國家行政區(qū)”、“自然地貌”、“河流”、“名勝古跡”、“居民地”、“湖泊”、“其他水系要素”、“非行政區(qū)域”、“鐵路”、“其他建筑物及其設施”10種要素類型的地理命名實體數(shù)量最多。從空間認知的角度看,這些類型的地理實體具有較高的認知顯著度,其語言描述特征具有一定的代表性。因此,盡管從數(shù)據(jù)量來看語料庫存在一定的不平衡性,但是仍然具有作為標準數(shù)據(jù)的研究和應用能力。

5 結(jié) 論

探討中文文本中地理命名實體的標注體系和語料庫標注方法,不僅充分考慮中文文本的語言描述特點,而且在保證空間語義正確的情況下,能夠?qū)Ω鞣N不同類型的地理命名實體進行標注;以《中國大百科全書中國地理》為源數(shù)據(jù)的標注語料庫,不僅規(guī)模較大,而且達到較高的標注質(zhì)量,對中文文本中地理信息的語義解析有重要意義。下一步研究工作主要包括兩個方面:一是進一步完善標注體系,通過大規(guī)模普通網(wǎng)頁的標注,解決語料庫的不平衡性問題;二是與GIS數(shù)據(jù)庫相結(jié)合,開發(fā)可視化的標注工具,進一步提高標注效率和標注質(zhì)量。

[1] PALKOWSKY B,METACARTA I.A New Approach to Information Discovery—Geography Really Does Matter[C]∥Proceedings of the SPE Annual Technical Conference and Exhibition.Dallas:[s.n.],2005.

[2] LIN Hui,GONG Jianghua.On Virtual Geographic Environments[J].Acta Geodaetica et Cartographica Sinica,2002,31(1):1-6.(林暉,龔建華.論虛擬地理環(huán)境[J].測繪學報,2002,31(1):1-6.)

[3] GOODCHILD M F.Citizens as Voluntary Sensors:Spatial Data Infrastructure in the World of Web 2.0[J].International Journal of Spatial Data Infrastructures Research,2007(2):24-32.

[4] CHANG K T.Introduction to Geographic Information Systems[M].New York:McGraw-Hill,2008.

[5] HERSKOVITS A.Language and Spatial Cognition:An Interdisciplinary Study of the Prepositions in English[M].London:Cambridge University Press,1986.

[6] TALMY L.Toward a Cognitive Semantics:Concept Structuring Systems[M].Cambridge:MA,MIT Press,2000.

[7] TENBRINK T.Space,Time and the Use of Language:An Investigation of Relationships[M].Berlin:Mouton de Gruyter,2007.

[8] HOIS J,KUTZ O.Counterparts in Language and Space Similarity and Connection[C]∥Proceedings of the Fifth International Conference on Formal Ontology in Information Systems.[S.l.]:DFKI,2008.

[9] FRANK A U.Qualitative Spatial Reasoning:Cardinal Directions as an Example[J].International Journal of Geographical Information System,1996,10:269-290.

[10] TAPPAN D.Knowledge-based Spatial Reasoning for Automated Scene Generation from Text Descriptions[D].Las Cruces:New Mexico State University,2004.

[11] JONES C B,PURVES R.Geographical Information Retrieval[J].International Journal of Geographical Information Science,2008,22:219-228.

[12] LIU Y,GUO Q H,WIECZOREK J,et al.Positioning Localities Based on Spatial Assertions[J].International Journal of Geographical Information Science,2008,23(11):1471-1501.

[13] WEN Boyan.Corpus and It’s Application[J].Foreign Language Learning Theory and Practice,2001,2:32-35.(文渤燕.語料庫及其作用[J].國外外語教學,2001,2:32-35.)

[14] SINCLAIR J.Corpus Concordance Collocation[M].Shanghai:Shanghai Foreign Language Education Press,1995.(辛克萊.語料庫、檢索與搭配[M].上海:上海外語教育出版社,1995.)

[15] LIU Lianyuan.Study of Corpus for Contemporary Chinese Language[J].Applited Linguistics,1996,3:2-9.(劉連元.現(xiàn)代漢語語料庫研制[J].語言文字應用,1996,3:2-9.)

[16] KIM J D,OHTA T,TSUJII J I.Multilevel Annotation for Information Extraction[J].Speech and Language Technology,2010,40:125-142.

[17] MANI I,HITZEMAN J,RICHER J,et al.SpatialML:Annotation Scheme,Corpora,and Tools[C]∥Proceedings of the 6th International Conference on Language Resources and Evaluation.Morocco:LREC,2008.

[18] TALMY L.The Fundamental System of Spatial Schemes in Language[J].From Perception to Meaning:Image Schemes in Cognitive Linguistics,2005,1,199-263.

[19] LEIDNER J L.Toponym Resolution in Text[D].Scotland:Universal of Edinburgh,2007.

[20] KILGOUR J,CARLETTAM J.The NITE XML Toolkit:Demonstration from Five Corpora[C]∥Proceedings of the 5th Workshop on NLP and XML:Multi-Dimensional Markup in Natural Language Processing.Trento:[s.n.],2005:65-68.

[21] CARLETTA J,KILGOUR J.The NITE XML Toolkit Meets the ICSI Meeting Corpus:Import,Annotation,and Browsing[C]∥Proceedings of Machine Learning for Multimodal Interaction:First International Workshop.Berlin:Springer-Verlag,2005:111-121.

[22] LI Hanjing.Research on Spatial Conceptual Model Based on Natural Language Processing[D].Harbin:Harbin Institute of Technology,2007.(李晗靜.基于自然語言處理的空間概念建模研究[D].哈爾濱:哈爾濱工業(yè)大學,2007.)

[23] LE Xiaoqiu.Research on Intelligent Web Search Engine of Unstructured Spatial Inofrmation[D].Beijing:Institute of Remote Sensing Applications,2007.(樂小虬.非結(jié)構(gòu)化網(wǎng)絡空間信息智能搜索與服務研究[D].北京:中國科學院遙感應用研究所,2007.)

[24] LI Yusen.Chinese Toponym Resolution and Visualization[D].Chongqing:Chongqing University of Posts and Telecommunications,2009.(李玉森.面向空間位置服務的地名解析方法研究[D].重慶:重慶郵電大學,2009.)

[25] CAO Han.Research on Knowledge Representation and Reasoning Mechanism for Spatial Relation Reasoning[D].Wuhan:Wuhan University,2002.(曹菡.空間關系推理的知識表示與推理機制研究[D].武漢:武漢大學,2002.)

[26] DONG Huirong.Probing the Thinking Mode and Social Psychology of the Hans in the View of Chinese Place Name[J].Academic Exchange,2003(12):138-141.(鄧慧蓉.從中國地名透視漢族人的思維方式和社會心理[J].學術(shù)交流,2003(12):138-141.)

[27] WU Zhirong.Discussion on Place Name Words[J].Map,2006(1):42-43.(吳志榮.地名用字瑣談[J].地圖,2006(1):42-43.)

[28] FENG Zhiwei.Empiricism-based Corpus Research[J].Terminology Standardization &Information Technology,2007(1):29-39.(馮志偉.基于經(jīng)驗主義的語料庫研究[J].術(shù)語標準化與信息技術(shù),2007(1):29-39.)

[29] ZHANG Xueying,ZHANG Chunju,LV Guonian.Design and Analysis of a Classification Scheme of Geographical Named Entities[J].Journal of Geo-Information Science,2010(2):220-227.(張雪英,張春菊,閭國年.地理命名實體分類體系的設計與應用分析[J].地球信息科學,2010(2):220-227.)

猜你喜歡
語義文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 影音先锋丝袜制服| 日韩免费视频播播| 精品国产美女福到在线直播| 久久久成年黄色视频| 毛片视频网| 嫩草影院在线观看精品视频| 国产一区二区福利| 国产精品亚洲αv天堂无码| 久久96热在精品国产高清| AV不卡无码免费一区二区三区| 欧美亚洲一二三区| 亚洲一区二区三区中文字幕5566| 精品免费在线视频| 美美女高清毛片视频免费观看| 欧美成人综合在线| 国产女人水多毛片18| 欧美日韩国产一级| 青草免费在线观看| 97se亚洲综合在线| 亚洲国产欧美国产综合久久| 91精品在线视频观看| 沈阳少妇高潮在线| 国产精品七七在线播放| 久久无码高潮喷水| 女人av社区男人的天堂| 国产美女精品一区二区| 91无码国产视频| 亚洲国产日韩一区| 91在线丝袜| 无码视频国产精品一区二区| 午夜小视频在线| 伊人中文网| 中文字幕无码制服中字| 99伊人精品| 色综合综合网| 久久国产V一级毛多内射| 91小视频版在线观看www| 四虎成人在线视频| 99视频有精品视频免费观看| 国产自在自线午夜精品视频| 久草视频中文| 夜夜爽免费视频| 国产成人91精品免费网址在线| 狠狠色噜噜狠狠狠狠色综合久| 国产福利拍拍拍| 多人乱p欧美在线观看| 亚洲欧美天堂网| 69视频国产| 国产真实乱子伦视频播放| 在线视频精品一区| 性网站在线观看| 久久毛片基地| 亚洲无码视频一区二区三区 | 亚洲成人www| 国产精选小视频在线观看| 亚洲天堂伊人| 天天色天天综合网| 午夜小视频在线| 亚洲福利视频一区二区| 日韩一区二区三免费高清| 欧美中文一区| 日本欧美精品| 青草午夜精品视频在线观看| 99福利视频导航| 2020亚洲精品无码| 亚洲国产清纯| 亚洲最大看欧美片网站地址| 19国产精品麻豆免费观看| 国产综合无码一区二区色蜜蜜| AV不卡无码免费一区二区三区| 最新国产你懂的在线网址| 国产精品性| 成人在线观看不卡| 国产乱人乱偷精品视频a人人澡 | 亚洲国产精品日韩av专区| 亚洲视频影院| 国产麻豆精品在线观看| 国产乱子伦手机在线| 五月天久久综合| 伊人成人在线视频| 极品国产在线| 国产精品手机在线观看你懂的 |