999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

氣象落區文本自動生成研究

2014-03-29 02:00:42吳煥萍呂終亮張華平羅兵高健李笑侃何國豪王永超
計算機工程與應用 2014年13期
關鍵詞:文本區域分析

吳煥萍,呂終亮,張華平,羅兵,高健,李笑侃,何國豪,王永超

1.國家氣候中心,北京100081

2.國家氣象中心,北京100081

3.北京理工大學,北京100081

4.中國地質大學,北京100083

1 引言

氣象服務產品具有直觀、形象、簡單易懂的特點,但同時要求精細化、個性化、多樣性、時效性、主動性。對于公眾來說,氣象數據或者相關圖表過于專業與復雜,需要領域專家進行解讀與提煉,最終形成自然語言表述的氣象服務文本信息,也是公眾最容易接受的氣象服務形式[1]。因此,中國氣象局日常發布的國內外“天氣公報”、“海洋天氣公報”、“重要氣候信息專報”、“天氣服務公報”等諸多氣象服務產品中,均體現了文本語言(或者稱“文本”,下文將視為同一概念)描述為主,輔以圖形或者表格說明的基本行文原則。天氣預報與氣象服務產品注重“圖文并茂”,但從目前技術發展來看,圖形的自動化生成方法在氣象信息科學可視化技術發展下相對成熟,如M ICAPS和MESIS均具有較強的圖形產品自動生成能力[2],而文本的自動化生成方法研究還遠遠不夠。目前業務上依然是預報員人工撰寫,甚至看圖說話來完成,這種人工編寫效率極其低下且常常滿足不了時效性要求,還會由于預報員知識背景差異等原因導致文本內容出現偏差。因此,面向氣象服務領域內準確、高效、合理、符合自然語言表達的文本生成技術亟待深入研究。

國外于20世紀70年代初就已經開始重視了天氣預報文本的計算機自動生成研究。最早的天氣預報文本生成器采用了文字替換法(CWF),其代表性的有IFPS、RAREAS、M arWords、Scribe等業務應用系統;隨后20世紀90年代初開始引入自然語言處理技術(Natural Language Processing,NLP),一些面向特定天氣預報領域的文本生成系統如Forecast Generator(FoG)、Sum Time M eteo等也得到了一定發展與應用[3]。相比之下國內相關領域的研究則開展較晚,氣象部門主要使用了從簡單數據到文本表格形式的預報文本生成,如采用了從天氣代碼直接到對應文字描述的簡單轉換。真正意義上基于自然語言處理技術的成果,可以追溯到2000年上海交通大學開展的多語種天氣預報文本自動生成系統(M LWFA)的初步研究。總體來看,國內外這些研究為面向氣象領域的自然語言文本生成進行了有益探索并奠定了一定的基礎[4-8]。

結合氣象服務氣象區域文本描述的基本業務需求,本文分析了中央氣象臺每日發布的大量歷史“天氣公報”文本內容,提出了綜合運用自然語言處理和地理信息分析方法來形成文本語言自動生成方法[9-11],并對所涉及的歷史文本內容分析與特征提取、地理區域劃分、氣象要素空間分析、文本組織與生成等關鍵技術問題進行了深入討論。通過探索文本類服務材料的計算機自動或者半自動生成方法,生成效率的提高將有望將預報與服務人員從繁重、重復的體力勞動中解脫出來,使其有更多的時間和精力用于真正思考如何更好地做好預報與服務,從而提高預報準確率;另一方面,也將有望進一步拓寬服務材料的生成領域,實現服務材料的多形式表達與快速多渠道發布,不斷滿足用戶精細化和個性化的需求。

2 基本原理

2.1 氣象落區描述

氣象落區是指某一氣象要素在某一地理區域內發生的位置,氣象落區文本描述則是指一定的地理區域上所發生的天氣氣候現象及強度的文字性說明,一般包括對過去發生的氣象實況進行總結描述,也包括對未來預報的氣象要素發生區域進行展望描述,如中央氣象臺每日發布的指導預報產品“天氣公報”中,其主要內容是對未來三天的降水預報落區及變化趨勢進行描述,如圖1所示。

圖1 中央氣象臺天氣公報部分內容示意圖

通常氣象落區文本描述的信息源于可以分兩大類:一類是實時氣象臺站觀測信息;另一類是氣象預報信息。這些信息經過預報員的大腦解譯與分析后形成的天氣實況或者氣象預報文本,不但要求其文本在時間、地區及方位、氣象要素種類(如降水、溫度、濕度等)以及相應量級(如小雨、中雨、暴雨等)等方面合理、準確并符合自然語言表達,還要求符合預報員長期以來形成的語言表達習慣,因此具有較高的語言特征和用語要求。

2.2 基本原理

氣象落區文本描述的計算機自動生成方法,就是要解決從氣象數據到文本數據的生成問題。本文提出了以下基本思路:首先將氣象觀測數據或者預報數據通過一定的模型轉化到空間區域上,即一定的氣象落區,然后與一定的地理區劃數據進行GIS空間分析,確定特定氣象要素及相應的量級落在某地理區劃上,最后運用自然語言生成技術(NLG),對氣象要素的時間、地點、強度等信息進行合理組織,并運用段落規劃、句子規劃、句子優化以及相關后處理形成自然語言表達的氣象落區描述文本。上述流程如圖2所示。

圖2 技術流程圖

3 關鍵技術分析

3.1 文本分析與特征提取

文本分析與特征提取是為了分析抽取某一類文本的內容與結構模板,并為最終生成的文本內容提供規則庫。對于氣象落區文本特征的抽取,一般需要對文本中所涉及的時間變量、地理變量、方向變量、氣象要素變量,以及短句結構特征、句子、段落和篇章等元素進行有效特征提取。

本文共對業務人員人工撰寫的1963個歷史“天氣公報”文檔進行了自然語言統計學分析,抽取出來了氣象要素、地理及方位變量、描述氣象的短句與結構特征。其中,氣象要素變量包括描述各種氣象信息的天氣名詞及相應的強度(量級),如降水量及“小雨”、“中雨”、“大雨”等。地理變量包括了描述地理位置的地名名詞,如華北、內蒙古、長江流域等;方位變量包括了大部、局部、東部、西部、南部、北部、中部、中大部等名詞;短句結構特征是指描述氣象要素所涉及上述變量的通用的句子表達形式,并同時經過短句結構的抽取形成了句子模板庫。圖3所示是句子模板庫的一個簡單例子,中括號(即[])及其中間的信息表示一個變量,變量有[地點]、[級數]、[方向]、[雨雪強度]等。圖3中可以看出,對于天氣現象風的句子結構,有如什么海域將多少級的風,或者地方有多少級的風,某些地方風力達到多少級,或者什么地方有多少級陣風、方向多少。

圖3 天氣公報句子結構特征

同時還對“天氣公報”的結構特征進行了抽取,主要的特征如圖4所示。圖4中篇章結構表明,通常說明了什么時間(具體到小時)發布的預報,簽發的預報員,主要天氣原因,預報的時效,天氣趨勢總結,具體預報內容等主要內容,其中具體的預報內容則結合圖3所示的句子結構來組織。

圖4 篇章結構特征

3.2 地理區域劃分

地理區域是用于描述某種天氣現象所在的空間區域,它的劃分直接決定了文本生成的內容是否符合自然語言特征。一般來講它的劃分原則既要結合氣象領域的全國氣象地理區劃標準[12],同時也要考慮預報員多年來形成的語言表達習慣。

全國氣象地理區劃主要分為四級,其中全國一級氣象地理區域有:西北地區、華北地區、內蒙古地區、東北地區、黃淮地區、江淮地區、江南地區、江漢地區、華南地區、西南地區和西藏地區。全國二級氣象地理區域是在全國一級氣象地理區域基礎中按方位進行劃分的,如西北西部等。各行政省份或直轄市劃分為全國三級氣象地理區域,全國四級氣象地理區域則在三級氣象地理區域的基礎上按方位進行劃分,如江西南部、中部、北部。理論上來講,可以直接運用標準的四級氣象地理區劃來分級表達落區,但通過對天氣公報的地名統計分析,發現除使用全國四級氣象地理區劃中所規定名稱外,預報員多年來形成的習慣還常使用地名和河流、平原、山脈和高原等名稱描述該地域的氣象信息,如青藏高原等。因此,結合對地名的統計分析與識別的結果,運用地理信息技術空間分析方法對上述標準的地理區域進行了合理調整,形成了面向氣象落區專用的地理區域劃,以進一步符合預報員描述習慣。對于中國海域部分,主要分為:渤海、黃海、東海、臺灣海峽、南海、北部灣等海域,則不再細分子二級區域。

3.3 氣象要素的空間分析

氣象要素的空間分析包括了其本身的空間化和空間化后的氣象要素與地理區域的空間疊加分析,它的分析結果決定了文本內容是否準確。

根據中央氣象臺的業務流程,天氣指導預報為落區預報,已經表達了一定的地理空間未來可能的發生的天氣信息,而對于氣象觀測類型的數據,可以采用合適的客觀化分析模型生成基于空間區域的氣象分布。對于降水量、溫度等連續變化量的客觀化,一般可以采用CRESSMAN插值以及IDW(反距離加權平均)等插值方法,而對于霧等離散變化的天氣現象量的客觀化,一般可以采用泰森多邊形法(Thiessen)的方法來確定空間分布。

氣象要素與地理區域進行空間分析可以確定氣象要素所發生的空間區域。這里主要運用了氣象要素空間分布場與多級地理區域進行相交(Intersect)分析、融合(Dissolve)分析等,這樣可以獲得不同地理區域上每類氣象要素的類型、量級、和面積大小等信息。

針對預報員在描述預報文本時盡量采用某地區大部或局部等模糊量詞的特點,本文采用“疊加度(P)”及大小來表達大部和局部等概念,即氣象要素數據與其覆蓋地理區域面積之比。疊加度的引入可以進一步判別是否需要按一定的精度來輸出文本。具體空間分析時,采用了首先將氣象要素逐一與四級地理迭代空間分析,然后根據“疊加度”判斷是否需要進行二級地理區域的空間分析,同理是否采用三級、四級區域進行再次空間分析。該方法一方面加快了效率,還在空間分析階段就保證了同一區域沒有被重復處理。

此外,天氣預報未來三天趨勢分析時,需要分析氣象要素在時間尺度上的空間變化,如降水量未來三天將從東部逐步轉移到西部地區。取氣象要素空間分布場的內點,然后判斷其空間方位以及空間位置的變化,為了處理簡單這里只考慮了最大量級的氣象要素的空間變化。

3.4 文本組織與生成

自然語言生成(Natural Language Generation,NLG)方法能夠從要表達的意思出發選擇詞語,生成符合語法和邏輯,內容行文流暢,符合人們理解的句子,通常采用了內容規劃(Document Planner)、句子規劃(M ircoplanner)、表層生成(Surface Realize)的流水線式計算機模型[10]。其中,內容規劃主要確定文本的內容,句子規劃則主要通過省略、指代、合并等手段使規劃的文本更加通順、自然,表層生成則最終輸出文本。

對于“天氣公報”的內容規劃,本文采用了簡單模板方法即通過對歷史文本的特征提取來形成了一定的模式與規則;對于句子規劃,語句的先后順序需要遵循以下規律:

(1)地理區域空間的描述順序。全國范圍內的總體方向主要是先由西向東,再由北到南,如一級地理區域主要依次為西北地區、西藏地區、內蒙古地區、東北地區、華北地區、黃淮地區、江淮地區、江漢地區、江南地區、華南地區、西南地區。

(2)地理區域分級的描述順序。先是全國一級氣象地理區域,接著是全國二級氣象地理區域,依次類推。但對風要素來看,地理位置包括了陸地與海洋區域,一般順序為先為大陸然后為海洋。

(3)氣象要素類型的描述順序。主要順序為降雨、大風、降溫以及其他天氣現象。

對于氣象要素的數值量級的描述,結合氣象部門的業務規定也逐一轉換成文本詞語,如降水量不同的數值范圍替換成小雨、中雨、大雨、暴雨等詞語。

對最終輸出的語句需要進行合并等后續優化處理,這里主要涉及了同一地理區域、相同的量級大小等語言合并規則。通過對比分析大量歷史天氣預報圖形和其相應的描述文本,設計區域合并規則如表1所示,并引入輸出“大部”、“局部”等詞語來模糊描述地理區域[13]。值得注意的是,合并時還一并考慮了地理區域本身的空間包含關系,使得文本表達更為合理。

表1 區域輸出規則

4 技術實現

氣象落區文本特征提取是一種典型的文本信息抽取(Information Extract),如時間描述(早上、中午、晚上、昨天、明天等),空間描述(區域、省級、市級等),方位描述(西北、東南、南部、大部、局部等),天氣要素描述(降水、溫度、風)等。本文采用了開源的ICTCLAS分詞工具(它包括了中文分詞、詞性標注、命名實體識別、新詞識別等主要功能)進行地名提取、氣象變量提取等[14]。同時,進一步開發了詞頻統計等工具進行語句結構與模式的提取以形成模板。

文本生成過程需要大量的空間數據處理操作,GIS發揮了重要作用。本文采用了開源空間分析包GEOS[15](Geometry Engine,Open Source),它是對OGC規范中簡單幾何要素對象操作的C++語言實現,是一個集合形狀的拓撲關系操作實用庫,主要實現了空間關系(相等、相交、包含)和空間疊加分析(緩沖區、交叉分析)操作等,能夠較好地實現本文空間分析。具體分析時,將所有氣象數據(M ICAPS14類交預報員格式的數據))以及地理區域數據轉換成GIS格式,然后直接應用該空間分析引擎即可。空間分析的結果采用XM L格式進行定義與保存,并最終參與文本生成。

天氣公報文本生成采用了基于規則的文本生成思路,將氣象信息空間分析化的結果與文本結構模板進行關聯并形成較好的自然語言表達的文本內容。

結合上述文本生成方法,采用C++語言對“天氣公報”的氣象落區文本的生成進行全部編程實現,并具備自動定時運行能力,程序輸入數據主要包括了中央氣象臺每天的未來三天降水預報、災害性天氣預報落區的等業務數據。

圖5 計算機與人工撰寫對照

5 問題討論

自然語言生成領域通常采用正確率(如生成系統是否表達輸入的全部意思)、通順度(如生成的文本是否通順,文法是否正確,文章風格是否符合用戶要求等)、任務評估(生成系統應用于實際領域中的代價、社會影響等)等指標試圖來評價生成系統的質量。由于通用文本生成方法本身還存在較大的技術難點,因而其相應的定性量化評估方法更是遠遠不成熟,上述指標也仍然停留在定性化評估研究階段[16-17]。本文借鑒正確率和通順度兩個方面評價內容,對比分析了2011年4月—2011年9月以來由預報員和計算機分別生成的文本內容,總體可以看出:

(1)自動生成的文本內容正確,在落區描述方面甚至比預報員人工撰寫的預報文本更加描述細致(其精細化程度由本文提出的“疊加度”P取值決定),主要體現在不遺漏重要的氣象要素所在的地理區域及相應的量級,相比之下,預報員在撰寫公報時則主要考慮總體趨勢表達從而做到行文簡潔。這一點上又不太符合天氣預報“模糊語言”原則的文本描述習慣[13],因此自動生成的文本某種程度上還顯得“冗長”,尤其是那些復雜的天氣形勢。

(2)自動生成的文本內容總體符合了預報員習慣,如空間區域的分級描述和空間區域先后順序的描述,文本內容也較為通順、語義、語法正確,文本風格也符合了預報員行文習慣。

(3)自動生成的文本內容固定、形式單一(由模板和規則庫決定),而預報員人工撰寫內容時還經常結合預報經驗和領域知識做相應補充,如落區量級表達時常對其局部地區進行補充說明。例如2011年8月29日天氣公報中有“其中,浙江東南部、福建東部、臺灣等地的部分地區有暴雨,局部大暴雨,雨量一般有80~150mm,臺灣南部局部雨量可達200~400mm;上述部分地區并伴有短時雷雨大風等強對流天氣”等補充性描述(下畫線部分),而這些信息僅僅依靠現有的輸入信息自動生成是遠遠做不到的。

上述結論也得到了負責撰寫“天氣公報”的中央氣象臺天氣預報室短期科等多位同事認可,并總體認為生成效率高,具有一定的參考性和實用性,可以作為天氣公報中文本材料的初稿。圖5為2011年5月1日的降水量預報落區的文本對比分析示意圖。2011年5月1日屬于氣象業務中汛期氣象服務時段,因此氣象落區從降水量量級、空間分布、范圍等來看均具有一定的代表性和復雜性。

6 結束語

本文緊緊圍繞氣象落區文本生成系統的主要問題,即哪些內容應該包括在生成系統的輸出里,以滿足預報員的撰寫意圖,如何保證生成內容的連貫性,如何保證生成內容在語法和語義上的正確性等;結合問題提出了氣象落區文本生成方法與流程,并重點闡述了文本分析與特征提取、地理區域劃分、氣象要素空間分析、文本組織與生成等四方面關鍵問題,同時還給出了相應的技術實現和初步的評價。總體來看,計算機自動生成的天氣預報落區文本雖然還不能與人工撰寫的內容“媲美”,但可以作為預報員人工撰寫文本的初稿,預報員在此基礎上再作進一步的潤色修改即可以成為最終對外服務的指導產品。下一步還將深入開展應用分析與評估,并研究將現有的文本生成功能集成于M ICAPS、MESIS或者CIPAS(氣候信息交互顯示與分析系統)等業務系統中,形成文本輔助生成工具(如生成天氣預報文本、實況文本等信息)供業務用戶使用。

本文綜合運用了自然語言處理、地理信息科學等交叉方法對計算機自動生成氣象落區的文本進行了初步的有益探索,其面向特定領域的計算機文本生成方法具有一定通用性,這也為進一步深入探索面向氣象服務領域的文本生成開辟了新思路和研究方向。

猜你喜歡
文本區域分析
隱蔽失效適航要求符合性驗證分析
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 激情网址在线观看| 亚洲 日韩 激情 无码 中出| 日韩国产亚洲一区二区在线观看| 亚洲人成网18禁| 久久天天躁夜夜躁狠狠| 成人午夜视频网站| 亚洲有无码中文网| 精品国产www| 色天天综合久久久久综合片| 日韩成人在线一区二区| 国产欧美在线观看一区| 毛片免费网址| 亚洲日本一本dvd高清| 无码人妻热线精品视频| 亚洲天堂日韩在线| 亚洲精品成人片在线播放| 国产成人盗摄精品| 特级欧美视频aaaaaa| A级全黄试看30分钟小视频| 99伊人精品| 精品人妻无码区在线视频| 国产精品无码久久久久AV| 久久精品66| 狠狠躁天天躁夜夜躁婷婷| 国产精品成人AⅤ在线一二三四| 91在线视频福利| 国产真实自在自线免费精品| 国产精品一区二区国产主播| 亚洲国产午夜精华无码福利| 亚洲欧美在线精品一区二区| 欧美中出一区二区| 一级爆乳无码av| 国产成人91精品免费网址在线 | 欧美亚洲综合免费精品高清在线观看| 一级片免费网站| 精品国产香蕉在线播出| 国产区免费精品视频| 国产第一页免费浮力影院| 国产亚洲现在一区二区中文| 日本道综合一本久久久88| 成人av专区精品无码国产| 亚洲日本中文字幕天堂网| 天堂成人在线| 色悠久久久| 亚洲第一成年网| 成人国产免费| 欧美综合一区二区三区| 日韩欧美国产中文| 亚洲男人在线| 成年免费在线观看| 在线精品自拍| 97国产在线视频| 色婷婷丁香| 亚洲国产日韩在线成人蜜芽| 二级毛片免费观看全程| 99视频国产精品| 国产精品美女网站| 无码专区国产精品一区| 亚洲视频免费播放| 国产综合另类小说色区色噜噜| 亚洲国产午夜精华无码福利| 99久久精品免费视频| 国产日韩丝袜一二三区| 在线另类稀缺国产呦| 久热中文字幕在线| 91青草视频| 久久香蕉国产线| 午夜电影在线观看国产1区| 久久久久亚洲av成人网人人软件| 国模极品一区二区三区| 中文字幕调教一区二区视频| 无码日韩视频| 成人亚洲视频| a毛片基地免费大全| 日韩美一区二区| 在线观看无码a∨| 欧美一级黄片一区2区| 国产女人喷水视频| 久久综合色天堂av| 精品三级网站| 欧美日韩一区二区三区在线视频| 97在线公开视频|