李 穎,王青海,池毓煥
(1.裝甲兵工程學院 科研部,北京100072;2.中國科學院 聲學研究所,北京100190)
地名識別作為未登錄詞識別的子內容,一直是中文信息處理的熱點之一[1-7]。通行的辦法是 “統計與規則相結合”,即先通過統計模型大規模處理數據,再通過語法語義等知識制定規則加以修正,以期取得比較理想的識別結果。據文獻 [5],中文地名識別結果的F值多在84%-92%之間。
作戰文書是軍隊各級機關在作戰和其他軍事行動中形成和使用的電報、文件、圖表的統稱,是指揮員作戰決心的體現,是軍隊作戰行動的依據和實施作戰指揮的重要工具。它通常采用文字記述式、表格式、地圖注記式、網絡圖式等形式,有著特定而嚴格的格式規定。
作戰文書自動處理是信息化戰爭條件下提高作戰指揮效能的必然要求。目前,以一體化指揮平臺和一體化信息系統為代表的指揮信息系統已陸續裝備部隊,在部隊訓練、戰備值勤和非戰爭軍事行動中發揮了重要作用。但文本情報信息生成態勢圖和作戰文書注記圖均依靠參謀業務人員手工標繪,影響和制約了系統的運行效率,迫切要求提高文-圖轉換的自動化水平。
原有的作戰文書自動處理通常采用模板方式。近年來,不少專家學者提出了用自然語言處理 (natural language processing,NLP)技術來重新布局作戰文書的計算機處理工作:顧曉明、翟玉慶[8]探討了基于本體的軍用文書理解,楊健等[9]、姜文志等[10]都對軍事文圖的自動轉換進行了研究。從文獻上看,他們大多只是提出構想或系統設計,較少提供可資比較的實驗數據。
我們有關作戰文書文圖自動轉換的總體思路如圖1所示。

圖1 作戰文書文圖自動轉換邏輯
其中,XML等標記文件與態勢圖等標圖文件之間的自動轉換已經由標繪軟件實現并進入實用化,而面向文圖轉換的結構化數據到XML等標記文件的格式變換純粹是根據標記語言約定進行的嚴格變換,關鍵在于作戰文書到結構化數據的作戰文書要素萃取。
從軍用要圖標繪的角度看,作戰文書的要素之一是地名及其坐標。作為三大軍隊標號之一的地域線直接由一系列的坐標構成,其他標圖類型的基本參數都包括坐標。因此,地名識別構成作戰文書處理的基本內容之一。
無可否認,現有的中文地名識別方法可直接應用于作戰文書地名識別,但其效果將受制于通用技術應用于受限領域的隔靴搔癢效應。
我們的作戰文書地名識別緊扣 “作戰文書行文規范”這一特點,應用了句類分析所確立的若干準則,完全采用基于規則的方法。HNC (hierarchical networks of concepts)理論[11]是中國科學院聲學研究所黃曾陽先生創立的、面向整個自然語言理解處理的原創理論。HNC理論把語言分析的3個基本環節分別命名為句類分析、語境單元萃取和語境生成,對應于組詞成句、聯句成群和形成段落篇章三級提升??梢姡漕惙治鍪荋NC理論關于語句分析的專門術語。句類分析技術經過數十年的發展,已經比較成熟,廣泛應用于文本分類[12]、信息過濾[13]、輿情分析[14]、機器翻譯[15]等領域,但在作戰文書自動處理領域應用還是首次嘗試——中科院聲學所已有的關于中文地名的研究仍然是走統計技術路線的,并未應用句類分析技術。
面向要圖標繪這一特定目標,就地名識別這一專項,我們的實驗取得了預期的效果 (F值在88%-97%之間)。
對于中文地名構成,文獻 [1]首先提出了 “地名特征詞”、“地名前部詞”、“特征詞可信度”等概念并給出了較易實現的地名判斷方法,在后續研究中這些概念得到了沿用。在這里,我們把 “地名前部詞”稱作地名的中文命名,而把 “地名特征詞”稱為 “地名層級標志符”,便于多層級串聯地名的遞歸辨識,如 “四川省廣安縣協興鄉牌坊村”。
中文地名存在嚴重的重名情況。根據含超過68萬條記錄的中國地名庫統計,縣級及以上地名重名的共出現155例,占5% (分子為出現重名的記錄累計數,下同;分母為3,592),主要是縣市同名;鄉級及以上地名重名的共出現5,202例,占30.9% (分母46,549);村級及以上地名重名的共出現70,594例,占58.9% (分母682,123)。由統計數據可以看出:越是底層,重名越多。
就使用語境而言,只要附近的地名不重復,全國村級地名大量重復并不影響語言的使用和指稱的認定。但是,作戰文書恰恰超越了地域限制,而所用地名很可能是村級或更細的某無名高地。人腦理解時自然而然用更高一層的地名管轄之,或者把心中的地圖拉近、聚焦于目標區域,因此基本不受重名困擾。作戰文書無法容忍地名指稱的不確定性,因此作戰文書地名使用的一大特點就是為地名附上坐標。有鑒于此,作戰文書地名識別要緊抓這一特點。
坐標作為激活因子,基本確定了地名的右邊界,最大的問題是左邊界的識別。因此,作戰文書地名識別可歸結為空間概念短語的邊界感知問題。
空間概念首先要分出空間點、空間線和空間面 (空間體暫不考慮)。其中空間點通常帶坐標,也最常用;空間線由一系列的空間點構成,主要用于戰斗分界線的表述;空間面主要用于總體作戰區域的表述。
關于空間點 (地點)的辨識,總策略是:充分利用坐標的激活信息,以及坐標加 “區域”、 “一線”、 “山區”、“方向”、“以東//西//……”、“左//右//后翼”等組合表示空間概念的詞語激活,也需要一定規模的現實地名庫支持。
1.1.1 坐 標
坐標統一采用以下格式:地名 (××、××)或地名(××,××),其中××系兩位阿拉伯數字。
1.1.2 右邊界
關于右邊界,除了坐標終止符 “)”外,特別注意帶方位數量的后綴也要組合到該地點的表述中
后綴=方位詞+空間距離的數量詞 {+ “無名高地”}其中:方位詞=東//西//南//北//以東//以西//以南//以北//正東//正西//正南//正北//東側//西側//南側//北側//東北//東南//西南//西北//東北側//東南側//西南側//西北側;空間距離的數量詞,一般以米為量詞,前帶阿拉伯數字,如 “250米”;{}中的成分為可選項。
1.1.3 左邊界
關于左邊界,涉及中文地名的命名規則:
中文地名=中文命名 (專名)+地名層級標志符;
其中:中文命名 (專名)一般為2字,少數3字,較少1字,不能為空 (少數民族地區因音譯存在多于3字的情況);地名層級標志符=國//省、直轄市、自治區、州//市、府、盟、縣、邑、縣城、旗//鎮、鄉、都、街道、蘇木//村、莊、社區、嘎查。
特別地,作戰文書最常用的是:
軍事專名=阿拉伯數字+ ‘高地’//‘高程點’
注意:軍事專名的阿拉伯數字可能帶小數點。另外,軍用地名常把層級標志符省略。
縣級及以上中文命名字數統計如表1所示 (總數3278)。

表1 縣級及以上中文命名字數統計
可以說,三字以上多數為少數民族地名的音譯,除非所處理的地區涉及到才需予以考慮。單字中出現了高頻字“和”等,雖然與 ‘層級用字’組合匹配才識別成地名,但仍可能構成歧義;地名專用字如 ‘隰’倒是可靠依據。
關于空間線的辨識,因其由若干空間點構成,緊抓“一線”、“東西//南北+一線”、“相連之線”(“地段、方向”也作為備選)作為激活關鍵詞 (并作為此空間線表述的右邊界),依靠空間點識別的成果,按照 “至少兩點、系列地名最大化 (貪食算法)”的原則左向搜索第一點,并把起始點的左邊界作為空間線表述的左邊界。
關于空間面的辨識,激活關鍵詞為:“地域”、“地區”、“附近地區”、……。其前可能是空間線、若干個地點或者只有一個地名,如 “丹東地區”,故左邊界較難確認,只能依托上述空間點和空間線的辨識成果。
根據字數確定地名左邊界并不保險 (與地名庫完全匹配的除外,如 “贊皇”),因此還是要尋找文本中出現的自然語言邊界符,這就是我們引進句類分析若干準則的原因所在。
從句類分析的角度看,語句分析的根本任務是感知語塊邊界。
HNC理論認為:自然語言的語句是無限的,但都可歸結為有限的句類,全部自然語言的句類就57組。語句由若干語塊構成,而語塊分為主塊和輔塊兩大類,主塊是句類的函數,輔塊不是語句的必選構件。主塊又分兩類:特征塊EK (Eigen chunK)和廣義對象語塊 GBK (General oB-ject chunK),前者又根據在句子中所處層級二分為全局特征塊Eg(global)和局部特征塊El(local),EK大體對應語法學中的謂語,后者三分為作用者語塊AK(Actor chunK)、對 象 語 塊 BK (oBject chunK)和 內 容 塊 CK(Content chunK),這三者大體對應于施事、受事及間接賓語。既然有對應關系,似乎只是別出心裁另取他名,無特異之處。其實不然,因為HNC給出了句類的數學物理表達式如下

其中,SC指句類 (sentence category),SCr指實際出現的句類 (r即real),fK指輔塊 (借用漢語拼音首字母)。 {}仍指該項為可選項,說輔塊是可選的這好理解,因為這是輔塊的本意;關鍵是EK被加上了可選符號,即存在五類無EK句類,例如漢語非常常見的簡明狀態句,S04J=SB+SC,“他||精明能干”。
上述句類表達式中的GBK下標m的取值最大為3,即一個句子最多有3個GBK (AK、BK和CK相繼出現),加上EK,就是4主塊,少則只有1個GBK。那么會不會出現沒有任何GBK的情況呢?若出現,我們視為省略GBK1,因為句類物理表達式中至少有1個GBK。這樣,全部句類可分成兩大類:有AK出現的廣義作用句,塊數為3-4;沒有AK出現的廣義效應句,塊數為2-3。二者的重大區別是:廣義作用句的語塊移位通常都有主塊標記符加以突顯,而廣義效應句的語塊移位一定沒有 (不用)主塊標記符。廣義作用句例如 (括號中標注的是語句格式代碼):

有了這些句類知識,語句分析的任務就是把任何一個自然語言的語句映射到句類物理表達式中,也就是分出每個語塊的邊界并檢驗其角色。
句類分析技術的實現過程中,曾提出了若干準則,命名為lv準則,即以邏輯概念l和動詞v的同現作為語塊邊界感知和角色認定的根本依據。這些句類分析準則簡要說明如下:
(1)語句的首尾邊界是首塊和末塊的天然首尾邊界,標點符號提供了語塊邊界的重要信息,因此,標點準則是句類分析最基礎的準則。
(2)漢語的語塊標志符特別發達,是語塊移位的重要工具,如 “把、被、由、向、……”等,更有輔塊的括號型標志,如 “在……中”等,因此,抓塊標可概括為介詞準則。
(3)句類分析中把EK當作其它語塊的天然邊界。而EK通常是復合結構,應視作一體,例如 “表示贊賞”、“大大改善了”等。特別地,作戰文書中地名通常充當轉移句的起、止、由對象,可以把地名或地名組直接當作空間對象語塊。這是動詞準則。
(4)指代在否定動詞的Eg角色中發揮著一定作用,在識別語塊邊界方面亦不可或缺,例如 “本發明提供了一種提取植酸鈣的方法”中的 “本”和 “一種”都否定其后動詞的Eg角色,也是所在語塊的左邊界。這是代詞準則。
上述句類分析準則應用于作戰文書地名識別中,可形成如下具體規則:
規則1(頓號等標點符號):‘、’肯定是其后地名的左邊界; ‘:’、 ‘——’、前單雙引號,也是;句子分割符‘,’、‘;’、‘?!?‘?’、‘!’ (即地名居于句首),若其后為單字 (地名非空),是左邊界;其后排除介詞、動詞、代詞的情況,基本也是左邊界;
規則2(介詞):在HNC中標為lq02的 “在、向、從、自、到、至、……”和標為hv的 “在、到、至、……”基本也是左邊界。因為 ‘在’等字存在一定程度的多義性(‘在’若是句子中唯一動詞,仍不妨適用本規則),其可靠性略有下降 (注意:這些單字多是分詞處理后留下的孤立字,若是偽詞中的這些字,可靠性更低);
另外,構成l5的概念如 ‘除’lq52ie2m…… ‘之外’lh52ie2m,也是左右邊界之一;
規則3(動詞):入選Eg//El的動詞也是地名的天然前邊界,如 “去、來、回、往、……”等及隱含空間概念的“進攻、攻占、占據、占領、進占、鎮守、……”等,但有些地名可能就含有動詞 (如云南邊境有一地名 ‘打落’,其得名就因為日機在此地被打落),或者詞語知識庫對動詞的標注太寬泛,其可靠性略低 (E+hv的情況在規則2中考慮;如有v+EH構成EK的也暫不考慮);
規則4(代詞):常見 “我、敵、本、該、此、……”+地名層級標志符//‘高地’//‘高程點’,用于指代地名,需要指代消解 (實際的具體地名代入),但也可能不省略作為專名的地名成份,則此代詞也構成左邊界,功能上仍是地名指代。
作戰文書地名識別基本流程為:
(1)判斷帶括號的標號段是否是地點坐標;
(2)以帶括號的地點坐標為中心,向左尋找左邊界(以動詞和某些介詞為準);
(3)以帶括號的地點坐標為中心,向右尋找右邊界(如果不是方向、地域等則停止)。
基于上述流程的處理結果為初步結果。然而,作戰文書中的地名也不是全部標上坐標,若上文地名已有坐標則常常不再重復,因此由坐標激活的地名識別結果 (在坐標括號之前的部分)要形成一個動態地名庫,視同已經帶坐標,用于下文的地名識別。如此安排就引進了小小的動態記憶能力,其處理的結果則稱改進結果。
我們選用了14篇共計3萬多字的真實文本,人工進行軍用命名實體標注,并以此測試處理結果。實驗結果見表2。

表2 實驗結果
左邊界誤識的例子如: “堅守4號高地 (80、66);”,把 “堅守”組合到地名中了,原因在于 “堅守”未列入動詞準則所用的動詞集內。
未召回的例子如:
(1)向石家莊右翼進攻;
(2)在大莊、大石橋張楞地區轉入防御;
(3)19××年11月18日21時30分于井陘縣。
未召回的主要原因是該地名在全文中均未有坐標信息,按上述流程處理無法獲得激活信息。
通用地名庫中的地名如 “河北省”、“石家莊”、“井陘縣”等可能組合到機構名中 (如 “河北省獨立第2師”),不宜直接作為地名識別結果。但在前述之頓號規則、介詞規則 (如 “在”、 “于”等)、后綴輔助規則 (如 “右翼”、“左側”、“地域”、“一線”等)共同作用下,也應該適當抓些通用地名,這是下一步改進的方向。
總之,超過99%的地名識別準確率已經符合此前預期的 “高準確率”要求,超過90%的召回率也堪用于后續的空間線//空間面識別、語塊分析、句類分析、要圖標繪等。
以往的地名識別系統的F值的平均值為88%,我們的初步結果就高達88%,改進結果達到97%,改進效果明顯。
作戰文書地名識別的準確率未達到100%,為什么我們仍稱這個結果符合預期、“堪用”?除了自動標圖的初步結果可以訴諸人工干預外,主要原因在于我們并不把這一結果當作最終結果而僅僅是作戰文書預處理的步驟之一,后續的句類分析、語境分析還有糾錯功能。當然,預處理的結果越接近于百分之百準確越好,已發現的若干錯誤原因可用于進一步改進現有程序。
[1]LI Lishuang,HUANG Degen.Identifying Chinese place names based on support vector machines and rules [J].Journal of Chinese Information Processing,2006 (5):51-57 (in Chinese).[李麗雙,黃德根等.SVM與規則相結合的中文地名自動識別 [J],中文信息學報,2006 (5):51-57.]
[2]QIAN Jing,ZHANG Jie,ZHANG Tao.Research on Chinese person name and location name recognition based on maximum entropy model [J].Journal of Chinese Computer Systems,2006,27 (9):1761-1765 (in Chinese).[錢晶,張杰,張濤.基于最大熵的漢語人名地名識別方法研究 [J].小型微型計算機系統,2006,27 (9):1761-1765.]
[3]FENG Yuanyong,SUN Le,LI Wenbo,et al.A rapid algorithm to Chinese named entity recognition based on single character hints [J].Journal of Chinese Information Processing,2008 (1):1-22 (in Chinese).[馮元勇,孫樂,李文波,等.基于單字提示特征的中文命名實體識別快速算法 [J].中文信息學報,2008 (1):1-22.]
[4]LI Nuo,ZHANG Quan.Chinese place name identification with Chinese characters features [J].Computer Engineering and Applications,2009,45 (28):230-232 (in Chinese).[李諾,張全.利用地名用字分析的中文地名識別處理 [J].計算機工程與應用,2009,45 (28):230-232.]
[5]LI Nuo.Identification and annotation of Chinese place name and temporal information[D].Beijing:Institute of Acoustics,Chinese Academy of Sciences,Master Thesis,2009 (in Chinese).[李諾.中文地名與時間的識別和標注 [D].北京:中國科學院聲學所碩士學位論文,2009.]
[6]QIU Sha,A Yuan.Study on automatic recognition of Chinese location names based on statistical method [J].Computer Technology and Development,2011 (11):35-38 (in Chinese).[邱莎,阿圓.基于統計的中文地名自動識別研究 [J].計算機技術與發展,2011 (11):35-38.]
[7]LI Lishuang,DANG Yanzhong.Recognition of Chinese location names based on CRF and rules [J].Journal of Dalian University of Technology,2012 (2):285-289 (in Chinese).[李 麗雙,黨延忠.CRF與規則相結合的中文地名識別 [J].大連理工大學學報,2012 (2):285-289.]
[8]GU Xiaoming,ZHAI Yuqing.Design of military document understanding system based on ontology [J].Modern Computer,2006,231 (3):69-72 (in Chinese).[顧曉明,翟玉慶.一種基于本體的軍用文書的理解系統設計 [J].現代計算機,2006,231 (3):69-72.]
[9]YANG Jian,GAO Wenyi,WANG Yanbo.Documents based automated military plotting method [J].Journal of PLA University of Science and Technology (Natural Science Edition),2006,7 (6):543-547 (in Chinese).[楊健,高文逸,王衍波.一種作戰文書軍事標圖自動化方法 [J].解放軍理工大學學報 (自然科學版),2006,7 (6):543-547.]
[10]JIANG Wenzhi,WANG Di.The design of key models for automatic generation of military instruction [J].Command Control &Simulation,2007,29 (6):28-30 (in Chinese).[姜文志,王迪.作戰指令自動生成的關鍵模塊設計 [J].指揮控制與仿真,2007,29 (6):28-30.]
[11]JIN Yaohong.Natural language understanding technology based on HNC theory and its application [M].Beijing:Science Press,2006 (in Chinese).[晉耀紅.HNC語言理解技術及其應用 [M].北京:科學出版社,2006.]
[12]JIA Ning.Using concept primitive feature for text classification [J].Computer Engineering and Applications,2007,43(1):24-26 (in Chinese).[賈寧.使用概念基元特征進行自動文本分類 [J].計算機工程與應用,2007,43 (1):24-26.]
[13]LI Ying,CHI Yuhuan.Applications of word tendentiousness to analysis of text orientation [C]//Recent Advances in Lexical Semantic:Symposis of the 10th Chinese Lexical Semantic Workshop,2009:89-94 (in Chinese).[李穎,池毓煥.詞語褒貶性在文本傾向性分析中的應用 [C]//第十屆漢語詞匯語義學論文集,2009:89-94.]
[14]WEI Xiangfeng,ZHANG Quan.Event sentiment analysis based on semantic chunks [J].Journal of Chinese Information Processing,2012,26 (3):44-48 (in Chinese).[韋向峰,張全.基于語義塊的事件傾向性分析研究 [J].中文信息學報,2012,26 (3):44-48.]
[15]LI Ying,WANG Kan,CHI Yuhuan.Semantic chunk transformation in Chinese-english machine translation [M].Beijing:Science Press,2009 (in Chinese).[李穎,王侃,池毓煥.面向漢英機器翻譯的語義塊構成變換 [M].北京:科學出版社,2009.]