王景石 喬 慧 何佳洲 蔣丙棟
(江蘇自動(dòng)化研究所 連云港 222006)
航空母艦、潛艇、驅(qū)逐艦、護(hù)衛(wèi)艦、兩棲登陸艦等海上大中型目標(biāo)是各國(guó)海軍作戰(zhàn)的主力,是實(shí)施全球海洋戰(zhàn)略的擔(dān)當(dāng)。掌握海上大中型目標(biāo)的位置,了解敵對(duì)國(guó)家的海軍動(dòng)向,是洞悉全球海洋態(tài)勢(shì),占據(jù)戰(zhàn)略有利地位的前提。當(dāng)前針對(duì)大中型目標(biāo)的探測(cè),主要依賴于人力偵察、雷達(dá)探測(cè)與衛(wèi)星可見(jiàn)光圖像偵察等手段,然而人力偵察成本大,風(fēng)險(xiǎn)高[1];雷達(dá)探測(cè)范圍有限,干擾信號(hào)多[2];衛(wèi)星可見(jiàn)光圖像照射范圍太大、發(fā)現(xiàn)效率低[3]。這些缺點(diǎn)制約了大中型目標(biāo)的檢測(cè)與識(shí)別。
開(kāi)源情報(bào)因低成本、高回報(bào)的特點(diǎn)而日益受到各國(guó)的重視,據(jù)美國(guó)中央情報(bào)局的統(tǒng)計(jì),2007年的情報(bào)收集總數(shù)中超過(guò)80%來(lái)自開(kāi)源情報(bào)。曾任美軍中央司令部司令的安東尼·辛尼,在《新時(shí)代的指揮官》一書中寫道:“在作戰(zhàn)所需情報(bào)中,有4%來(lái)源于秘密渠道,而有95%的情報(bào)不是通過(guò)標(biāo)準(zhǔn)情報(bào)活動(dòng)(秘密方法)獲得的,是從學(xué)術(shù)界、民間、商業(yè)、政府、執(zhí)法機(jī)關(guān)、媒體、非政府組織等渠道公開(kāi)、廉價(jià)地獲得的。”[4~5]互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)站、論壇、網(wǎng)絡(luò)出版物等新型信息媒體不斷涌現(xiàn),形成了縱橫交錯(cuò)、無(wú)處不在的公開(kāi)信息空間。以互聯(lián)網(wǎng)為主要獲取手段的開(kāi)源情報(bào),憑借其信息容量大、內(nèi)容豐富、來(lái)源廣泛、不受時(shí)間地域限制等優(yōu)勢(shì),日益受到各國(guó)的關(guān)注,被視為最廣泛、最經(jīng)濟(jì)、最安全和最迅速的情報(bào)搜集手段[6~8]。通過(guò)艦船自動(dòng)識(shí)別系統(tǒng)(AIS)獲取的位置、身份等信息,結(jié)合互聯(lián)網(wǎng)上有關(guān)大中型艦艇的公開(kāi)報(bào)道及論壇跟帖信息,為海面艦艇的動(dòng)態(tài)檢測(cè)提供了詳細(xì)可靠的信息獲取渠道,是大中型目標(biāo)檢測(cè)手段的有力補(bǔ)充。
在這樣的背景下,本文從遠(yuǎn)海大中型目標(biāo)檢測(cè)與識(shí)別的需求出發(fā),在網(wǎng)絡(luò)公開(kāi)信息搜集的基礎(chǔ)上,建立目標(biāo)身份信息庫(kù),利用信息庫(kù)中的AIS信息,通過(guò)船舶定位網(wǎng)站發(fā)現(xiàn)目標(biāo)艦艇的位置和屬性信息。同時(shí)建立網(wǎng)絡(luò)爬蟲工具獲取目標(biāo)艦艇的近期中英文通訊報(bào)道,利用實(shí)體識(shí)別工具,抽取公開(kāi)報(bào)道信息中的目標(biāo)艦艇名稱、時(shí)間和位置信息。最后將不同渠道獲得的目標(biāo)艦艇身份信息、出現(xiàn)的時(shí)間和地點(diǎn)信息進(jìn)行比對(duì)分析,對(duì)目標(biāo)身份和活動(dòng)事件進(jìn)行一致性檢驗(yàn),最終實(shí)現(xiàn)海上大中型目標(biāo)的檢測(cè)、識(shí)別與驗(yàn)證。
AIS系統(tǒng)作為船和岸、船和船之間的海事安全與通信的開(kāi)放式數(shù)據(jù)傳輸助航系統(tǒng),通過(guò)VHF通信機(jī)可自動(dòng)交換船位、航速、航向、船名、呼號(hào)等重要信息,并通過(guò)與互聯(lián)網(wǎng)連接,構(gòu)成海上交管和監(jiān)視網(wǎng)絡(luò),廣泛應(yīng)用于民船、軍用艦艇等海上船舶的通信交流、導(dǎo)航避碰、海上救援等領(lǐng)域[9]。
AIS通信信息中的身份信息為識(shí)別海上大中型目標(biāo)提供了開(kāi)源渠道,通過(guò)互聯(lián)網(wǎng)等開(kāi)源渠道獲取外軍軍用艦艇的身份信息,形成艦艇身份信息庫(kù),結(jié)合庫(kù)中目標(biāo)艦艇的身份信息,利用船舶方位查詢網(wǎng)站獲取目標(biāo)艦艇的位置信息,并通過(guò)身份信息比對(duì),實(shí)現(xiàn)大中型目標(biāo)的檢測(cè)和識(shí)別。
為了收集整理國(guó)外海上大中型目標(biāo)的身份特征信息,通過(guò)互聯(lián)網(wǎng)新聞報(bào)道、軍事愛(ài)好者論壇和國(guó)外艦艇門戶網(wǎng)站等開(kāi)源渠道獲取艦艇名稱和身份等相關(guān)信息,建立艦艇身份信息庫(kù)。該信息庫(kù)主要包含名稱、編號(hào)、特征及活動(dòng)等四類信息,如圖1所示,名稱類信息包括英文名稱、中文名稱和英文別名;編號(hào)類信息包括MMSI號(hào)碼(水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼)、呼號(hào)和船舶序號(hào);特征類信息包括船體長(zhǎng)度、最大寬度和艦艇類別;活動(dòng)類型信息包括母港、歷史事件和活動(dòng)區(qū)域。為保證數(shù)據(jù)庫(kù)的準(zhǔn)確性和完整性,信息庫(kù)信息在目標(biāo)檢測(cè)過(guò)程中不斷更新和完善。當(dāng)前艦艇信息庫(kù)包含美、日、臺(tái)各軍航空母艦、潛艇、兩棲登陸艦、驅(qū)逐艦、瀕海戰(zhàn)斗艦和聯(lián)合高速艦等大中型艦艇526艘。隨著開(kāi)源信息的不斷收集和整理,信息庫(kù)包含的艦艇數(shù)量和信息種類將不斷提升。

圖1 艦艇身份信息結(jié)構(gòu)
根據(jù)AIS網(wǎng)站信息查詢特點(diǎn)及數(shù)據(jù)格式,目標(biāo)發(fā)現(xiàn)及信息自動(dòng)獲取流程主要分為以下四個(gè)步驟:艦艇身份信息獲取、AIS網(wǎng)頁(yè)解析、目標(biāo)艦艇特征匹配和艦艇活動(dòng)信息存儲(chǔ),如圖2所示。

圖2 目標(biāo)發(fā)現(xiàn)和信息獲取流程圖
大中型艦艇發(fā)現(xiàn)及信息提取主要流程如下所示。
1)選擇所需檢測(cè)的艦艇,通過(guò)艦艇身份信息庫(kù)獲取其MMSI號(hào)碼,并在AIS查詢Url庫(kù)中選取合適的船舶方位查詢網(wǎng)站,船舶方位查詢中文外文網(wǎng)站如表1所示;

表1 船舶方位查詢網(wǎng)站
2)利用MMSI號(hào)碼對(duì)相應(yīng)的AIS查詢網(wǎng)站進(jìn)行請(qǐng)求并得到響應(yīng),解析得到目標(biāo)艦艇的位置信息、時(shí)間信息、特征信息和圖片信息。如查詢失敗,更新查詢Url,并重新請(qǐng)求,當(dāng)遍歷Url庫(kù)仍然未得到解析結(jié)果,對(duì)該艦艇的AIS信息進(jìn)行查驗(yàn)并更新艦艇身份信息庫(kù);
3)根據(jù)網(wǎng)站解析得艦艇的長(zhǎng)度、寬度、呼號(hào)等身份信息和圖片信息與艦艇身份信息庫(kù)中的相關(guān)信息進(jìn)行比對(duì),如差別較大,對(duì)該艦艇的AIS信息進(jìn)行查驗(yàn)并更新艦艇身份信息庫(kù);
4)如果Url反饋信息完整并且艦艇特征匹配成功,保存艦艇出現(xiàn)的時(shí)間、所在時(shí)區(qū)、經(jīng)緯度、出現(xiàn)區(qū)域和附近港口等信息,否則艦艇位置查詢失敗。
因AIS信息具有時(shí)間滯后、身份信息可修改等特點(diǎn),單純依賴AIS信息并不能保證信息的準(zhǔn)確性,為增加艦艇活動(dòng)信息的可靠性,還需多種信息來(lái)源對(duì)艦艇活動(dòng)事件進(jìn)行比對(duì),輔助驗(yàn)證事件的同一性。航空母艦、驅(qū)逐艦、兩棲登陸艦等海上大中型目標(biāo)因在國(guó)防領(lǐng)域發(fā)揮重要作用而受到社會(huì)的廣泛關(guān)注,這些艦艇在駐留港口碼頭、靠港維修補(bǔ)給、出海訪問(wèn)交流、國(guó)防公開(kāi)教育等活動(dòng)過(guò)程中,當(dāng)?shù)匦侣劽襟w、軍事自媒體、軍事愛(ài)好者或者隨艦通訊記者會(huì)在網(wǎng)上進(jìn)行相應(yīng)的通訊報(bào)道、發(fā)帖和留言,這些獲取信息的網(wǎng)絡(luò)公開(kāi)渠道為信息可靠性分析提供了另一個(gè)重要的信息來(lái)源。
隱藏在公開(kāi)報(bào)道中的名稱、時(shí)間和位置等關(guān)鍵信息是驗(yàn)證目標(biāo)艦艇活動(dòng)的關(guān)鍵,必須對(duì)其中的關(guān)鍵信息進(jìn)行識(shí)別和提取。因通訊報(bào)道信息的權(quán)威性、準(zhǔn)確性和完整性,本文以通訊報(bào)道為處理對(duì)象。中英新聞通訊中目標(biāo)艦艇活動(dòng)時(shí)間和地點(diǎn)等關(guān)鍵信息的提取,主要由以下三步完成。
1)公開(kāi)信息獲取。利用艦艇身份信息庫(kù)獲取目標(biāo)艦艇的名稱信息,通過(guò)商業(yè)搜索引擎,獲取目標(biāo)艦艇最近的公開(kāi)信息,并保存相關(guān)網(wǎng)址;
2)網(wǎng)頁(yè)關(guān)鍵內(nèi)容抽取。結(jié)合網(wǎng)頁(yè)解析工具,完成正文、發(fā)表時(shí)間等網(wǎng)頁(yè)關(guān)鍵內(nèi)容的抽取;
3)關(guān)鍵信息抽取。利用自然語(yǔ)言信息處理工具,實(shí)現(xiàn)公開(kāi)信息正文中艦艇名稱、出現(xiàn)時(shí)間和地點(diǎn)等關(guān)鍵信息的獲取。
下面就各步驟進(jìn)行詳細(xì)說(shuō)明。
首先確定待檢測(cè)的目標(biāo)艦艇,從艦艇身份信息庫(kù)中獲取中文名稱、英文名稱,利用爬蟲工具通過(guò)搜索引擎檢索目標(biāo)艦艇名稱并將檢索結(jié)果以時(shí)間排序,同時(shí)剔除百度、維基等百科類網(wǎng)址,以當(dāng)前時(shí)間為基準(zhǔn),檢索目標(biāo)艦艇近三個(gè)月的新聞報(bào)道,如果未有相關(guān)信息,則檢索目標(biāo)艦艇別名或簡(jiǎn)稱,以此來(lái)獲取相關(guān)新聞通訊網(wǎng)址,最后將新聞網(wǎng)址進(jìn)行保存,如圖3所示。

圖3 公開(kāi)信息獲取流程圖
本文從目標(biāo)艦艇的開(kāi)源情報(bào)信息內(nèi)容要求出發(fā),爬取的網(wǎng)站以英文網(wǎng)站為主,中文網(wǎng)站為輔,重點(diǎn)關(guān)注頁(yè)面標(biāo)題、文章作者、發(fā)表時(shí)間、正文、關(guān)鍵詞、摘要、圖片、視頻等關(guān)鍵信息,忽略網(wǎng)頁(yè)無(wú)關(guān)信息。不同語(yǔ)言不同類別的網(wǎng)站語(yǔ)法規(guī)則不太相同,這為網(wǎng)頁(yè)適配帶來(lái)了額外的工作[10]。
傳統(tǒng)的 Xpath,Css,正則表達(dá)式,Beautifulsoup來(lái)解析新聞頁(yè)面的時(shí)候,網(wǎng)頁(yè)源碼中混有大量無(wú)用的語(yǔ)法信息,總是會(huì)遇到各種問(wèn)題,嚴(yán)重影響工作進(jìn)度。而開(kāi)源python庫(kù)提供了豐富的網(wǎng)頁(yè)信息獲取工具,其中基于提取模板的newspaper庫(kù)就是優(yōu)秀代表,不僅自動(dòng)識(shí)別和處理包括中英文在內(nèi)的10多種語(yǔ)言網(wǎng)頁(yè),可以通過(guò)自然語(yǔ)言處理相關(guān)技術(shù)自動(dòng)生成網(wǎng)頁(yè)關(guān)鍵詞和摘要。具體應(yīng)用步驟如圖4所示。

圖4 Newspaper提取關(guān)鍵信息流程
目標(biāo)艦艇相關(guān)情報(bào)發(fā)生的時(shí)間和地點(diǎn)是體現(xiàn)其情報(bào)價(jià)值的核心要素。在一般的開(kāi)源新聞報(bào)道中,標(biāo)題和正文通常包含關(guān)鍵的時(shí)間和地點(diǎn)信息。如何將隱藏在標(biāo)題和正文中的關(guān)鍵信息進(jìn)行正確識(shí)別和提取是從公開(kāi)信息中提取高價(jià)值情報(bào)的關(guān)鍵。
本文通過(guò)斯坦福大學(xué)開(kāi)發(fā)的開(kāi)源自然語(yǔ)言處理工具Stanford CoreNLP,抽取標(biāo)題和正文中時(shí)間地點(diǎn)信息,該工具支持英文、中文、西班牙語(yǔ)等六種語(yǔ)言的命名實(shí)體識(shí)別、詞性標(biāo)注、情感分析等功能。在命名實(shí)體識(shí)別中,時(shí)間詞語(yǔ)被標(biāo)注為“DATE”和“TIME”,地點(diǎn)詞語(yǔ)被標(biāo)注為“LOCA?TION”,“CITY”,“COUNTRY”,“STATE OF PROV?INCE”。中文英文時(shí)間地點(diǎn)要素識(shí)別分別如圖5和圖6所示。

圖5 中文時(shí)間和地點(diǎn)要素識(shí)別示例

圖6 英文時(shí)間和地點(diǎn)要素識(shí)別示例
雖然通過(guò)檢索艦艇名稱獲取相關(guān)新聞報(bào)道,并利用Stanford CoreNLP較好地抽取文中艦艇出現(xiàn)的時(shí)間和地點(diǎn),但是在新聞報(bào)道中目標(biāo)艦艇活動(dòng)信息的時(shí)間位置精度和通過(guò)AIS獲取的不相同,一般在新聞報(bào)道中時(shí)間精確到天、地點(diǎn)精確到城市或者港口,而AIS時(shí)間地點(diǎn)精度較高,一般時(shí)間精確到秒,地點(diǎn)以經(jīng)緯度表示,因此不能判定AIS獲取的艦艇活動(dòng)事件和新聞報(bào)道中的是同一個(gè)事件,必須對(duì)二者進(jìn)行事件一致性檢驗(yàn)。事件一致性檢驗(yàn)是在身份一致性的基礎(chǔ)上,通過(guò)時(shí)間和地點(diǎn)一致性來(lái)判斷是否是同一事件[11]。具體流程如圖7所示。

圖7 事件一致性檢驗(yàn)流程圖
從AIS獲取的名稱類信息指向性強(qiáng),特指某艦艇,具有唯一性。而在利用名稱通過(guò)搜集引擎檢索網(wǎng)頁(yè)過(guò)程中,因搜索機(jī)制問(wèn)題,可能出現(xiàn)正文或者標(biāo)題中目標(biāo)艦艇名稱出現(xiàn)了一次,而正文中的事件描述其他艦艇活動(dòng)情況。為保證新聞報(bào)道的參考價(jià)值,必須驗(yàn)證通訊報(bào)道中具有活動(dòng)信息的艦艇與AIS目標(biāo)艦艇是否為同一艦艇,即身份一致性檢驗(yàn)。
根據(jù)自然語(yǔ)言處理工具處理結(jié)果,如果標(biāo)題和正文僅出現(xiàn)目標(biāo)艦艇的身份信息而未出現(xiàn)其他艦艇,則判定該新聞報(bào)道具有較高參考價(jià)值,無(wú)需人為檢閱,直接進(jìn)行時(shí)間和地點(diǎn)一致性檢驗(yàn)。如果標(biāo)題和正文中不僅出現(xiàn)目標(biāo)艦艇身份信息,還出現(xiàn)其他艦艇身份信息,則無(wú)法判斷該通訊報(bào)道是否具有參考價(jià)值,必須人為審閱對(duì)應(yīng)通訊報(bào)道,判斷新聞是否描述目標(biāo)艦艇的相關(guān)行動(dòng)信息。
在進(jìn)行時(shí)間一致性檢驗(yàn)前,必須對(duì)時(shí)間信息進(jìn)行預(yù)處理。主要分為三步:
1)針對(duì)不同時(shí)間粒度的規(guī)定。對(duì)于文中抽取時(shí)間大多數(shù)只具體到日期而無(wú)具體時(shí)間情況,統(tǒng)一將具體時(shí)間定為12:00;
2)將不同時(shí)區(qū)時(shí)間換算成統(tǒng)一時(shí)區(qū)時(shí)間。AIS時(shí)間通過(guò)獲取的時(shí)區(qū)符號(hào)換算,而文中抽取的時(shí)間所在時(shí)區(qū)因不確定性較大,因此必須通過(guò)詞性標(biāo)注為“DATE”和“TIME”的短語(yǔ)人為確定;
3)統(tǒng)一時(shí)間格式。將時(shí)間統(tǒng)一為“年:月:日小時(shí):分鐘”格式。
若AIS獲取時(shí)間和文中抽取時(shí)間之差的絕對(duì)值小于3×24h,則通過(guò)時(shí)間一致性檢驗(yàn),否則不通過(guò)。之所以選擇3×24h作為判斷標(biāo)準(zhǔn),是由新聞報(bào)道的時(shí)間滯后性和模糊性所決定的[12]。
AIS獲取的位置精度較高,一般為經(jīng)緯度信息和港口信息,而文中抽取的位置精度較低,一般為城市或港口信息,涵蓋范圍較大。如果AIS獲取的港口在文中抽取位置所在行政區(qū)范圍內(nèi)或者AIS獲取的經(jīng)緯度位于文中出現(xiàn)的海域或者區(qū)域內(nèi),則通過(guò)地點(diǎn)一致性檢驗(yàn),否則不通過(guò)。
尼米茲號(hào)航空母艦是美國(guó)海軍尼米茲級(jí)航空母艦首艦,以第二次世界大戰(zhàn)期間任太平洋戰(zhàn)區(qū)的盟軍總司令,美軍五星上將尼米茲的名字命名,為美軍現(xiàn)役核動(dòng)力大型航空母,其艦艇身份信息庫(kù)資料卡片如圖8所示。

圖8 尼米茲號(hào)航空母艦資料卡片
利用尼米茲號(hào)航空母艦MMSI號(hào)通過(guò)爬蟲工具獲取其最近出現(xiàn)時(shí)間、地區(qū)、港口、經(jīng)緯度等信息,如圖9所示。

圖9 通過(guò)AIS獲取的尼米茲號(hào)航空母艦行動(dòng)信息
將爬取的尼米茲號(hào)航空母艦活動(dòng)信息與通過(guò)marine-traffic網(wǎng)站人工檢索的信息,如圖10所示,進(jìn)行比較分析,二者結(jié)果基本一致,證明了爬蟲工具的穩(wěn)定和可靠性。

圖10 AIS信息檢索頁(yè)面
首先利用航空母艦簡(jiǎn)稱“USS Nimitz”,通過(guò)搜索引擎獲取搜索結(jié)果,同時(shí)將搜索結(jié)果中百科類、照片類和視頻類網(wǎng)頁(yè)信息剔除,然后根據(jù)發(fā)表時(shí)間遠(yuǎn)近選取最近的新聞報(bào)道,篩選得到于2020年2月22日發(fā)表在網(wǎng)絡(luò)的“USS Nimitz Hosts Junior Navy ROTC Students”新聞稿[13],一篇關(guān)于尼米茲航空母艦邀請(qǐng)高中海軍預(yù)備軍官上艦參觀的新聞報(bào)道,并將新聞稿中含有時(shí)間和地點(diǎn)等關(guān)鍵信息的第一段文字內(nèi)容單獨(dú)提取,最后利用自然語(yǔ)言處理工具將文字中的關(guān)鍵內(nèi)容進(jìn)行標(biāo)注,同時(shí)提取相應(yīng)的關(guān)鍵信息,如圖11所示。

圖11 關(guān)鍵信息提取過(guò)程
利用MMSI號(hào)通過(guò)AIS查詢網(wǎng)站獲取的船舶全長(zhǎng)、寬度特征信息與照片資料和尼米茲號(hào)航空母艦信息相符,同時(shí)尼米茲號(hào)航空母艦被AIS檢測(cè)到的時(shí)間為當(dāng)?shù)貢r(shí)間2020年2月22日的1:17刻,地點(diǎn)為BREMERTON(布雷默頓,美國(guó)華盛頓州港口城市),該港口是尼米茲號(hào)航空母艦?zāi)父邸P侣劯逯袌?bào)道的對(duì)象是USS Nimitz(CVN68),活動(dòng)時(shí)間為當(dāng)?shù)貢r(shí)間2020年2月21日,地點(diǎn)為Puget Sound(普吉特海灣,美國(guó)華盛頓州西北部),目的地為Bremer?ton,Washington(華盛頓州布雷默頓)。
從時(shí)間上看,尼米茲號(hào)航空母艦被AIS檢測(cè)到的時(shí)間與新聞稿中被報(bào)道的時(shí)間間隔小于2天,時(shí)間較為接近;從空間上看,尼米茲號(hào)航空母艦被AIS檢測(cè)到出現(xiàn)在布雷默頓港口,該港口恰好位于新聞報(bào)道中出現(xiàn)的普吉特海灣,同時(shí)新聞中出現(xiàn)的目的地信息——布雷默頓與1天后被AIS檢測(cè)到的地點(diǎn)信息一致。結(jié)合以上判斷AIS于2020年2月22日檢測(cè)到的尼米茲號(hào)航空母艦信息是真實(shí)有效的。
本文針對(duì)遠(yuǎn)距離和超遠(yuǎn)距離海上大中型目標(biāo)的發(fā)現(xiàn)困難和識(shí)別模糊問(wèn)題,從利用AIS信息的角度提出了一種基于開(kāi)源情報(bào)的海上大中型目標(biāo)檢測(cè)和識(shí)別方法,同時(shí)結(jié)合公開(kāi)信息報(bào)道中出現(xiàn)的目標(biāo)名稱、出現(xiàn)時(shí)間和地點(diǎn),進(jìn)行事件一致性檢驗(yàn),增強(qiáng)開(kāi)源信息的可信度。本文最后通過(guò)對(duì)真實(shí)目標(biāo)的檢測(cè)和識(shí)別對(duì)方法進(jìn)行了實(shí)驗(yàn)評(píng)估,實(shí)驗(yàn)結(jié)果表明通過(guò)開(kāi)源渠道對(duì)海上大中型目標(biāo)進(jìn)行檢測(cè)和識(shí)別是可行的。