王思佳,夏紹模
(陸軍勤務(wù)學(xué)院,重慶 401331)
目前,據(jù)有關(guān)部門的統(tǒng)計,西方發(fā)達國家的情報中已經(jīng)有高達95%的情報都是獲取自公共開放的來源,開源情報研究作為一項現(xiàn)代基礎(chǔ)性的研究工作,世界各國對其的重視程度明顯得到了日益提升[1]。自中國人民解放軍誕生之日起,就對軍事情報工作十分重視,為滿足國家安全以及國防和軍隊現(xiàn)代化建設(shè)需要,在我軍內(nèi)部逐步形成了一系列較為完善的軍事情報體制,以此開展軍事情報研究工作。軍事情報的作用不容忽視,它在為各種軍事任務(wù)提供情報支持的同時還對軍事行動中的軍隊提供了保護。在傳統(tǒng)的信息環(huán)境下,由于缺乏及時而廣泛的信息和整理加工信息的技術(shù)手段,我軍情報研究工作只能依靠圖書館和其他文獻機構(gòu),這樣的情報研究成果必然受到一定的限制。中央情報局也指出“不一定只有保密信息才有價值”,隨著大數(shù)據(jù)時代的到來以及信息化社會的發(fā)展,來自互聯(lián)網(wǎng)、電視、廣播等公開媒體的開放式信息越來越多,從這些海量信息中獲取到實用性強的情報對我軍軍事情報研究有著巨大的貢獻,因此如何從大量紛繁復(fù)雜的公開信息中提取出有價值的軍事信息并且實現(xiàn)信息共享是當(dāng)前軍事情報研究工作急需解決的難點與重點[2]。
開源情報研究在國外發(fā)展起步較早,尤其是美國這一發(fā)達國家在這方面的研究更是一直處于世界領(lǐng)先地位[3],而國內(nèi)開源情報研究工作開展相對而言是比較晚的,同時可能由于將情報過于神秘化、缺乏對情報本質(zhì)的認(rèn)知等原因的存在,開源情報研究活動一直處于被動且零散的狀態(tài)。近年來,才逐步開始出現(xiàn)了極少數(shù)面向軍事領(lǐng)域開源情報采集的挖掘技術(shù)的相關(guān)研究[4],但仍然有研究層次不夠深入、研究內(nèi)容不夠豐富和研究角度不夠全面等問題的存在。
在這樣的背景下,文章從外國軍事開源情報信息源的搜集整理出發(fā),運用爬蟲軟件實現(xiàn)資源的獲取,基于SVM分類模型進行篩選得到軍事類資源,最終形成一個基于MADL資源系統(tǒng)開發(fā)平臺開發(fā)設(shè)計的外國軍事開源情報數(shù)據(jù)庫,實現(xiàn)了軍事領(lǐng)域開源情報信息從搜集、處理到共享的全過程分析。
基于軍事領(lǐng)域的專業(yè)化特點和特殊需要,本文設(shè)計了基于軍事領(lǐng)域的開源情報數(shù)據(jù)采集模型框架如圖1所示:

圖1 軍事領(lǐng)域開源情報收集模型
1) 選擇與軍事領(lǐng)域相關(guān)的軍事頻道、新聞、視頻、文檔等公開信息的數(shù)字資源作為URL種子添加到URL庫中;
2) URL管理器通過某種方式將URL提供給爬蟲采集器并進行網(wǎng)頁的解析和去重;
3) 對頁面進行抽取,得到URL再次添加到URL庫中,以便能夠提供持續(xù)不斷的新頁面;
4) 過濾篩選并去除掉重復(fù)等雜亂無用的信息,得到實際的正文內(nèi)容,然后利用SVM分類模型對正文內(nèi)容進行分類,判斷其是否為軍事領(lǐng)域相關(guān)的信息,如果是則將其添加到軍事開源情報數(shù)據(jù)庫中;
5)基于MADL資源開發(fā)平臺設(shè)計開發(fā)外國軍事開源情報數(shù)據(jù)庫,實現(xiàn)軍事開源情報信息的共享。
為了能夠設(shè)計開發(fā)一個完善的外國軍事后勤開源情報數(shù)據(jù)倉庫,首先就要獲取到全面完整的信息源。通過收集,整理到來自北約、美國、英國、法國、俄羅斯、印度等國家與組織的政府部門、軍事機構(gòu)、軍工企業(yè)、核心智庫、重要媒體與商業(yè)數(shù)據(jù)庫作為外國軍事開源情報數(shù)字信息源,這些軍事特色資源數(shù)據(jù)庫收錄的資源分為資訊類、文件類、出版類、參考類與視聽類五大類,部分外國軍事開源情報信息源如表1所列。

表1 外國軍事領(lǐng)域開源情報部分信息源列表
能否精確的判斷某開源信息是否與軍事密切相關(guān)是軍事領(lǐng)域開源情報主題爬蟲的主要問題之一?;谶@樣的研究目的,為了解決這一問題可以采用有關(guān)分類器的主題相關(guān)度評估策略,將網(wǎng)頁內(nèi)容中紛繁復(fù)雜的多類型主題統(tǒng)一分為兩類:第一類是軍事領(lǐng)域開源情報;第二類是它類情報信息。
分類算法種類較多,但其中基于SVM分類器的算法因為效果好、易于實現(xiàn)等優(yōu)點得到了廣泛的采用。因此可以采取基于SVM算法的文本分類來構(gòu)建軍事領(lǐng)域爬蟲主題分類模型。主要步驟是[5]:
然而,縱觀新中國建立以來我國住房用地基本制度的演進狀況,單一國有制至今未變,但住房用地使用權(quán)通過“出讓”進入市場,形成土地國家使用權(quán)、公民和法人使用權(quán)。盡管法律規(guī)定如此,但當(dāng)今我國住房用地上的國家使用權(quán)占比很小,公民和法人使用權(quán)占絕對比重。很顯然,現(xiàn)行住房用地基本制度(無論是從所有制還是從使用權(quán)角度來看)并不符合中國特色社會主義基本經(jīng)濟制度要求,必須繼續(xù)深化改革,構(gòu)建新時代中國特色社會主義住房用地基本制度。
1) 文本預(yù)處理:將從搜集整理到的信息源中收集到的包括軍事領(lǐng)域開源情報和其他非軍事領(lǐng)域的信息進行類別的標(biāo)注、分類、轉(zhuǎn)換和清洗過濾等。
2) 文本表示與特征選擇:將具有非結(jié)構(gòu)化特征的文本信息處理轉(zhuǎn)化為能夠被SVM識別的形式,可以先采用向量空間模型對文本信息進行表示成SVM所能識別的形式。
3) 分類模型訓(xùn)練與優(yōu)化:SVM最大的優(yōu)勢就是能夠?qū)ふ页鱿鄬ψ顑?yōu)的超平面,可以使得以盡可能大的分類間隔將兩類樣本正確無誤的分開。
4) 主題預(yù)測:抽取網(wǎng)頁中的正文,并按照與訓(xùn)練集相同的方式進行相關(guān)處理之后映射到特征向量空間模型中,然后通過前文所述的經(jīng)過訓(xùn)練后的SVM分類器進行分類,最終得出判定結(jié)果。
依照軍隊文獻信息資源數(shù)據(jù)庫的一體化要求,采用數(shù)字圖書館應(yīng)用軟件系統(tǒng)MADL作為外國軍事開源情報數(shù)據(jù)庫設(shè)計與開發(fā)的軟件平臺。
3.1.1 硬件平臺搭建
MADL開發(fā)平臺對資源系統(tǒng)的硬件有一定的要求,外國軍事開源情報數(shù)據(jù)庫的實現(xiàn)是基于如表2所示的具體硬件設(shè)備配置。

表2 硬件配置
3.1.2 軟件平臺與工序流程設(shè)計
MADL資源系統(tǒng)開發(fā)平臺軟件平臺的組成成分總共分為3個,分別是:MADL工具箱、資源加工平臺和網(wǎng)站發(fā)布平臺。MADL工具箱的主要作用是在客戶端/服務(wù)器等模式的支持下提供系統(tǒng)初始化、系統(tǒng)升級以及數(shù)據(jù)導(dǎo)入導(dǎo)出等功能給系統(tǒng)管理員提供便利;MADL資源加工平臺一共有5個子程序,分別是:內(nèi)容管理、元數(shù)據(jù)編目、電子書制造、數(shù)據(jù)遷移和數(shù)據(jù)復(fù)制工具,它的作用是為系統(tǒng)管理員提供數(shù)字資源加工、標(biāo)注與管理等功能;MADL網(wǎng)站發(fā)布平臺的主要功能是通過Web頁面提供資源發(fā)布服務(wù)和對數(shù)字資源進行檢索與訪問。在前文通過爬蟲軟件從收集整理的信息源中進行內(nèi)容爬取,并經(jīng)過SVM分類模型篩選出的關(guān)于外國軍事領(lǐng)域開源情報信息數(shù)據(jù)的支撐下,通過MADL資源系統(tǒng)開發(fā)平臺開發(fā)設(shè)計外國軍事開源情報數(shù)據(jù)庫,主要流程有以下幾個方面:
1) 內(nèi)容管理流程:系統(tǒng)管理員可以通過內(nèi)容管理器對數(shù)據(jù)庫、模板、MADL用戶、系統(tǒng)信息進行管理。內(nèi)部管理流程設(shè)計圖如圖2。在這部分,還應(yīng)該重點關(guān)注對數(shù)據(jù)庫分類的相關(guān)內(nèi)容,首先應(yīng)按照一定的使用意圖和目的對軍事開源情報產(chǎn)品進行分類,部分類別之間必定會存在重疊交叉的部分,也就是說一些外國軍事開源信息可以同時用在不同種類的產(chǎn)品上。為了滿足不同類別部隊用戶的需要,選擇從兩個維度對外國軍事后勤開源情報信息資源進行分類,一是從學(xué)科種類維度,以《中國軍事大辭海》為主,《中國分類主題詞表》、《軍隊信息化詞典》為輔助,將外國軍事后勤開源情報信息分為軍需勤務(wù)、軍隊財務(wù)、油料、衛(wèi)生、軍交運輸、營房建設(shè)、物流倉儲等;二是從情報產(chǎn)品種類維度,根據(jù)《陸軍野戰(zhàn)條令“FM2-0”》將外國軍事開源情報產(chǎn)品分類為征候和預(yù)警情報、現(xiàn)實情報、常規(guī)軍事情報、目標(biāo)情報、科技情報、反情報、預(yù)測性情報等[6]。

圖2 內(nèi)容管理流程
2) 開源情報編目:外國軍事開源情報信息作為網(wǎng)絡(luò)信息資源的整理、整序和整合工作,被稱為文獻編目,網(wǎng)絡(luò)信息資源按照存取方式劃分為WWW信息資源、Telnet信息資源、FTP信息資源、Listserv/Mailing信息資源、Usenet/Newsgroup信息資源[7]。而對信息資源的編目必須使用數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)即元數(shù)據(jù)。元數(shù)據(jù)編目工具的主要功能是能夠讓編目和檢查人員對MADL數(shù)據(jù)庫中元數(shù)據(jù)進行編目和檢查。元數(shù)據(jù)編目流程如圖3所示。

圖3 元數(shù)據(jù)編目流程
3) 網(wǎng)站發(fā)布流程:基于Web平臺建立一個外國軍事開源情報數(shù)據(jù)庫,為全軍勤務(wù)機關(guān)決策和部隊訓(xùn)練提供前沿的情報支撐服務(wù),該數(shù)據(jù)倉庫的主要功能有兩大類:一是針對部隊用戶的服務(wù)功能,二是針對系統(tǒng)管理人員的管理功能。網(wǎng)站發(fā)布流程圖如圖4。

圖4 網(wǎng)站發(fā)布流程
為盡可能滿足軍事院校在全軍人才培養(yǎng)和科技創(chuàng)新以及全軍機關(guān)決策、部隊訓(xùn)練的情報信息需求,基于MADL資源開發(fā)平臺開發(fā)的外國軍事開源情報數(shù)據(jù)庫信息服務(wù)要更加人性化,更具有針對性,在此背景下制定了如圖5所示的外國軍事開源情報數(shù)據(jù)庫服務(wù)模式。由于部分軍事開源情報信息資源的保密要求和方便對用戶訪問權(quán)限的管理,外國軍事后勤開源情報數(shù)據(jù)庫將用戶種類設(shè)置為系統(tǒng)管理員、檢查人員、校內(nèi)教職工、校內(nèi)學(xué)生和校外訪問者5個代表不同角色的用戶,分別設(shè)置不同的查詢權(quán)限。而用戶行為管理的主要功能是統(tǒng)計用戶檢索、瀏覽、下載各類軍事開源情報信息的情況,可以分析出不同類別用戶對不同類別開源信息的需求情況,本系統(tǒng)采用WebTrends Log Analyze統(tǒng)計資源系統(tǒng)的訪問量,以及各種開源信息被訪問、下載的頻率。基于MADL軟件開發(fā)平臺可以很方便簡潔地實現(xiàn)快速檢索、高級檢索、統(tǒng)一檢索三個功能,其余功能將從以下四點進行詳細(xì)論述。

圖5 外國軍事開源情報數(shù)據(jù)庫服務(wù)框架
1) 軍事動態(tài):軍事動態(tài)模塊的主要功能是定期更新推送外國軍事情報信息,這些情報信息就是來自上文所收集整理到的信息源中,比如獲取自聯(lián)合國安全理事會網(wǎng)站的外國軍事信息,聯(lián)合國安全理事會作為唯一一個有權(quán)采取軍事行動的聯(lián)合國機構(gòu),為了維護國際的和平與安全,會經(jīng)常召開各種會議包括對緊急特別事項的探討、通過某種決議或者批準(zhǔn)某個軍事行動等,這些會議的召開及其探討的內(nèi)容與結(jié)果都會及時準(zhǔn)確的在聯(lián)合國安全理事會官網(wǎng)上進行發(fā)布,供個人到國家各個層面進行數(shù)據(jù)瀏覽訪問?;诖?系統(tǒng)管理員從各信息源中第一時間獲取到外國軍事信息動態(tài),并將其發(fā)布在軍事動態(tài)模塊中及時推送給用戶。
2) 學(xué)科動態(tài):學(xué)科動態(tài)模塊主要體現(xiàn)的是不同軍事專業(yè)相關(guān)的外國軍事情報信息,將根據(jù)前文所述信息源及時準(zhǔn)確獲取到的外國軍事情報信息按照油料、倉儲、營房、采購、軍隊會計、軍需勤務(wù)等不同軍事學(xué)科匯總分類,比如致力于從采辦、后勤等領(lǐng)域培養(yǎng)部隊專業(yè)人才的美國國防軍需大學(xué),從它的官網(wǎng)收集到的外國軍事情報信息就可以歸類到采購或勤務(wù)等學(xué)科專業(yè)分類下。這樣的分類可以幫助用戶有針對性的按照不同學(xué)科專業(yè)查詢搜索相關(guān)信息。
3) 軍事譯文:將在外國期刊雜志發(fā)表的有關(guān)軍事類期刊論文從作者、關(guān)鍵詞、摘要到正文的全部內(nèi)容進行翻譯入庫到軍事譯文模塊中,該模塊中的軍事譯文可供用戶查詢?yōu)g覽,當(dāng)涉及下載環(huán)節(jié)時需要使用外國軍事開源情報數(shù)據(jù)庫專用幣,這種幣并不是通過充值的形式獲取,而是需要用戶通過共享信息作為交換,用戶每共享上傳一個軍事譯文或軍事情報信息就會獲得相應(yīng)數(shù)量專用幣用于下載自己所需的資料。
4) 提問反饋:軍事情報需求不是一成不變的,用戶對不同種類的軍事情報需求是不一樣的,只有形成一個靈活的軍事情報反饋機制才能準(zhǔn)確地把握用戶的不同需求,更好地為全軍機關(guān)決策、部隊訓(xùn)練和各項軍事行動戰(zhàn)略任務(wù)服務(wù)。提問反饋模塊就是用戶進行提問交流的分區(qū),有權(quán)限的管理員或老師可以對問題進行回答,通過這些問題反饋以及用戶行為管理中對用戶檢索、瀏覽、下載各類軍事開源情報信息情況的統(tǒng)計,可以有效地獲取到用戶的軍事情報需求,不斷改進數(shù)據(jù)庫的情報服務(wù)工作。
縱觀已有的研究,開源情報研究在國內(nèi)一直處于被冷落的狀態(tài),但它的研究意義與價值是不容忽視的,尤其是在軍事領(lǐng)域,本文從外國軍事開源情報信息源的搜集整理為切入點,運用爬蟲軟件進行資源的獲取,并且基于SVM分類模型進行篩選得到軍事類資源,最終形成一個基于MADL資源系統(tǒng)開發(fā)平臺開發(fā)設(shè)計的外國軍事開源情報數(shù)據(jù)倉庫,實現(xiàn)了軍事領(lǐng)域開源情報信息從搜集、處理到共享的全過程分析,不僅有利于鞏固院校重點學(xué)科在全軍人才培養(yǎng)與科技創(chuàng)新的情報優(yōu)勢,還能夠為全軍機關(guān)決策、部隊訓(xùn)練提供前沿的情報支撐服務(wù)。