999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的地理環境時空數據隱含語義理解

2021-11-25 09:48:02張宏軍廖湘琳田江鵬
測繪學報 2021年10期
關鍵詞:語義詞匯文本

朱 杰,張宏軍,廖湘琳,田江鵬

1. 陸軍工程大學指揮控制工程學院,江蘇 南京 210002; 2. 73021部隊,浙江 杭州 315023; 3. 信息工程大學地理空間信息學院,河南 鄭州 450001

理解戰場環境,是指作戰人員對戰場空間的理解,由空間、空間知識的表達方式,以及運用推理生成新知識的能力而構成的認知思維,一般通過心象、紙圖或者計算機等工具將戰場環境可視化,從而建立與環境可交互的思維活動[1]。在理解過程中,無論是作戰人員本身對空間的理解,還是不同人員之間的相互溝通,地圖、文本是記錄和傳輸戰場環境信息的最基本的兩種模態,特別是作戰過程中產生大量的非結構化信息,如各類作戰文書。文本是其最主要的載體之一,越來越多地成為一種主要信息媒介的數據模態,是表達戰場環境信息的重要形式。然而,文本除了具有通用知識的內涵和特點之外,還承載了描述戰場的時間、空間、事件和資源等豐富信息,具有特定的地理時空特征。戰場文本信息不僅包含了作戰任務語義信息,還蘊含了豐富的地理空間語義信息,表現為同一任務區域的空間數據隱含語義會隨著時間的不同而發生變化,相似任務主題的位置數據隱含語義也會隨著空間的不同而發生變化。由此,地理環境時空數據的隱含語義信息既存在時間上的變化,也存在空間上的變化。

面對大量的戰場文本數據,以傳統的人工方式理解戰場環境信息已經不能滿足高效、準確的需求,如何利用人工智能的理論和方法,由機器對數據進行自動獲取、學習與解譯,從而輸出與人腦認知思維相符的計算結果,是當前戰場環境空間認知和理解在大數據環境下所面臨的挑戰。自然語言處理技術的發展為文本數據理解提供了新的思路和方法,也為戰場環境數據理解提供了新的工具。如何從大量的戰場文本數據中獲取地理環境知識,如何利用機器學習技術挖掘與事件主題相關的地理環境時空語義信息,如何對不同時空主題進行管理、檢索和推理,這一系列問題,都是機器理解戰場環境數據過程中所要解決的關鍵問題。其中,如何融合事件主題對地理環境時空主題進行抽取與分析,成為戰場環境信息理解的核心問題之一。通過提取帶有地理空間標識的文本主題來挖掘任務指定的實施作戰行動的區域空間信息及其對應的意圖,獲取作戰行動模式轉換、任務事件焦點時空演變及地理環境效能變化等知識,為行動方案推薦、戰情趨勢預判、威脅目標預警分析等軍事服務提供有力支撐。

本文立足現有研究基礎,通過分析戰場文本數據句法結構,提出一種融合任務事件主題的地理環境時空主題模型,建立地理時空因素與事件主題之間的語義相關性計算方法。通過對文本信息中蘊含的時空分布、地理環境要素特征及影響效能等規律進行分析,考慮事件主題偏好對時空數據隱含語義信息的影響,建立事件主題與時空語義特征的聯合分布模型,自動發現時間、空間區域與事件主題之間的關聯關系,生成地理時空隱含的語義主題,以提高定位應急事件時空信息的準確性,為有效識別異常區域的分布規律提供支持。

1 相關研究工作

時空語義信息是表示現實事物所代表的時空概念和含義及其相互之間的關系,是數據在時空域上的解釋和邏輯表示,對于各類事件信息的挖掘有著關鍵作用[2-3]。戰場環境時空數據描述了戰場環境的時間和空間屬性,是戰場環境的基本組成要素,從不同粒度記錄了不同層次的戰場環境各要素的活動信息。理解戰場環境時空數據語義對于深挖戰場環境各要素作戰效能、提高作戰計劃推演評估精度、提升態勢推理與威脅估計效率有著關鍵作用。例如,利用數學方法描述地理實體、地理現象及其相互之間的時空關系,形式化描述戰場環境對聯合作戰活動影響的基本規律[4];利用全球空間立體網格剖分并對時空信息進行編碼,簡化復雜的時空運算以提高時空屬性定量表達的精確性[5];利用模板匹配與貝葉斯網絡相結合的推理算法處理高維時空數據,建立有效推理模式以合理預估敵軍行為模式和作戰意圖[6]。總之,準確理解戰場環境時空語義信息對于戰場信息融合有著十分重要的意義,隨著戰場時空數據類型與體量持續增長及作戰應用深入需求,將會越來越多地受到不同作戰領域的關注。

目前,隨著以深度學習為代表的人工智能技術的發展,從方法上,戰場環境時空數據語義理解由傳統的基于規則的模式匹配向基于信息識別與分類的自主學習發展,并在無人平臺、知識圖譜、輔助決策等方面取得了一定的研究進展。國內,文獻[7]針對現有無人自主平臺在復雜環境上認知和理解不足,提出建立任務關聯環境模型形成持續自主學習模式,在不斷的數據交互中實現機器對環境的理解;文獻[8]通過構建基于深度認知神經網絡,從戰場情報中高效準確地發現有價值信息,獲取多源情報隱含的關聯分析,從而提取滿足需求的可理解并利用的時空知識;文獻[9—10]從語義層面統一多源異構的戰場環境數據資源,利用知識圖譜集成融合各類概念關系,提高時空知識整體認知水平;文獻[11]將深度學習方法應用于態勢理解,以用戶需求和作戰任務的綜合情境作為知識過濾約束條件,實現對相關語義知識的自動檢索,提高輔助決策的智能化程度[11]。國外,美軍從2007年提出“深綠計劃”開始,一直致力于計算機對戰場數據理解及智能化處理的研究,并在最新的《2017—2042年無人系統發展路線圖》中將語義理解和語義分析技術作為無人指揮信息系統關鍵技術,包括自然文本、圖像、語音等各種類型載體的自動整合及生成,利用深度學習方法從戰場獲取的各類數據中抽取隱藏的有價值特征,用于模式識別、特征分類、關系挖掘及事件預測,實現從不確定信息中理解數據、分析結果和推理關系[12-13]。

從戰場文本中提取相關地理環境時空主題,是地理環境時空數據語義理解的首要解決問題。盡管上述文獻從不同角度利用時空數據處理與分析方法,闡述時空語義理解的相關技術和應用,但是從時空主題角度研究戰場環境時空數據挖掘中的相關任務,特別是對其隱含語義信息挖掘的相關工作尚未完善。目前,主題模型作為文本挖掘的重要數學模型,已廣泛應用于遙感影像分類及檢索、地理信息分類與融合、位置軌跡數據挖掘及地理時空主題提取等方面[14-17],通過基于抽象文檔主題的統計模型研究了在不同主題分類下時空信息提取與時空事件發展規律并取得了一系列成果[18-21]。這也為地理環境時空主題挖掘提供了基礎模型。為了進一步研究任務事件與時空主題之間的相關性,挖掘影響事件主題特征的時空因素,獲取地理環境時空數據隱含語義信息,本文借鑒GIS領域研究者從融合地理位置及其相應的區域環境特征語義出發,按照不同時空語義變化條件,挖掘地理位置中的隱含語義信息。如,文獻[22]利用web日志提取公共主題來發現時空主題模式,分別通過給定位置生成的主題生命周期和主題快照的比較分析,發現主題模式的演變;文獻[23—24]從空間、時間和行為3個方面建立一個聯合概率模型,有效地應用于社交網絡生成的與地理信息相關的文本信息主題發現;文獻[25]考慮用戶位置的馬爾可夫性質,提出一種基于主題多樣性、地理多樣性的社交網絡文本數據的多樣性建模算法;文獻[26]結合移動位置數據,提出一種新的位置和文本相結合的聯合模型,能有效地找到熱點位置和感興趣的區域,解決地理分布與主題建模之間關系問題。

2 方 法

地理環境時空數據隱含語義與文本主題密切相關,并通過相關的主題特征詞匯進行表達。具體體現為:不同空間區域對其范圍內的任務事件主題影響程度是不同的,通常與地理環境的軍事效能相關,如不同地貌對機動任務的影響,反映在文本中由“越野機動”或者“道路機動”等相關功能性詞匯相組合進行描述,以表示山地或者平原區域;不同時間對其階段內的任務事件主題也會產生不同的影響程度,如一日內白天與夜晚對道路機動速度影響程度不同,一年內雨季與非雨季對道路機動速度影響程度也不同。

因而,為了有效判別不同時空區域對任務事件主題的影響程度,挖掘時空數據的隱含語義,形成時空數據語義理解過程,主要采取如下的解決方法:數據獲取、數據預處理和數據主題計算等。如圖1所示。下面重點闡述數據主題計算過程:①分析戰場文本的句法結構,通過信息抽取的方法抽取主題要素,建立基于LDA的事件主題分類及其對應的特征詞匯分布;②通過構建基于事件的地理環境時空主題模型,將事件主題與空間、時間特征詞匯建立聯合分布,提高時空數據隱含語義獲取的準確性;③基于支持向量機方法結合主題模型實現地理時空主題的實時分類,以滿足實時信息的主動發現需求。

2.1 基于句法分析的主題要素抽取

戰場文本數據是指戰場信息以文本形式進行描述和傳遞的各類數據,包括各類命令、指示、計劃、方案、請求、報告等。為了從這些非結構化信息中抽取出與地理環境信息相關的主題信息,首先對其進行句法分析,獲取主題要素的結構組成及其語義特征。由于戰場文本在通常情況下都是按照軍用文書的格式進行編輯,因而其數據的語義結構在一定程度上符合軍用文書的編寫規范,并具有以下幾個特征。

(1) 句法結構相對固定。戰場文本基本上以陳述句為主,且句式簡短,其中復合句的形式也以簡單謂語構成的并列復句為主,較少出現連詞構成的復雜句式,如連貫復句、遞進復句等。

(2) 文本內容層級易解。從內容對象上,分為對象的靜態狀態描述(如部隊部署位置、時間等信息)和動態行為描述(如部隊行動路線、行為規劃等信息);從內容詞義上,內容描述按照文字字面意思組合而成,有利于人機理解。

(3) 語義描述明確無歧義。為了確保不同信息系統對戰場文本的一致性理解,文本語義描述必須是明確清晰,避免出現歧義現象。

圖1 地理環境時空數據隱含語義理解過程Fig.1 Latent semantic understanding process of geographical environment spatio-temporal data

從上述特征可以看出,在語法結構上,戰場文本數據通過具有一定語法結構的句子來描述事件發生過程,即“主語+謂語+(賓語+狀語+…)”;在語義表達上,戰場文本數據語義結構由主體、行為關鍵詞、客體及相關屬性等主題語義要素組成。因此,可將其形式化描述為四元組模型,即:主題語義要素=〈主體,行為關鍵詞,客體,屬性〉。

其中,構成主題語義要素中的每一項元素都可以與句中的詞組相對應,形成特征詞組與主題要素相關聯的模式。具體表示為:主語對應事件發生的主體,一般由名詞、數量詞組合表示;謂語對應事件發生的行為,一般由動詞表示;賓語對應事件發生的客體,一般由名詞、數量詞組合表示;其他部分描述對應事件發生的相關屬性,如時間、位置等,一般由名詞、代詞、介詞等組合表示,文本詞組主要以實詞構成,較少出現虛詞。

采用正則表達式進一步將文本主題要素與詞組以字符串的形式相匹配,從而將文本語義轉換為詞義組合表達[27]。作為主題要素自動抽取的基本模式,以一個簡單句semPattern作為實例,使用正則表達式如下

semPattern=(^|)[(option_modifier|)subject_

noun|behkey_verb(|object_

noun)|attribute_phrase]

(+)(|$)

式中,subject_noun表示主體名詞;behkey_verb表示行為關鍵動詞;object_noun表示客體名詞;attribute_phrase表示屬性詞組;option_modifier表示修飾詞組;[]表示所必須組成要素;()表示可選項;“^”表示字符串序列開頭標識;“|”表示語義匹配邏輯;“+”表示字符串表達式可多次匹配;“$”表示字符串序列結尾標識。時空語義信息通常是以屬性詞組形式進行描述。由此可將attribute_phrase進一步分解為表示空間語義的where字符串和表示時態語義的when字符串,即

attribute_phrase=[at-where](|route-where)[|start-when](|end-when)

以某個文本片段為例:“2連于4月08日12時占領1號地域南側”,其相應的正則表達式分解如下

semPattern=〈subject_noun:2連|behkey_verb:占領|object_noun:1號地域|at-where:南側|start-when:4月08日12時|attribute_phrase:于〉

2.2 基于LDA的任務事件主題分類

戰場文本數據內涵豐富,但是語義主題比較明確。以作戰任務信息為例,任務事件內容包括行動目的、行動對象、行動類型、時空信息及其他屬性信息,每一條信息又可以按照層次和尺度進行分解,歸類至不同執行者,按照相應的主題形成具體的行動序列。任務事件主題分類與文本分類相似,將任務事件映射為一篇文檔,任務中的意圖或者目的作為一個主題,每個事件的主體和客體對象關聯的屬性及其行為活動作為單詞。一個目的任務相當于主體和客體對象完成行為過程的集合,包括任務執行對象、地理環境對象、行為作用等,在文檔中映射為構成上述事件主題要素特征的詞匯,如描述任務下達者、執行者、行為以及區域、興趣點、位置、作用關系、時間等相關主題特征詞匯。

潛在的狄利克雷分布(latent Dirichlet allocation,LDA)模型是一個建立“文本-主題-詞匯”3層貝葉斯模型,通過主題分布與詞分布的概念,能夠將文檔轉換到主題空間進行分析,根據主題進行語義區分,從而獲得文檔在隱主題空間的表示,也就是既能將詞匯聚類成主題,也能將文檔聚類成多個主題[28-29]。

因此,使用LDA模型能夠抽取構成主題要素的特征詞匯,并得到事件主題分布。具體方法是:①將戰場文本集合記作D(d1,d2,d3,…,dn),每一篇文檔d內容可視為由不同任務事件主題混合組成,每個文檔按一定的概率分布表達多個主題,設目前按照任務主題區分獲取已知主題數為K;②在前述句法結構分析基礎上,通過分詞、過濾、關鍵詞提取等步驟,生成描述主題要素的關鍵詞集W(w1,w2,w3,…,wn),每個主題按一定的概率分布選擇不同的詞匯進行表達,也就是由若干描述事件主題要素的詞匯構成一個概率分布;③通過Gibbs采樣,由每個詞匯在不同的文檔中對應不同的主題概率得到相應主題分布,生成主題集Z(z1,z2,z3,…,zn),同時輸出基于主題集Z下的詞匯分布Wd。由概率圖來表示LDA模型實現過程,如圖2所示。

圖2中,空心圓部分表示潛在概率,wd,n表示文檔d中第n個詞匯概率,zd,n表示文檔d中第n個詞匯所對應的主題概率,θd表示文檔d中主題分布概率,ψk表示組成主題k的詞匯分布概率,α表示文檔中主題分布的超參數,β表示主題中單詞分布的超參數;矩形框部分表示重復的過程,M表示文檔中詞匯個數,Q表示文檔個數,K表示文檔主題個數,分別用于每個矩形框內容重復的次數。由此,通過主題分布的采樣獲取任務事件主題z,通過基于主題z下詞匯的分布概率獲取詞匯w,并不斷地重復上述過程直至文檔主題對應的所有詞匯生成完畢。

圖2 基于LDA模型的事件主題分布過程Fig.2 Event topic distribution process based on LDA model

利用OPTICS聚類方法[30],可對每個任務事件每個主題概率分布進行聚類分析,獲得相對集中的任務事件主題分類結果,與作戰任務類型相結合,將描述相似任務類型內容的詞匯合并為一個大主題,形成具有層次結構的事件主題分類。表1為部分相關主題的特征詞匯分布。

2.3 基于事件主題的地理環境時空主題模型

按照空間相關性原理,地物之間的相關性與距離有關,距離越近,地物間相關性越大;反之,地物間相關性越小。在文本中由自然語言描述空間信息,利用詞匯之間的語義相似性來反映空間對象之間的相關性,由此通過聚類方法發現地理時空主題,即如果兩個詞匯語義對事件主題的描述很相似,那么它們極有可能屬于同一空間區域;如果兩個詞匯語義描述同一空間區域,那么它們就可被聚類為同一空間主題。

為了能夠有效獲取時空主題,每個文檔經主題要素抽取后,形成由實體詞向量組與描述空間、時間、事件等主題特征的屬性詞向量組組成,即d={wd,rd,td,zd},其中wd表示文檔經過分詞與實體抽取后形成的實體詞向量組;rd表示文檔中描述事件相關的空間特征屬性的詞向量,如事件發生位置的經緯度;td表示文檔中描述事件相關的時間特征屬性的詞向量,如具體日期與時間點;zd表示文檔經主題分類后描述事件主題特征屬性的詞向量。

表1 部分相關主題分類及其特征詞匯分布

利用LDA主題模型對上述詞向量建立聯合分布模型,通過對事件主題模型的改進,構建地理時空主題模型。其思路是:①通過LDA模型將高維的“事件文本—時空特征”數據矩陣降維成“事件文本—主題—時空特征”低維數據矩陣,利用“文檔—主題—詞匯”3層貝葉斯模型計算“事件文本—主題”、“主題—時空特征”的分布并分別得到事件主題、空間主題及時間主題的多項分布參數;②由主題分布參數計算每個事件文本對應的時空主題概率方差并對其進行排序,獲得相應的時空主題分布;③按照一定的閾值過濾不符合實際的主題,并對滿足閾值條件的主題記錄其對應選擇的特征詞匯分布。由概率圖模型表示其實現過程如圖3所示。具體實現過程如下:

(1) 由設定超參數α0的Dirichlet分布,采樣得到文檔中事件主題z分布參數θ0。

圖3 時空主題模型實現過程Fig.3 Implementation process ofspatiotemporal topic model

(2) 由設定超參數β0的Dirichlet分布,采樣得到文檔中每個事件主題z=1,2,…,k對應的實體詞的條件概率分布φz。

(3) 從空間域上,按照任務事件尺度,在全局條件下劃分任務執行空間區域集R,R={r1,r2,…,rn},每個區域r內包含地理環境要素空間屬性及其效能特征:①在位置特征上,采用基于經緯度l(longitude,latitude)由位置均值向量μ和協方差矩陣ε構成的高斯分布,由此形成具有軍事效能的局部地理主題分布,并對各自任務區域內的事件主題產生影響;②由設定超參數η0的Dirichlet分布,采樣得到文檔中空間區域r的主題分布參數ηr;③由設定超參數γ0的Dirichlet分布,采樣得到文檔中每個事件主題對應的區域R地理實體詞匯的條件概率分布λgeo。

(4) 從時間域上,文本中往往描述的是一個時間點,如以“年-月-日時:分:秒”格式描述事件相關的時間變量。為了避免這種離散時間造成跨度大小不一的問題,在時間特征上采用Beta分布,從Beta(δ0)中采樣得到每個事件主題z=1,2,…,k對應的時間分布參數φz,以此描述不同事件主題時間連續變化的強度[31]。

(5) 從主題域上,一個文檔的主題由背景主題分布和區域主題分布共同影響,主題表達通過相應的詞向量的語義進行描述,反映在事件文本上對應事件主題分布和區域地理主題分布。對于每個事件主題z=1,2,…,k,由θ0、ηr、λgeo構建主題多項式分布,從中抽取形成任務事件主題分布Zd和區域地理主題分布Zgeo。

(6) 依據事件主題分布Zd對應實體詞的條件概率分布φz,與區域地理主題分布Zgeo對應地理實體詞的條件概率分布λgeo,分別從其多項式分布中抽取相應的詞匯w,并依據Beta(δ0)對應的時間分布參數φz抽取相應的時間詞匯t。

任務事件主題Zd所包含的地理時空詞匯W在語義上與區域地理主題分布Zgeo相關聯,而區域地理主題分布Zgeo又從語義上反映了時空主題類型的區域分布,因此,這里依據任務事件主題Zd、區域地理主題分布Zgeo建立聯合分布概率P。引入上述時空主題模型中各元素求解相應主題中潛在變量的詞匯分布W,使用歐拉公式可得如下依賴關系

(1)

式中,事件主題分布參數θ、區域空間主題分布參數η和實體詞匯主題分布參數φ計算公式如下[31],相應的主題類型條件概率分布可基于主題分布參數進行求解

(2)

(3)

(4)

對于每個文檔,利用Gibbs采樣估計主題模型參數,生成空間區域、位置、事件和詞匯的主題分布并分別滿足以下相應的條件概率分布。

(1) 生成潛在的空間區域分布R,使之滿足

rd~p(rd|η0+ηz)

(5)

式中,η0滿足空間全局分布;ηz滿足任務事件主題空間區域分布,表示潛在的空間區域分布依賴于空間全局分布和任務事件主題區域分布。

(2) 生成位置分布L,使之滿足

ld~N(μr,εr)

(6)

式中,μ為位置均值向量;ε為協方差矩陣,表示每個位置依賴于潛在空間區域并服從高斯分布。

(3) 生成主題分布Z,使之滿足

zd~p(zd|θ0+θz+θgeo)

(7)

式中,θ0滿足主題全局分布;θz滿足事件主題分布;θgeo滿足區域地理主題分布,表示根據空間區域分布和位置分布,潛在主題分布依賴于事件主題和區域地理主題。

(4) 生成詞匯主題分布W,使之滿足

wd~p(wd|φ0+φgeo)

(8)

式中,φ0為全局事件主題參數;φgeo為區域地理主題參數,表示特征詞分布依賴于主題分布。

改進后的基于LDA模型計算時空主題分布算法過程如下所示。

算法1:基于LDA模型計算時空主題分布算法過程

輸入:文檔向量集合g0gggggg,主題數目k,超參數α0、β0、η0、γ0、δ0

輸出:多項分布參數θ、φ、η,主題類型分布{zd}以及對應的詞分布{wd}

(1) 初始化參數。

(2) 主題采樣:

for all文檔m∈[1,M] do

for all單詞n∈[1,Nm] in 文檔m do

采樣Zm,n,使得Zm,n=k~multi(1/K)

更新相應m,n計數

(3) Gibbs采樣:

for all文檔m∈[1,M] do

for all單詞n∈[1,Nm] in 文檔m do

更新相應m,n計數

(4) 檢查收斂性,讀取主題分布參數:

if 收斂且達到閾值then

歸一化參數;

利用式(2)—式(4)讀取相應的主題分布參數

(5) 基于上述參數計算主題分布及詞分布,分別滿足式(5)—式(8)。

2.4 基于支持向量機的實時主題分類

由于軍事語料標注樣本的局限,為了能夠利用文本特征學習實現文本的主題檢測,采用監督學習方式中的支持向量機(support vector machine,SVM)方法,在基于訓練樣本的學習特征基礎上,建立機器學習模型,解決小樣本情況下的機器學習問題,從而當新的任務事件文本輸入時,結合SVM通過主題模型判斷文本中對應的地理時空主題類別,實現時空主題實時分類。

(1) 對已有的樣本數據按照主題分布的概率進行排序,找出文本集合中隱含的地理時空主題,將其作為已發現的主題。

(2) 利用SVM算法構建時空主題分類模型,基于已發現的地理時空主題及其特征詞匯分布作為文檔樣本集,將構建的聯合主題分布特征向量作為輸入。如下所示

(9)

式中,m為樣本個數;x(i)、y(i)分別為樣本i輸入、輸出值;ωTx(i)+b=0為超平面;ξi為第i個樣本的松弛系數;C為懲罰系數。

3 試驗與應用分析

3.1 試驗數據

本文以某戰術訓練場為研究區域,試驗數據集選用近年戰術演習導調系統采集獲得的文本數據,包含690個計劃、2250條命令、695條指示、1035條報告等共4670篇文檔,如表2所示。位置數據采用的是該區域1∶5萬系列比例尺矢量地圖數據,各類文本信息均包含位置、時間及相應事件主題信息。

表2 文本數據源及其分類

對上述戰場文本數據內容按要素進行標注形成訓練樣本語料庫,見表3。

3.2 試驗設計及精度評估

本試驗利用上述已有的文檔語料庫進行模型主題分類驗證。將文檔樣本集隨機分組,其中80%作為訓練集,20%作為測試集,構建主題模型輸入的文檔集D。采用perplexity[32]指標計算戰場文本的時空主題數K。首先,設定K∈(4,120),利用80%的訓練集計算此時的時空主題分布及其perplexity值域;其次,在訓練集計算的時空主題分布基礎上,利用20%的測試集計算此時的時空主題分布及其perplexity值域;最后,基于perplexity分布曲線確定主題數K,同時通過交叉驗證,得到模型的準確率。

表3 部分訓練樣本語料片段示例

如圖4所示,試驗中perplexity指標分布曲線按照主題數K的增加而不斷下降,且下降趨勢逐漸減小。當K=4時,perplexity值最高,接近750;當K在(4,40)區間時,perplexity值隨K值增加而迅速下降;當K>40時,perplexity值隨K值增加趨于穩定。由此,當K=40時作為主題數臨界值,文本主題的可信度并未隨K值增加而明顯提高,因而,選擇主題數為40。

圖4 不同主題數量下困惑度比較Fig.4 Comparison of perplexity values with different topics

此時計算文本的時空主題分布概率,表4所示為部分主題類型及其所對應空間對象的分布概率。同一主題下分布概率較高的空間對象突出了與事件主題緊密聯系的相關特征表達,從影響任務事件的效能特征上反映了時空主題類型。如主題6中“公路”“街區”“車站”“村莊”等空間實體類型,反映了道路機動相關時空主題;主題17中“高地”“樹林”“密灌”“沖溝”“沼澤地”等空間實體類型,反映了越野機動相關時空主題。

表4 不同時空主題類型對應的部分空間實體對象分布

根據上述方法獲取樣本數據的分類精度,如表5所示。在3736個訓練樣本中,3347個任務事件被提取主題分布,其中2881個樣本被正確提取時空主題,分類精確率為86.1%;在934個測試樣本中,819個任務事件被提取主題分布,其中702個樣本被正確提取時空主題,分類精確率為85.7%。由此,總體上說明該模型適合對戰場文本數據從任務事件主題中提取相關的時空主題分類。

3.3 應用分析

為了驗證上述方法在實際應用中的可行性與價值,將基于任務事件的地理環境時空主題模型對戰場文本數據進行主題信息抽取和語義相關性分析,應用于時空主題趨勢及不同主題下時空分布特征分析,以驗證隱含語義理解方法的可行性,從而為數據挖掘自動化提供支撐。

表5 時空主題分類精度

3.3.1 時空主題趨勢分析

在上述樣本的基礎上對任務事件及地理時空主題信息進行抽取。選取某一個時間階段任務過程所包含的文本數據來計算不同主題所占的比例,隨著時間變化相應的主題比例發生規律性變化,如圖5所示。線狀表示事件主題,點狀表示地理主題。從主題相關性角度,分析任務事件主題與時空主題之間存在的語義關聯性,發現地理環境對任務事件所具有的軍事效能;從主題發展趨勢角度,分析不同主題在時間軸上的分布,發現事件主題的發展過程規律。

圖5 不同主題隨時間變化所占比例發生變化Fig.5 Trend of proportion under different topics over time

(1) 主題相關性分析。 由圖5可以看出,每個任務事件主題關聯著若干個時空主題,每個時空主題又關聯著若干個空間實體對象。利用統一資源描述框架RDF來描述兩者的語義相關性,見表6。采用“主語—謂語—賓語”結構描述“主體—語義關系—客體”,能夠清楚地陳述主題數據之間的對應關系,從軍事效能上進一步表達時空主題隱含語義信息。

表6 部分事件主題與地理主題的語義關系

以任務事件主題“道路機動”為例,其關聯較密切的地理主題有“接近路”“地面障礙”“觀察與射界”,其中“接近路”與任務事件的相關度最大,空間實體對象“道路”相比“植被”“居民地”等對地理主題“接近路”影響要大,這與地理環境實體對任務影響效能結果是一致的。因此,一個任務事件主題隨著事件時間發展,事件發生區域地理主題的變化能夠反映事件發展不同階段所關注的時空對象。通過分析時空對象的主題相關性,能夠進一步從語義上解析時空數據里面隱含的主題知識。

(2) 主題發展趨勢分析。一個任務過程隨著事件時間發展可以分為若干個任務事件主題。如圖5中在4月21日05時00分至17時00分,共包括“隱蔽集結”“道路機動”“阻擊防御”等3個任務事件主題。分別統計每個主題在此期間所對應的比例,發現9時之前以“隱蔽集結”主題為主,任務關注重點是如何利用從空中和地面免受觀察的地形要素,如植被與隱蔽配置,完成集結任務;9時至13時以“道路機動”主題為主,任務關注重點是根據通路分析計算通道容量,分析利于武器裝備通過的機動走廊相關地形要素,完成機動任務;13時之后以“阻擊防御”主題為主,任務關注重點是利用對特定武器部署位置有影響的、且具有防御能力的地形要素,構建直瞄和間瞄武器射擊區域,避免受敵火力威脅區域地理環境,達成阻擊任務。結合時間信息,對應時空主題分布分別從“隱藏配置”主題,“接近路”主題發展為“觀察與射界”主題,將整個任務過程分為3個階段,分別對應任務事件的初期、發展期和結束期。因此,一個任務過程中包含不同的事件主題,能夠反映不同階段任務關注的重點,由時空主題關聯反映出區域地理環境變化特征,有助于進一步從不同角度預測任務發展進程。

以上對時空主題趨勢分析可以看出,隨著戰場位置與任務事件進展發生變化,地理環境時空主題也隨之發生改變。通過分析這些變化可以發現任務事件主題與時空主題之間的關系及發展趨勢,有助于發現事件的發展規律并研判地理環境對任務執行的影響效能,利用不同的時空主題作出趨利避害的對策。

3.3.2 不同主題下時空分布特征

由于戰場文本數據中包含了豐富的位置信息,將每個任務事件主題與位置信息相關聯,形成帶有主題屬性的點狀地理實體,對其在一定空間區域內進行聚類分析,產生不同主題下的時空分布規律,從而為新事件的位置預測提供基礎。

選取上述任務過程所包含最主要的3個事件主題“集結”“機動”“防御”進行空間聚類分析,分別包含了115條、370條、406條位置信息文本。采用OPTICS聚類方法對上述主題關聯的位置信息進行分析,得到的聚類核心(十字表示)如圖6所示。

圖6 相關主題的空間聚類Fig.6 Spatial clustering of related topics

“集結”主題空間分布得到的聚類核心主要分布在區域A,與其相對應地理主題可以發現,該區域以“植被與隱藏配置”時空主題分布為主,與“植被”“居民地”等空間實體關聯較強,結合任務過程事件時間分布,與“早期”階段任務主體行為為達成隱蔽集結意圖是一致的;“機動”主題空間分布得到的聚類核心主要分布在區域B,與其相對應地理主題可以發現,該區域以“接近路”時空主題分布為主,與“道路”“居民地”等空間實體關聯較強,結合任務過程事件時間分布,與“發展期”階段任務主體行為為達成沿道路機動意圖是一致的;“防御”主題空間分布得到的聚類核心主要分布在區域C,與其相對應地理主題可以發現,該區域以“觀察與射界配置”時空主題分布為主,與“高地”“植被”等空間實體關聯較強,結合任務過程事件時間分布,與“結束期”階段任務主體行為為達成阻擊防御意圖是一致的。

從上述對不同主題下的空間數據聚類分析,能夠發現時空主題的空間分布特征受到事件主題的影響,并對事件的發展產生新的作用。當新事件發生的時候,通過主題分類結合空間分析,預測事件可能影響的位置區域,從而有效作出趨利避害的對策。

4 結 語

戰場文本信息不僅直接反映戰場行為過程,還蘊含著豐富的區域地理時空語義信息,與地理環境變化密切相關,并揭示了未來時空過程發展趨勢。本文以與任務事件相關的戰場文本數據為信息源,研究基于句法分析的主題要素抽取及事件主題分類方法,并通過主題模型分析地理時空主題與事件主題之間的隱含語義分布形態,揭示區域地理時空主題與任務事件主題之間存在的相關性特征及在時序上的發展趨勢,反映了不同事件主題影響下的時空分布規律。由于本文選擇的數據源較為單一,盡管一定程度上能夠反映客觀趨勢,但是文本數據樣本數量上的不足使得主題隱含語義研究存在一定偏差。未來將結合不同類型戰場文本數據,進一步深入挖掘多源文本數據中的語義信息,提高主題分類精度;同時,需要考慮不同尺度時空區域與不同等級任務對結果可能造成的影響,此外,還需考慮算法運行的效率對分類結果與精度的影響。

猜你喜歡
語義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产免费自拍视频| a毛片在线播放| 99人妻碰碰碰久久久久禁片 | 91无码网站| 亚洲av无码片一区二区三区| 青青青国产精品国产精品美女| 亚洲第一精品福利| 久久大香香蕉国产免费网站| 日韩欧美国产成人| 麻豆国产在线观看一区二区 | 一级毛片免费的| 丁香婷婷久久| 日本黄网在线观看| 久久国产拍爱| 天堂av综合网| 国产又色又爽又黄| 精品1区2区3区| 伊人久综合| 亚洲欧美一区二区三区麻豆| 欧美日本二区| 国产网友愉拍精品视频| 精品一区二区三区自慰喷水| 91免费国产高清观看| 亚洲高清在线播放| 不卡午夜视频| 亚洲人成日本在线观看| 欧美亚洲第一页| 天天综合网站| 乱色熟女综合一区二区| 人人爱天天做夜夜爽| 亚洲欧美日韩综合二区三区| 亚洲天堂成人在线观看| 久久精品国产91久久综合麻豆自制| 精品国产Ⅴ无码大片在线观看81| 色综合久久久久8天国| 狂欢视频在线观看不卡| 国产精品无码一二三视频| 久爱午夜精品免费视频| 看看一级毛片| 国产丝袜无码精品| 国产成人亚洲综合A∨在线播放| 日韩精品免费一线在线观看| 欧美一级黄片一区2区| 国产玖玖玖精品视频| 欧美伊人色综合久久天天 | 婷婷在线网站| 免费在线国产一区二区三区精品| 99久久国产综合精品女同| 亚洲免费黄色网| 精品欧美一区二区三区久久久| 国产精品护士| 欧美国产在线看| 在线一级毛片| 亚洲欧美日本国产综合在线| 亚洲精品国产成人7777| 亚洲天堂视频在线观看免费| 啪啪国产视频| 欧美人与性动交a欧美精品| 国产丝袜一区二区三区视频免下载 | 国产三级国产精品国产普男人| 在线免费看片a| 国产va在线观看免费| 久久综合九色综合97网| 国产精品尹人在线观看| 久久精品娱乐亚洲领先| 欧美精品H在线播放| 制服丝袜 91视频| 免费人成在线观看成人片| 激情综合婷婷丁香五月尤物| 欧美色伊人| 国产无人区一区二区三区| 麻豆精品在线播放| 婷婷六月综合网| 色综合中文综合网| 欧美一级夜夜爽www| 亚洲三级a| 99精品视频在线观看免费播放| 久久亚洲综合伊人| 蜜桃视频一区| 爱爱影院18禁免费| 91在线激情在线观看| 无码日韩视频|