999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Doc2Vec和深度神經網絡的戰場態勢智能推送研究

2020-01-13 08:18:10黃志良王適之
智能計算機與應用 2020年1期
關鍵詞:深度特征文本

申 遠, 黃志良, 胡 彪, 王適之

(空軍預警學院, 武漢 430019)

0 引 言

隨著戰場信息搜集手段、處理分析方法的快速發展,使得作戰用戶能夠獲得大量的不同類型、不同粒度、不同時空的戰場態勢資源,但是也會使得指揮員需要耗費很大的時間精力才能從海量的態勢中發掘有效信息資源,會出現“態勢泛濫”和“態勢缺乏”的矛盾,即一方面戰場態勢呈指數級增長,另一方面作戰用戶可以利用到的合適態勢資源卻很少[1]。目前解決該矛盾問題最直接有效的方法就是智能推送,態勢智能推送是以推薦算法為核心,利用知識發現、數據挖掘、機器學習、人工智能等多種方法為用戶提供合適的態勢資源,態勢智能推送能夠根據用戶個性化需求,主動為用戶提供合適的態勢,并且當用戶需求變化時,態勢智能推送也能自適應變化,及時準確地為用戶提供個性化、智能化、動態化的態勢資源。

智能推送的核心是推薦算法,常見的推薦算法有協同過濾推薦算法[2]、基于內容的推薦算法[3]和組合推薦算法[4]。目前在軍用領域,推薦算法理論研究也有一定的成果。胡旭等人[5]針對協同過濾推薦算法的數據稀疏性、擴展性差問題,提出了初始聚類中心優化的K-均值項目聚類推薦算法;余苗等人[6]利用層次向量空間構建用戶興趣空間,根據情報用戶少量的定制信息和樸素貝葉斯分類算法建立用戶興趣模型,提出了一種基于樸素貝葉斯分類算法的雷達情報按需分發技術;傅暢等人[7]設計并實現了一個包括采集、處理、存儲與檢索的Web軍事情報挖掘模型,提出了一種面向軍事情報應用的文本聚類方法;袁仁進[8]圍繞軍事新聞推薦模型構建與更新、融合地理情境的軍事新聞推薦模型構建等方面進行了研究,提出了一種基于向量空間模型和Bisecting K-means聚類的軍事新聞推薦方法,針對顧及時間上下文的用戶興趣模型更新問題,構造了一種基于時間的遺忘函數,最后針對地理推薦問題,提出了基于地理上下文的軍事新聞推薦算法,并構建了軍事新聞個性化推薦原型系統。

上述研究主要是利用用戶和態勢兩者之間的歷史交互關系進行學習建模,但該方法存在的問題是用以實現算法模型訓練的用戶歷史行為記錄數據是比較稀疏的,并且很難解釋用戶與這類態勢產生交互行為(如定制、瀏覽、評價等)的原因,比如用戶定制這類態勢而不定制另外一類態勢,很難用用戶—態勢需求度矩陣來解釋。如果能夠對用戶產生交互行為的相對應態勢內容進行分析,那么必將使得用戶建模更為準確,并具有很強的解釋性,能夠描述用戶歷史行為記錄背后隱藏著抽象的用戶—態勢需求關系。因此本文在神經網絡推薦算法的基礎上,利用自然語言學習中的Doc2Vec算法來提取態勢內容特征信息,并訓練成態勢內容特征向量,再與用戶—態勢需求度矩陣中的用戶—態勢交互行為向量進行融合,這就使得算法模型能夠學習到態勢更多的特征信息,在一定程度上緩解數據稀疏性問題,從而提升推薦效果。

1 基于Doc2Vec的詞嵌入模型

在對態勢進行建模時,一般采用向量空間模型來表示。以預警情報為例,預警情報則可以表示為n維的特征向量{(t1,ω1),(t2,ω2),...(ti,ωi),(tn,ωn)},ti、ωi分別表示這些特征的關鍵詞和相應的權重。這種表示方法的核心是對關鍵詞進行提取,如文獻[9]將預警情報特征提取為位置、高度、航向、速度、屬性、機型等特征,這樣一來該特征選取方法明顯帶有主觀性,無法將情報更多的特征信息挖掘出來,會造成情報特征信息的流失,使得用戶需求建模就會變得不準確。

在實際運用過程中,戰場態勢種類是多種多樣的,如視頻類、音頻類、圖像類、文本類等。其中,文本類態勢特征明顯,特征提取相對容易,而諸如視頻類、音頻類、圖像類這些態勢特征提取較為困難,因此需要對這些非結構化數據進行結構化處理,形成文本類態勢。在得到同類型的態勢文本數據后,可以利用相應的方法對態勢內容進行表示。而文本內容一般采用詞袋模型將文本轉化成低維空間的稠密向量,這樣的表示方法會使得文本所有重要的特征被提取出來,而不是僅僅取幾個主要的文本特征[10]。以“敵方/導彈/距離/我方/20km”和“敵方/飛機/在/我方/東北/方向”為例,基于以上文本內容則可建立詞典為:{“敵方”:1,“導彈”:2,“飛機”:3,“距離”:4,“在”:5,“我方”:6,“20km”:7,“東北”:8,“方向”:9}。假設每一個詞都有唯一的索引,根據各詞的出現順序及頻率,則上述文本用詞袋模型中9維的詞向量分別表示成[1,1,0,1,0,1,1,0,0]、[1,0,1,0,1,1,0,1,1]。這種表示方式好處在于將文本內容的所有關鍵詞都提取出來,態勢信息主要信息被提取出來。缺點在于該方法忽略了各詞語的上下文順序,且當存在大量且特征繁多的戰場態勢時,態勢特征的表示就會變得非常稀疏,即用詞袋模型表征所有的態勢特征時,對于單個態勢而言,所擁有的特征相對有限,則詞袋模型表示的大部分特征對單個態勢是沒有意義的。因此用向量空間模型來表示態勢將具有很大的局限性。

基于Doc2Vec的詞嵌入模型是Le和Mikolov提出的一種深度文本學習算法。Doc2Vec算法是從大型原始數據中以完全無監督的方式進行訓練,而無需任何針對于特定任務的標記數據[11]。該方法的優點在于應用場景廣闊,可利用神經網絡將任何長度的文本生成詞向量嵌入到算法模型。Doc2Vec方法的基本思想是通過神經網絡學習訓練,將文本中每一個詞表示成低維稠密向量形式,最終的目標是生成可表示的詞向量。根據文本領域的不同,該向量的維度會有所不同,通常的做法是取值50或100,針對特定領域,向量維數固定的好處在于不會產生高維向量造成“維數災難”問題。其中,向量的每一個維度包含著文本的某一種潛在特征,每個維度的取值范圍為0~1的實數。對于一個文本而言,在經過預處理后,文本主要內容特征很容易人工提取,關鍵問題戰場態勢是海量的,不可能對每個文本都采用這樣的方式,因此要根據文本內容的上下文順序,利用Doc2Vec訓練模型訓練語料庫來預測下一個詞語,根據預測結果可以為每一個文本生成詞向量,然后, Doc2Vec方法具有2種模型。一種是分布式記憶模型(Distributed Memory,DM),另外一種是分布式詞袋模型(Distributed Bag of Words, DBOW)。2種方法的訓練方式相同,都采用神經網絡為基礎進行訓練。不同之處在于前者是設定一定閾值后,利用當前詞語去預測閾值范圍內的詞語,從而形成詞向量,而后者是根據詞語之間的上下文關系來預測下一個詞語,從而形成詞向量。對于態勢文本而言,文本中各類詞語往往具有很大的關聯性,采用分布式詞袋模型來對文本建模更為準確,分布式詞袋模型結構如圖1所示。

圖1 分布式詞袋模型結構

2 深度神經網絡推薦算法

深度神經網絡算法因其魯棒性好、自適應能力強、處理非線性關系能力優異、并行計算速度快等優點而廣泛應用于圖像處理、模式識別、經濟預測、業務決策等領域。文獻[13]提出將深度學習方法—多層感知機應用于協同過濾推薦算法,該深度神經網絡推薦算法(Deep Neural Network,DNN)通過建立多層前饋神經網絡模型來學習用戶—態勢交互關系,使得算法模型更具備非線性建模能力。

深度神經網絡推薦算法是利用需求度的已知項來預測需求度未知項。深度神經網絡推薦算法通過建立利用用戶—態勢交互函數f∈RX×Y來表示用戶歷史反饋行為數據,R為用戶—態勢需求度矩陣,X和Y分別表示用戶和態勢的數目,定義如下:

(1)

(2)

(3)

和矩陣分解推薦算法一樣,在得到預測需求度后,可建立目標函數進行參數優化來找到最合適的參數P、Q和OT。

綜上所述,研發得到深度神經網絡推薦算法的流程步驟分述如下:

Step1輸入用戶—態勢需求度矩陣;

Step2對P、Q和OT等模型參數進行初始化;

Step3通過相關處理,將用戶和態勢特征向量輸入到深度神經網絡來預測需求度;

Step4利用隨機梯度下降法對模型進行訓練,直到模型收斂;

Step6對各態勢的預測需求度進行排序,將排序高的態勢推送給用戶。

3 基于Doc2Vec和深度神經網絡的推薦算法

研究中利用Doc2Vec方法將態勢的文本信息融入到深度神經網絡模型后,文本中的內容信息被建模成詞向量,與深度神經網絡中的用戶的潛在特征向量和態勢潛在特征向量進行拼接融合,通過在嵌入層的特征疊加,則算法模型可以學習用戶—態勢建立關聯關系隱含著的抽象特征。基于Doc2Vec和深度神經網絡推薦算法結構如圖2所示。

該模型主要分為輸入層、嵌入層、隱藏層和輸出層。其中,輸入層是輸入已經分布式處理后的用戶特征向量、態勢特征向量和態勢內容特征向量;嵌入層用于將用戶序列、態勢序列以及態勢內容序列轉換成表征各自特征的低維稀疏向量,對于態勢內容特征向量,文本中每一個詞語在嵌入層表示為多維向量Di={d1,d2,...,di,...,dn},這樣的表示方法使得文本中更多的特征被提取出來;在隱藏層,主要是對用戶特征向量、態勢特征向量以及態勢內容特征向量進行連接得到一個用戶—態勢—態勢內容特征向量,用于深度神經網絡的多層感知機的輸入,其中神經網絡的結構采用是倒塔式結構,即下一層的神經元的數目為上一層的一半,此時可以利用多層感知機對用戶—態勢—態勢內容特征向量進行特征學習并作為輸出層的輸入;輸出層主要是根據學習到的用戶—態勢—態勢內容特征,可對用戶—態勢—態勢內容特征向量進行需求度預測,根據預測值與實際值的誤差情況進行自適應調整,如果輸出結果與實際結果相差太大,則不斷調整各個參數,直到預測值與實際值的誤差值小到一定程度后,即神經網絡訓練達到最優值,這時就不再調整參數,每次這樣的深度神經網絡學習成功的結果都會被神經網絡中的神經元記憶儲存,當作戰用戶提出態勢需求時,深度神經網絡都可以根據學習的結果向該用戶主動推送合適的態勢資源。

圖2 基于Doc2Vec和深度神經網絡推薦算法模型

Fig. 2 Recommendation algorithm model based on Doc2Vec and Deep Neural Network

(4)

因為在深度神經網絡算法中,態勢內容向量也是在進行預測,因此也會存在預測上的誤差(預測值與真實值),為防止訓練過擬合,添加權重正則化項λD‖G‖2,則此時基于態勢內容向量預測的目標函數為:

(5)

對于深度神經網絡部分,定義f+表示用戶和態勢有交互行為,f-表示用戶和態勢無交互行為,將輸出層輸出值范圍限定為[0,1],輸出層激活函數保持不變,則定義似然函數為:

(6)

對式(6)取負對數,f(λDNN)表示深度神經網絡的正則化項,用于防止模型過擬合,則此時深度神經網絡算法需要進行優化的目標函數為:

(7)

根據式(5)~式(7)可知基于Doc2Vec和深度神經網絡的推薦算法的目標函數為:

FDNN+Doc2Vec=FD+FDNN=

(8)

在得到目標函數后,利用隨機梯度下降法[14]進行學習訓練,根據訓練結果,將一組預測需求度高的相應態勢推送給用戶。

綜上所述,則可以得到基于Doc2Vec和深度神經網絡的推薦算法的算法步驟詳述如下:

Step1輸入用戶—態勢需求度矩陣;

Step2對態勢原始數據進行預處理,包括數據清洗,預訓練等;

Step3利用Doc2Vec方法訓練詞向量,并將文本內容特征耦合到用戶—態勢潛在特征中去;

Step4對推薦模型參數初始化;

Step5利用隨機梯度下降法對模型進行訓練,直到模型收斂;

Step7對各態勢的預測需求度進行排序,將排序高的態勢推送給用戶。

4 實驗結果及分析

本文實驗數據采用雷達航跡仿真得到各類情報750 000條,其中用戶定制的情報為1 500條,將數據劃分為訓練集和測試集。將各類情報數據轉化成文本類型情報后,首先要對文本進行清洗,包括剔除文本中無用的標點符號信息;其次需要對文本進行分詞及同義詞合并,在分詞的結果中剔除對語義表達沒有影響的停用詞;最后訓練詞向量,實現更加精確的詞向量表示。

為評估算法性能,需要設置相應的評價指標來衡量算法優劣。本文采用均方根誤差、準確率、召回率和F1這四個指標,各指標詳細解析參見文獻[15],此處不再贅述。實驗編程語言用Python3.5,采用的機器學習庫包括Numpy、Pandas、Scikit-Learn、Gensim、Jieba和CPU版本的TensorFlow。

在參數設置上,最大迭代次數為40次、批處理參數為1 000、隱因子個數為8、正則化參數為λD=λDNN=0.05、學習速率為0.001、網絡層數分布為[64,32,16,8,1]。本文算法性能受迭代次數(epoch)、隱因子個數(factor)、正則化參數(regulation)、學習率(learningrate)、神經網絡層數(layer)、推薦數目(k)等參數的影響。其它參數條件不變,來比較分析單一參數對算法性能的影響。對比實驗的研究分析內容具體如下。

(1)對比實驗1。其它參數不變,不同迭代次數條件下,對比本文算法(DNN+Doc2Vec)與深度神經網絡推薦算法(DNN)、矩陣分解推薦算法[16](MF)的均方根誤差。實驗結果如圖3所示。

圖3 3種算法均方根誤差比較

由圖3可知,分析得到的研究結論可闡釋表述如下:

① 本文算法(DNN+Doc2Vec)均方根誤差隨迭代次數增加而減少,并且要小于深度神經網絡推薦算法和矩陣分解推薦算法,本文算法在深度神經網絡推薦算法的基礎上,利用Doc2Vec方法學習文本內容特征,能夠提升模型精度;

② DNN+Doc2Vec算法均方根誤差隨迭代次數增加而減少,但減小速率變慢,這是因為此時DNN+Doc2Vec算法訓練正逐漸逼近最優解,故而算法推薦性能有所提升。

(2)對比實驗2。 其它參數不變,迭代次數為30次,不同推送數目下,本文算法與深度神經網絡推薦算法(DNN)、矩陣分解推薦算法(MF)的準確率、召回率和F1指標比較。實驗結果如圖4所示。

(a) 準確率

(b) 召回率

(c) F1

Fig. 4 Comparison of the precision, recall andF1 of the three algorithms

由圖4(a)、(b)、(c)可知,分析得到的研究結論可闡釋表述如下:

(1)本文算法(DNN+Doc2Vec)與深度神經網絡推薦算法和矩陣分解推薦算法一樣,準確率均隨推送數目增大而變小,3種算法的召回率均隨推送數目增大而變大,3種算法的F1指標均隨推送數目增大而變大;

(2)DNN+Doc2Vec算法與DNN算法、MF算法相比而言,前者的均方根誤差要小于后兩種算法,說明本文算法利用Doc2Vec方法學習文本內容特征后,算法的推薦準確性有一定的提升。

綜上所述,深度神經網絡是推薦算法的基礎,引入Doc2Vec方法來學習態勢文本內容,能夠挖掘出用戶需求背后隱藏的用戶和態勢更加復雜的交互關系,使得態勢特征表征更加明確,推薦效果得以提升,證明本文算法(DNN+Doc2Vec)確實能夠提升推薦質量。

5 結束語

本文在軍事運用背景條件下,提出了一種基于Doc2Vec和深度神經網絡的推薦算法。該算法是在深度神經網絡推薦算法對用戶—交互關系進行建模的基礎上,引入基于Doc2Vec的詞嵌入模型來對文本態勢實現建模,以期挖掘到態勢更多的特征信息,使得用戶需求建模更為準確。實驗表明,基于Doc2Vec和深度神經網絡的推薦算法與深度神經網絡推薦算法、矩陣分解推薦算法等算法相比,本文算法得到的推薦效果更為優異。

猜你喜歡
深度特征文本
深度理解一元一次方程
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 精品国产一二三区| 亚洲一级无毛片无码在线免费视频| 青草精品视频| 日本道综合一本久久久88| 99re在线免费视频| 玖玖免费视频在线观看| 一本色道久久88| 久久婷婷人人澡人人爱91| 一级看片免费视频| 亚洲精品高清视频| 草草影院国产第一页| 日韩欧美国产中文| 国产精品主播| 午夜性爽视频男人的天堂| 91视频区| 91在线一9|永久视频在线| 制服丝袜 91视频| 最新午夜男女福利片视频| 免费又爽又刺激高潮网址| 在线观看免费人成视频色快速| 久草视频福利在线观看 | 亚洲AV人人澡人人双人| 国产精品yjizz视频网一二区| 国产特一级毛片| 九月婷婷亚洲综合在线| 欧美成人午夜影院| 囯产av无码片毛片一级| 五月激情综合网| 91黄色在线观看| 国产成年无码AⅤ片在线| 国产一级无码不卡视频| 色综合手机在线| 国产内射一区亚洲| 亚洲男人的天堂久久香蕉| 久草性视频| 欧美在线中文字幕| 欧美综合中文字幕久久| 欧美翘臀一区二区三区 | 成人av专区精品无码国产| 国内精品视频| 亚洲国产成人久久精品软件| 四虎影视8848永久精品| 欧美另类一区| 国产精品第一区| 又污又黄又无遮挡网站| 黄色在线不卡| 国产高清在线观看| 色综合成人| 91精品国产自产在线老师啪l| 国产性爱网站| 人妻出轨无码中文一区二区| 欧美午夜精品| 亚洲欧美日韩中文字幕在线一区| 国产真实自在自线免费精品| 美女国内精品自产拍在线播放| aa级毛片毛片免费观看久| 亚洲成人网在线观看| 亚洲欧美在线综合一区二区三区| 99久久亚洲精品影院| 亚洲无码视频一区二区三区| 国产精品无码作爱| 欧美一级99在线观看国产| 91小视频在线| 国产超薄肉色丝袜网站| 思思99热精品在线| 亚洲日韩日本中文在线| 亚洲中文字幕手机在线第一页| 又粗又大又爽又紧免费视频| 偷拍久久网| 欧美日本一区二区三区免费| 国模沟沟一区二区三区| 人人看人人鲁狠狠高清| 亚洲第一成人在线| 91成人在线观看视频| 精品无码一区二区在线观看| 欧美国产综合视频| 四虎国产成人免费观看| 国产成人久久777777| 亚洲视频一区在线| 国产精品思思热在线| 成人午夜久久| 91精品国产自产在线观看|