999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA主題模型的雷達軟件缺陷分類算法研究

2023-09-13 03:43:46徐天宇蘇藝博王艷嬌
雷達與對抗 2023年1期

徐天宇,曹 瑋,蘇藝博,王艷嬌

(中國船舶集團有限公司第八研究院,南京 211153)

0 引 言

雷達軟件的特點是任務場景復雜、功能集成度高、數據交互頻繁,對接口的要求是吞吐量、速率和實時性等,對人機交互界面的要求是友好性和易用性等。目前在裝備中已大量使用C/C++和FPGA語言代碼,且代碼量規模較大,導致雷達軟件缺陷組合復雜,如何有效提高雷達軟件缺陷預測和識別,有助于提高對軟件缺陷分布規律和現象的認知,成為影響雷達軟件測試設計工作質量和效率的關鍵。

與一般軟件不同,雷達軟件缺陷具有比較復雜的領域特征,難以使用當前可用的文本分類技術或通用主題獲取模型,例如通用的隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型,對雷達軟件缺陷數據執行精確的文本分類或主題獲取[1]。同時,雷達用戶對系統的整體功能、性能等質量因素要求較高,而配置項和系統級軟件測試更關注軟件需求和系統需求是否符合要求,以及軟件任務的可靠性和用戶體驗的潛在需求,并且需要大量人力資源及其他資源用于配置項級和系統級的軟件合格性測試。上述多個原因直接影響雷達缺陷數據分類的準確性和召回率。

為了提升雷達軟件測試效率,減少測試工作量,本文研究并改進現有軟件缺陷分類算法,提出的算法適用于配置項級測試和系統級測試的雷達軟件缺陷分類。

1 軟件缺陷分類算法相關技術

1.1 基于支持向量機的分類算法

支持向量機(Support Vector Machine,SVM)按監督學習方式對數據進行二元分類,可表示為在特征空間內使分類間隔最大的線性分類器,其學習目標是使分類間隔最大化,可以化為求解凸二次規劃的問題。當訓練數據線性可分時,利用間隔最大化求最優分類超平面,以便所有數據樣本在平面內可以被正確劃分開[2]。圖1為數據線性可分情況下SVM分類示意。

圖1 SVM分類示意圖

1.2 基于LDA主題模型的分類算法

LDA主題模型是一種文檔主題生成模型,包含文本、主題和關鍵詞3個層次,也可稱為三層貝葉斯模型。通過LDA建模,可以將文本映射到主題空間上,從而對其進行主題分類和判斷相似度等操作[3]。LDA主題模型文本分類原理如圖2所示。

圖2 基于LDA主題模型的分類示意圖

2 改進LDA主題模型

2.1 基于雷達領域術語詞典的軟件缺陷文本分詞

首先分析雷達領域相關標準、系統需求、軟件需求、軟件設計、測試用例、測試記錄、測試問題報告單等語料集,并根據雷達領域系統和軟件開發專家的經驗確定每個術語的同義詞,從多個角度建立“雷達領域術語詞典”:

(1)雷達領域專業術語集合:與雷達系統、配置項、軟件等相關的專業術語;

(2)雷達領域停用詞集合:在公共停用詞列表的基礎上,去掉在雷達測試領域中與主題無關的詞,如調試助手、軟件、人員、數據等;

(3)雷達領域同義詞集合:雷達專業術語的同義詞集合,如“靜默區”的同義詞為“沉默區”等;

(4)典型雷達軟件異常缺陷集合:例如目標丟失、航跡點溢出、目標批號不同步等;

(5)雷達軟件需求特征集合:例如扇區劃分、航跡、回波接收任務、主被動切換等。

基于雷達領域術語詞典和逆向最大匹配算法的軟件缺陷文本分詞方法如圖3所示。

圖3 軟件缺陷文本分詞方法流程圖

2.2 雷達軟件缺陷數據主題獲取

借助LDA模型對語料庫(即軟件缺陷數據庫)D中的任意文檔(即軟件缺陷數據)d建模,生成主題概率分布:

(1)

得到聯合概率公式:

針對式(1)和式(2)中的變量說明如下:假設雷達缺陷數據庫有D個缺陷數據集合,總字數為Nd、wd,n,n表示d數據中的第n個字。缺陷數據由k個主題組成,則每個主題下的主題詞概率分布фk服從以β為參數的狄利克雷分布;θd是文檔主題分布,每個缺陷數據對應不同的主題分布,服從狄利克雷分布,以α為參數;Zd,n表示缺陷數據d中主題和關鍵詞之間的指定分布,服從多項式分布,以θz為參數。

根據式(1)、式(2)以及相應變量,基于LDA模型的雷達軟件缺陷的獲取過程描述如下[4]:

(1)對于每個缺陷數據d∈D,根據θd~Dir(α)(即θd服從狄利克雷分布,以α為參數),得到多項式分布參數θd;

(2)對于每個主題z∈k,根據θd~Dir(α),得到多項式分布參數θd;

(3)對于缺陷數據d中的第i個字Wd,i:

·根據多項式分布Zd,i~Mult(θd),得到缺陷主題Zd,i;

·根據多項式分布Wd,i~Mult(θz),得到缺陷關鍵詞Wd,i。

2.3 基于融合雷達軟件需求特征的改進LDA主題模型構建

傳統的LDA模型沒有考慮領域上下文中的關鍵詞權重信息,且主題分配偏向高頻關鍵詞所屬的主題。在許多情況下,具有強大領域背景的重要術語,如雷達軟件需求,可能不會經常出現,因此很難成為主題關鍵字的輸出。通過構建基于融合雷達軟件需求特征的改進LDA主題模型,本文提升了描述雷達軟件需求關鍵詞的權重和文本長度,具體實現如下:

步驟1:提升關鍵詞的詞頻權重

針對原始缺陷數據集D={d1,d2,…,dn}中的分詞結果,查找描述雷達軟件。

需求的關鍵詞V={v1,v2,…,vs}(V∈D),例如功能需求、性能參數、接口名稱、接口類型、工作狀態等,同時提升這些關鍵詞的詞頻權重。

步驟2:擴充軟件缺陷數據集

針對雷達軟件需求關鍵詞V,為其中的每個關鍵詞vi,i=1~s匹配相關的需求信息,例如針對某需求vi,可將其功能需求、性能參數、接口名稱、接口類型、工作狀態等文本信息自動添加到原始缺陷數據集中,形成擴充數據集V′={v1,v2,…,vs,vs+1,vs+2,…,VS},最終擴充軟件缺陷數據集D′=D∪V′ (軟件缺陷數據集的長度為S+n)。

步驟3:循環迭代計算主題分布和主題關鍵詞分布

對經過擴充的雷達軟件缺陷數據集D′,構造概率向量模型:

(θ1×(φ11,…,φ1,S+n),…,θz×(φz1,…,φz,S+n),

θn×(φS1,…,φS,S+n))

(3)

因此,構造的概率向量模型為n×S維。這種擴充后的軟件缺陷數據集合既保留了LDA主題模型降維降噪的效果,也融合了雷達軟件需求特征,具有更好的語義可解釋性[5]。

為了獲取上述模型中的關鍵詞概率分布,須估算隱含參數θ與φ。本文借助Gibbs抽樣方法,結合擴充后的軟件缺陷數據集合,獲得θ與φ的估計值。θ與φ的估算過程可以看作軟件缺陷數據文本生成的逆過程,即在給定軟件缺陷數據集的情況下,通過參數估計得到隱含參數的估計值。

Gibbs抽樣在于確定每個關鍵詞的主題,隱含主題參數可以通過統計主題頻數來獲得。假定在排除當前關鍵詞主題分配的情況下,根據其他詞的主題分配估計當前詞分配各個主題的概率[6],公式如下:

(4)

假定每個關鍵詞的主題被確定,則可以按照下式估算θ與φ:

(5)

(6)

式中,θm,k為缺陷數據m中主題k的概率;φk,t為主題k中關鍵詞t的概率。

循環迭代計算軟件缺陷數據m的主題分布θ以及主題關鍵詞分布φ。

2.4 基于改進LDA主題模型的雷達軟件缺陷數據主題識別

利用雷達領域術語詞典的軟件缺陷文本分詞算法,并借助雷達領域術語詞典,提取文本中的單詞。對雷達軟件缺陷數據集D中的每項軟件缺陷數據di,i=1~N進行預處理,獲得N個軟件缺陷數據的文本分詞向量集合Ds=ds1,ds2,…,dsN;然后根據2.3節確定隱含主題的個數k(k值可以預先設置,k值越大,實驗產生的結果信息越多,主題就越發散;k值越小,主題越收斂),方法如圖4所示。

圖4 確定k值方法流程

結合雷達軟件測試領域應用場景,根據雷達軟件項目中功能數量、性能數量、接口數量等需求信息和測試類型個數等,初步確定預期隱含主題個數k,通過多次實驗調參,并根據專家經驗采用最優密度模型等方法,設置較為合理的k值。由于各型號雷達軟件具有相似性,可根據各型號雷達軟件提前確定k值。

將軟件缺陷數據的文本分詞向量集合Ds=ds1,ds2,…,dsN以及預期的隱含主題個數k,代入融合雷達軟件需求特征的改進LDA主題模型中進行模擬訓練[7],得到主題模型個數k,記為DM=dM1,dM2,…,dMK。每個主題模型DMj,j=1~k都由s個關鍵詞組成,即關鍵詞向量集合為DMj={dmj1,…,dmjk},dmjk∈Ds。

2.5 基于主題相似度因子的雷達軟件缺陷數據分類算法

在所生成的雷達軟件缺陷數據的k個主題模型基礎上,借助Gibbs抽樣方法,采用JS散度,計算每項軟件缺陷數據文本分詞向量dsi,與每個主題模型DMj之間的主題相似度因子。Gibbs抽樣方法可以估算軟件缺陷數據集D中任意缺陷數據dsi的主題概率分布向量,采用JS散度和KL散度計算軟件缺陷數據的主題相似度[8]。因此,得到面向雷達軟件缺陷數據與主題模型的相似度因子LS的計算式為

(7)

式中,DKL為KL散度,且

(8)

針對每項缺陷數據dsi,分別計算其與每個主題模型DMj的相似度因子LS,若LS的取值超出閾值,則可判定該項缺陷數據dsi大概率屬于該主題模型DMj,即缺陷數據dsi的從屬主題模型。重復上述相似度因子計算和分析過程,對每項缺陷數據dsi都能找到相應的從屬主題模型DMj,也可以稱為缺陷數據dsi從屬與主題模型DMj。

最后,若m,m≤k個主題模型下有屬于自己的缺陷數據集,雷達軟件缺陷數據分類完成,即將雷達軟件缺陷數據D分為m類,對應m個主題模型。整個流程如圖5所示。

圖5 基于主題相似因子的軟件缺陷分類算法流程

3 實驗及結果分析

3.1 實驗評價方法

本實驗選用某型雷達顯控軟件的90項測試問題報告單,預先按照各類測試問題報告單所屬功能,人工將其分為9類,形成軟件缺陷標準分類集合,如圖6所示。

圖6 軟件缺陷標準分類集合流程圖

對比選用的缺陷數據分類算法包括:傳統LDA主題模型(記為LDA)、本文提出的融合雷達軟件需求特征的改進LDA主題模型(記為I-LDA)以及主流的支持向量機的文本分類算法(記為SVM)。

以下3個主要指標用于評價雷達軟件缺陷數據分類算法的性能:

(1)分類精確率P=(算法準確實現的軟件缺陷分類數)/(算法實現的所有軟件缺陷分類數)*100%;

(2)分類召回率R=(算法準確實現的軟件缺陷分類數)/(缺陷數據庫中實際的軟件缺陷分類數)*100%;

(3)綜合指標F1=2PR/(P+R)。

當實際評估一個分類算法的性能時,應同時考慮P和R,但同時要比較兩個數值,很難做到一目了然。作為P和R的調和平均,綜合指標F1值可以對二者進行綜合評價,最終利用F1值并結合P值和R值對分類結果進行效果評估[9]。

3.2 實驗內容及結果分析

采用Python語言在Win7操作系統下實現改進LDA主題模型。針對LDA主題模型的主要參數設置如下:采用Gibbs抽樣方法進行參數估計,雷達軟件缺陷數據的訓練集和測試集比例設置為5:1,文檔主題概率分布參數α為0.1,主題關鍵詞概率分布參數β設置為0.01,每個主題下的關鍵詞個數設置為10。

(1)步驟1:設置改進LDA主題模型的預期主題個數K

在測試問題標準分類集合中,已人工將其分為9類,所以設置LDA和I-LDA兩個主題模型的預期主題個數K為9。

(2)步驟2:雷達軟件缺陷數據文本分詞

借助本文提出的“基于雷達領域術語詞典的缺陷文本分詞”算法,對90項測試問題報告單的缺陷數據進行分詞。

(3)步驟3:基于3種模型算法訓練的分類過程

將LDA、I-LDA和SVM等3種模型分類算法,對90項測試問題報告單的缺陷數據分詞集合進行模擬訓練,形成各自對應的分類結果。以I-LDA模型算法為例,其軟件缺陷數據的分類結果如下:

在90項缺陷數據中有6項數據(如表1所示,原始數據文本較長,做了一定簡化)與“初始化”功能相關。I-LDA模型將這6項數據歸為同一個主題模型S。

表1 雷達軟件初始化功能的6項缺陷文本

主題模型S:(0.046*“接收”+0.035*“上電初始化”+0.035*“站點”+0.029*“配置文件”+0.028*“標識”+0.025*“雷達站A”+0.025*“雷達站B”+0.024*“目標”+0.024*“讀取”+0.022*“過程”)。

在主題模型S包含的關鍵詞集合中,與初始化功能的描述比較接近,例如“上電初始化”、“接收”、“配置文件”等,因此將這6項初始化缺陷數據歸為主題模型S符合預期。在標準分類集中,也是將這6項缺陷數據歸為同一類,屬于“初始化”功能。

(4)步驟4:實驗結果分類比對和分析

根據3種模型分類算法對90項軟件缺陷數據進行分類實驗,并計算3種指標P、R和F1,結果如表2所示。

表2 貝葉斯網絡原因變量集合C示例

可以看出,I-LDA算法的分類效果比其他兩種算法有明顯提升,即I-LDA性能最優。在步驟(3)中,I-LDA分類結果表明其與標準分類集一致。相反,LDA算法的分類結果將第4個數據項分類到其他模型中,而不是有效的分類結果中,這是因為第4個數據項中沒有出現“開機,初始化”字樣,而“默認工作模式”的接口數據屬于“開機初始化”功能;而在I-LDA算法中,“工作模式”和“開機初始化”自動關聯在一起,通過修改相似度因子LS的閾值,增加了“工作模式”在分類中的權重,從而獲得準確的分類結果。

4 結束語

本文提出一種改進LDA主題模型的雷達軟件缺陷分類算法:基于雷達領域術語詞典,準確實現軟件缺陷文本分詞;依據雷達軟件需求特征信息,構建改進的LDA主題模型;在融合雷達需求特征的主題后,如功能需求、性能參數、接口名稱、接口類型、工作狀態等,提高獲取主題的精度;基于獲得的主題模型實現了改進LDA主題模型的雷達軟件缺陷數據分類;針對某型雷達顯控軟件進行算法實驗,本文算法在綜合指標F1上相比于通用LDA主題模型分類算法提高了24%,證明了其準確度和有效性。通過將軟件缺陷問題報告從傳統的高維單詞空間映射到低維主題空間,根據文本相似度進行數據分類,從而降低了待處理空間的維度,并提高了算法執行效率和準確性,減輕了人工分類缺陷數據的工作量和重復性,進而提升了雷達軟件測試設計工作的質量和效率。

主站蜘蛛池模板: 精品视频在线观看你懂的一区| 天天躁日日躁狠狠躁中文字幕| 无码专区在线观看| 99精品欧美一区| 九色最新网址| 久久精品亚洲专区| 国产精选自拍| 天天综合网亚洲网站| 人妻熟妇日韩AV在线播放| 在线观看网站国产| 尤物视频一区| 国产精品三区四区| 97精品伊人久久大香线蕉| 国产精品成人观看视频国产| 国产AV毛片| 青青久久91| 国产免费高清无需播放器| 亚洲AV免费一区二区三区| 久久国语对白| 亚洲男人的天堂久久精品| 手机看片1024久久精品你懂的| 特级毛片免费视频| 自偷自拍三级全三级视频 | 2021国产精品自产拍在线观看| 蜜桃视频一区二区| 欧美午夜在线视频| 一区二区影院| 天天视频在线91频| 亚洲第一国产综合| 国产在线精品99一区不卡| 欧美精品一二三区| 亚洲乱强伦| www.亚洲一区| 亚洲福利一区二区三区| 久久综合色天堂av| 国产偷国产偷在线高清| 国产在线拍偷自揄拍精品| 中文字幕首页系列人妻| 欧美成人二区| 麻豆精选在线| 婷婷色一区二区三区| 欧美日韩中文字幕在线| 夜夜操天天摸| 亚洲欧州色色免费AV| 国产一级视频久久| 精品伊人久久久大香线蕉欧美| 国产中文一区a级毛片视频| 欧美精品亚洲精品日韩专区| 免费A∨中文乱码专区| 91福利在线看| 成人午夜视频免费看欧美| 亚洲福利视频网址| 中文字幕亚洲专区第19页| 国产91蝌蚪窝| 欧美激情视频一区| 狠狠干综合| 久久综合丝袜长腿丝袜| 免费毛片全部不收费的| 国产福利在线免费观看| 国产日韩精品欧美一区灰| 久久这里只有精品免费| 国产欧美在线| 亚洲综合婷婷激情| 欧美一级爱操视频| 日韩av在线直播| 亚洲AⅤ波多系列中文字幕| 一本综合久久| 国产小视频免费观看| 亚洲成aⅴ人在线观看| av在线无码浏览| 欧美一级大片在线观看| 欧美成人综合视频| 一本大道香蕉高清久久| 亚洲精品老司机| 日本一区二区三区精品AⅤ| 91免费观看视频| 久久综合激情网| 日本一区高清| 亚洲AV无码精品无码久久蜜桃| 青草视频在线观看国产| 国产污视频在线观看| www.av男人.com|