對深度學習中目標定位不確定度評定的討論

2024-04-08 02:46:10張子安張永強丁明理

測控技術 2024年3期

張子安，張永強，丁明理

（哈爾濱工業大學儀器科學與工程學院，黑龍江哈爾濱 150001）

在人工智能、互聯網、大數據等新興技術的推動下，利用計算機代替人工進行自動化圖像處理得到了廣泛應用。基于深度學習的目標定位技術［1-2］應用于計算機分析圖像信息的首要環節，其定位質量直接影響視覺系統的分析結果。在大多數情況下，基于深度學習能夠獲得較傳統方法更為精確的定位結果，但有時也會輸出一些誤差較大甚至完全錯誤的定位結果。在諸如自動駕駛［3］、醫學圖像分析［4］等對定位結果要求較高的領域，這些不可靠的定位結果如果不能得到有效的發現和抑制，可能導致錯誤操作，造成難以挽回的嚴重后果。

在測量測試行業，完整且有意義的測量結果應該包含其不確定度。不確定度被用于表示測量結果的分散性，測量結果的可靠性在很大程度上取決于其不確定度的大小［5-6］。此外，統一的測量不確定度評定方法使得測量結果可以方便地被比較和選用。主流的不確定度評定方法包括測量不確定度表示指南（Guide to the expression of Uncertainty in Measurement，GUM）法［7］和蒙特卡洛法（Monte Carlo Method，MCM）［8］，其評定流程屬于被公認的行業標準。測量不確定度的評定結果能夠反映測量結果的可靠性，使得數以萬計的測量系統能夠被合理地工程化應用。然而，因為缺少可靠的不確定度評定手段，所以基于深度學習的目標定位技術的應用存在諸多限制。雖然部分學者已經開展了有關深度學習不確定度的研究［9］，但是仍缺少對實際工程場景的分析和對不確定度統一、規范的評定方法，因此與實現可靠的不確定度評定還有一定的差距。

本文從符合測量測試行業規范的測量不確定度評定的角度切入，分析深度學習中目標定位不確定度的研究現狀，列舉基于深度學習的目標定位方法的誤差來源，討論當前相關技術評價指標的價值與不足，并提出對規范化基于深度學習的目標定位技術不確定度評定的建議。

1 測量不確定度的評定方法

測量值指示被測量真值的估計值，測量過程中的隨機效應和系統效應導致了測量結果的不確定性。不確定度用以衡量測量結果的可信程度，在JJF 1059.1—2012《測量不確定度評定與表示》中將測量不確定度定義為：根據所用到的信息，表征被測量值分散性的非負參數。具體來說，由于被測量真值以較大的概率分布在測得值與測量不確定度確定的區間之內，因此在給出測量結果時，只有附加不確定度說明的測量結果才是完整和有意義的。通過測量不確定度進行測量測試設備的質量把控，是推動計量產業合理化發展的基石。依據目前的JJF 1059 系列計量技術規范，通用的測量不確定度評定方法包括GUM法和MCM。

1.1 GUM法

GUM法的流程由JJF 1059.1—2012《測量不確定度評定與表示》所表述，該方法通過不確定度傳播率計算合成標準不確定度，從而得到被測量估計值的測量不確定度。為了合成標準不確定度，GUM法首先需分析不確定度來源并建立如下測量模型：

式中：Y為被測量；f 為測量函數；Xi為輸入量；N 為輸入量個數。通常每個輸入量都存在不確定度，因此需要分別求取各輸入量Xi對應的估計值xi的標準不確定度u（xi），評定各分量標準不確定度的方法分為A類評定方法和B類評定方法。

A類評定方法對輸入量的估計值xi進行n 次獨立重復觀測，再計算得到一系列估計值xi的標準差s（xi）作為標準不確定度u（xi）。若使用重復觀測的均值作為估計值，則標準不確定度為

B類評定方法根據先驗信息，判斷并獲得估計值xi的標準不確定度u（xi）。在獲得所有Xi的估計值的標準不確定度u（xi）后，便可通過不確定度傳播原理計算被測量Y的估計值y的合成標準不確定度uc（y）：

GUM法的適用條件為：①可以假設輸入量的概率分布呈對稱分布；②可以假設輸出量的概率分布近似為正態分布或者t 分布；③測量模型為線性模型、可以轉化為線性模型或可用線性模型近似的模型。當測量函數f為使用泰勒展開的近似線性函數時，同樣存在誤差干擾，此時需要將省略的高階項作為不確定度分量進行評定。

1.2 MCM

MCM的流程由JJF 1059.2—2012《用蒙特卡洛法評定測量不確定度》所表述，該方法是在如下情況時對GUM 方法的補充：①測量模型明顯呈非線性；②輸入量的概率密度函數（Probability Density Function，PDF）明顯非對稱；③輸出量的PDF 較大程度地偏離正態分布或t 分布，尤其分布明顯非對稱。MCM通過對輸入量Xi的PDF 離散抽樣，由測量模型傳播輸入量的分布，計算獲得輸出量Y的PDF的離散抽樣值，進而進行不確定度評定。MCM 在確定輸入量Xi的PDF后，需進行M 次采樣并將輸入量傳播為Y，其中M的選擇方法為

式中：p為包含概率，即在規定包含區間內包含真值的概率。獲得M 組Y 的估計量集合y（M）＝｛y1，y2，…，yM｝后，可分別計算其均值y（M）和標準差s（y（M））作為Y的估計值y 及其標準不確定度u（y）。此時標準不確定度u（y）計算公式為

在使用MCM的情況下，Y 的PDF 不一定對稱，因此采用最短包含區間作為包含區間。

2 深度學習中目標定位不確定度分析的研究現狀

不確定度是指示測量結果可信度時常用的評價指標，基于深度學習的預測模型在開發和應用過程中均存在不確定性，各類不確定度分量導致了最終測量結果的不確定度。針對基于深度學習的預測結果缺少可信度指標的問題，學界已開展了對深度學習不確定度分析的研究。其中，部分學者認為深度學習的不確定度包括數據不確定度（也稱為“偶然不確定度”）和模型參數不確定度（也稱為“認知不確定度”）兩種分量，其中數據不確定度來自數據采集和人工標注過程的噪聲，而模型參數不確定度來自訓練數據的分布偏移、模型結構不合理、訓練程度不充分造成的建模偏差［10］。兩種不確定度的舉例如圖1 所示。

圖1 深度學習的數據不確定度和模型參數不確定度舉例

圖1 中橙色實線為真值，紅色虛線為預測結果，藍色點為訓練數據。圖1 中（b）段實現了正確的數據擬合。數據不確定度如圖1 中（c）段和圖1 中（d）段所示，采樣或標注誤差導致的訓練數據與真值出現偏移，若該誤差呈對稱分布（誤差期望近似0），訓練結果通常誤差較小；若該誤差有明顯偏移，訓練結果也將出現偏移。模型參數不確定度如圖1 中（a）段和圖1 中（e）段所示，在訓練數據不充足或是沒有訓練數據的部分，建模誤差將會很大。上述兩種不確定度分量組成了深度學習模型建模的不確定度，由于神經網絡的輸入和預測結果的映射關系是確定且唯一的，因此估計其不確定度需要特別的方法。當前深度學習不確定度的主流估計方法如圖2 所示，包括基于直接預測的方法、基于多模型的方法和基于多輸入的方法，以下將從目標定位任務（即估計圖像中目標關鍵點的像素坐標）的角度分別對這些方法進行敘述。

圖2 主流的深度學習不確定度估計方法

2.1 基于直接預測的方法

基于直接預測的方法隱式地估計不確定度，并將其作為一項網絡預測結果輸出，如圖2（a）所示［11］。該方法首先先驗地建模預測結果的誤差分布，然后用最大似然估計的方法進行訓練階段目標函數的設計。對于目標定位任務的像素坐標預測，若先驗地設置預測誤差呈高斯分布，則獲得對測量結果分布的如下：

式中：σ*為預測誤差分布的標準差，通過網絡直接輸出。

使用最大后驗估計作為訓練的目標函數，可表示為

使用目標函數L 訓練網絡，可預測每組測量結果的σ*作為不確定度，以表示預測結果的可信度。

2.2 基于多模型的方法

神經網絡的輸入和預測結果的映射關系是確定且唯一的，為了統計預測結果的分布，可以使用多個模型進行預測，此時只須保證這些模型的參數符合獨立同分布即可。基于多模型的方法如圖2（b）所示，可分為基于貝葉斯神經網絡的方法［12］和基于模型集成的方法［13］。

與基于最大似然估計的方法不同，貝葉斯神經網絡［14］能夠擬合模型參數的分布。當給定一組訓練用的輸入-標注對（x，y）時，先假設θ的先驗分布P（θ），再利用如下貝葉斯理論建模θ的后驗分布P（θ|x，y）：

式中：常數項P（y|x）的定義為

估計出模型參數的后驗分布后，對于一個輸入x*，其預測輸出的坐標y*可以用貝葉斯模型平均獲得，方法如下：

這種基于貝葉斯神經網絡的方法能夠直接應用模型參數的分布來估計預測結果的分布，但在實際應用中通常需要針對離散且有限的模型參數，因此需要使用蒙特卡洛近似來獲取預測的最佳估計值和標準差。具體地，可以從模型參數的后驗分布P（θ|x，y）中采樣N組樣本｛θ1，θ2，…，θN｝，之后再按如下方法計算多組測量結果的均值和方差作為被測量真值的最佳估計值和測量結果的不確定度：

式中：E為求期望函數；Var為求方差函數。

基于多模型的方法通過執行多組并行訓練過程，獲得多組網絡模型參數，這些參數符合獨立同分布假設。若執行了N 組訓練，則獲得N 組模型參數｛θ1，θ2，…，θN｝，之后同樣使用式（11）進行統計分析，可獲得被測量真值的最佳估計值和測量結果的不確定度。

2.3 基于多輸入的方法

神經網絡的輸入和預測結果的映射關系是確定且唯一的，為了統計預測結果的分布，可以使用多個輸入進行預測。該方法的原理是用數據增強的手段從單個輸入樣本生成多個樣本，其思想是通過數據增強來擴大樣本允許探索的視圖，以此來捕捉不確定性［15］。常用的數據增強手段包括加噪、翻轉、裁剪、拉伸等。需要注意的是，在使用此技術時應只對數據進行有效增強，而不應生成目標分布以外的數據［16］。具體的方法如圖2（c）所示，輸入數據x*經由N 種數據增強手段生成｛｝，將這些增強后的數據分別輸入網絡模型f可得N組關鍵點坐標｛｝，之后同樣使用式（11）進行統計分析，可得被測量真值的最佳估計值和測量結果的不確定度。

2.4 現狀分析

深度學習的不確定度包括數據不確定度和模型參數不確定度兩個分量，當前深度學習目標定位結果的不確定度估計方法包括基于直接預測的方法、基于多模型的方法和基于多輸入的方法3 類。

基于直接預測的方法利用高斯等先驗模型建模輸出預測結果的誤差分布，再使用最大后驗估計作為目標函數。最大后驗估計是針對模型參數的點估計方法，因此無法捕捉模型參數的不確定性，故利用直接預測的方法獲得的是數據不確定度分量。盡管使用該方法可得到數據不確定度，但是該不確定度的計算是基于神經網絡的預測方法，因此可信度較低。

使用基于多模型的方法和基于多輸入的方法，分別可以獲得數據不確定度和模型參數不確定度分量。該類方法與MCM 較為相似，都是先從輸入分布采樣計算多組輸出，再利用統計方法分析輸出的分布。相比直接預測不確定度的方法，該類統計重復實驗結果后評價出的不確定度更具備說服力，且易規范化。

由于訓練數據和模型參數互不相關，因此在利用統計分析分別得到數據x和模型參數θ造成結果y的標準不確定度ux（y）和uθ（y）后，可利用GUM 法按式（12）計算y的合成標準不確定度uc（y）。

盡管當前的研究可以獲得模型和數據兩個方面的不確定度分量并計算合成標準不確定度，但該指標僅針對數據集的擬合效果，并未被拓展到具體工程環境，因此還有諸多干擾未被考慮。此外，當前針對深度學習模型的不確定度評估的研究仍未形成規范的方法。上述原因使得工業界缺少可靠的深度學習目標定位不確定度評定標準。以下將從工程應用的角度討論深度學習中目標定位任務的誤差來源和主流指標，并為可靠的不確定度評定標準建設提出建議。

3 目標定位的誤差來源和主流指標

3.1 深度學習中的目標定位簡介

深度學習中的目標定位通常指從輸入圖像中估計目標物體的像素位置，常見的任務包括人體姿態估計中的關節點定位和物體檢測中的物體邊界框定位。人體姿態估計需要從人體圖像中檢測出能反映運動學特性的身體鍵節點，例如頭、脖子、胸腔、肩膀、肘部、手腕、骨盆、臀部、膝蓋、腳踝等［17］。身體關鍵點定位流程如圖3（a）所示，得益于深度學習的發展，使用神經網絡可直接回歸出人體圖像中身體節點的像素坐標，并且能夠取得較高的準確率。物體檢測需要從輸入圖像中檢測出不同種類的物體，并分別進行定位和分類。其中的物體邊界框定位的流程如圖3（b）所示，定位結果為包含物體的最小邊界框［18］，可通過神經網絡回歸出各邊界框的頂點坐標。

圖3 人體姿態估計和物體檢測中的目標定位流程

無論是身體關鍵點定位還是邊界框定位，神經網絡的開發和應用過程較為統一，主要包括數據獲取及標注、模型選取與網絡訓練、推理測試和現場應用4 個階段。各階段簡述如下。

（1）數據獲取及標注。

深度學習技術的核心是數據驅動的模型擬合，因此需要準備大量的圖像數據，并且人工標注每一幅圖像中的身體關鍵點或者邊界框的像素坐標以備訓練。這些數據是從真實世界中的相關場景采樣出來的離散點，為了使訓練數據能夠盡可能地擬合真實場景的分布，通常需要采集大量的圖像。

（2）模型選取與網絡訓練。

神經網絡的結構種類紛繁復雜，需要研究者根據具體任務選取恰當的網絡模型。選取網絡模型后，通過反向傳播的訓練手段擬合模型參數，使得神經網絡的輸出能夠接近人工標注的結果。通常在平均誤差達到最小值時，網絡訓練結束。

（3）推理測試。

完成網絡參數擬合后，通常在與訓練數據獨立同分布的測試數據上進行模型泛化性測試。通過統計測量值和真值（標注值）的差距并進行分析，可以獲得多種評價模型性能的指標。

（4）現場應用。

在獲得足夠性能的網絡模型后，需要將其嵌入測量現場的系統進行應用。在該階段，測量結果還將受到成像系統和計算機系統的誤差干擾，因此檢測精度較推理測試階段更差。同時，應用時通常無法獲得被測量值的真值，因此可以用不確定度指標反映測量結果的可信度。

3.2 誤差來源分析

基于深度神經網絡的目標定位模型可表示為

式中：Y為被測量，即深度模型輸出的目標像素坐標；f為神經網絡模型，具體表現為神經網絡的結構。分析測量模型可知誤差來源應包括輸入圖像、模型參數和網絡模型；X 為輸入圖像，即現場采集獲取的圖像數據；θ為模型參數。為細化誤差來源，繪制網絡模型的開發及應用過程如圖4 所示。

圖4 網絡模型的開發及應用過程

圖4 中藍色模塊表示開發和應用的各項處理過程，誤差由這些過程引入，分析如下。

（1）相機采樣誤差。

相機采樣誤差由采樣范圍和噪聲導致。由于真實場景是多元且高度非線性的連續分布，因此有限的離散采樣通常難以表征所有情況（例如天氣、對象的種類和人體生理特征），這將導致訓練數據分布與真實場景分布的偏移，進而引入建模的誤差。此外，圖像采集系統會受到光學鏡頭畸變和成像噪聲的干擾，使得圖像與真實場景存在差異，引入誤差。相機采樣的誤差最終被疊加在輸入圖像和模型參數上。

（2）人工標注誤差。

針對人體姿態估計和物體檢測任務，人工標注的身體節點和邊界框位置都存在誤差，這將影響訓練過程和預測結果。人工標注誤差最終被疊加在模型參數上。

（3）模型結構誤差。

模型設計決定了神經網絡的結構，網絡結構和任務的不適配將造成過擬合或欠擬合，使得預測誤差加大。通常認為神經網絡能夠擬合目標函數，因此分析時不考慮網絡模型的誤差。

（4）網絡訓練誤差。

網絡訓練的目的是擬合出恰當的網絡參數，該過程存在隨機性。初始參數、訓練批次、優化器、學習率、損失函數、正則項、中止判定條件等超參數的設置都會影響最終的訓練結果，因此引入了誤差。網絡訓練誤差最終被疊加在模型參數上。

（5）計算機誤差。

神經網絡的推理過程通過計算機實現，因此計算機的舍入誤差和故障性誤差都會干擾測量結果。計算機誤差最終被疊加在輸入圖像和模型參數上。

3.3 主流評價指標分析

在測量測試行業，測量不確定度是一個成熟的測量質量評價指標，受到了從業人員廣泛的認可和使用。而在深度學習領域，不確定度是一個較為新穎的評價指示，該領域占主導地位的仍是均方誤差、準確率等指標。本節將從測量不確定度的角度討論基于深度學習的目標定位技術的各項主流評價指標的意義。

當前深度學習中目標定位任務的主流評價指標都側重于推理測試結果，即關注神經網絡對訓練數據所代表分布的擬合能力。身體節點和物體邊界框定位模型的訓練過程均屬于非線性回歸，給定數據集D ＝｛（x1，y1），（x2，y2），…，（xm，ym）｝，其中xi為輸入圖像，yi為輸入xi的真實標記（身體節點或邊界框頂點的像素坐標），則參數擬合后的模型可表示為

式中：ε為預測誤差，通常假定模型的預測結果f（xi，θ）是對真值yi的無偏估計，即E[]ε ＝0。由于深度神經網絡是高度非線性的模型，并且其輸入數據的分布較為復雜，因此其模型的指標評定多與MCM 的思想相近：從分布中采樣大批量輸入數據，并對這些數據對應的預測結果進行統計分析。

（1）均方誤差。

均方誤差（Mean Squared Error，MSE）是回歸任務常用的性能度量，可用于評估關節點定位模型的性能。使用該指標時要把預測結果f（xi，θ）與真實標記yi進行比較：

更一般地，對于數據分布X 的概率密度函數P（x），均方誤差可描述為

可見均方誤差度量了整個量程（X 所描述的真實場景分布）內模型預測誤差的期望和方差，該指標可作為對神經網絡模型整體精確度的度量。此外，在用無偏的分布建模ε的先驗條件下，均方誤差可表示模型預測結果的不確定度。與測量不確定度不同，均方誤差衡量的是模型在整個量程（分布X）下的不確定度，并不是對單個測量結果的估計。

（2）準確率。

準確率是常用的分類任務性能指標，指分類正確的樣本數占樣本總數的比例。雖然身體節點和物體邊界框定位屬于回歸任務，但通過設置閾值可以將其轉換為一個二分類任務。具體的，身體節點定位任務使用目標節點相似度（Object Keypoint Similarity，OKS）對測量誤差f（xi，θ）-yi進行轉化［19］，即

此處不對OKS的計算過程做解釋，只需了解di表示估計的身體節點像素坐標f（xi，θ）和真值yi之間的歸一化距離，該參數與測量誤差正相關。若設置閾值為U，則模型在數據集D中預測的準確率計算為

式中：I（·）為指示函數，當滿足條件時輸出為1，反之為0。同樣的，物體檢測中的定位結果可以用準確率進行評估。要評估物體檢測模型的定位性能，需將邊界框測量值與真值進行比較。基于深度學習的物體檢測評價體系中，使用交并比IIoU，i∈R［0，1］計算測量值ti和真值Ti的距離（R 為實數域），其計算方法為：測量值ti與真值Ti的交集除以它們的并集，這里的交集和并集均以面積表示，其計算公式可以表示為

一個正確的物體邊界框測量值ti與真值Ti的交并比IIoU，i必須大于某特定閾值H，既然IIoU，i可看作物體邊界框測量值與真值的距離，就可用類似式（18）的方法計算物體定位的準確率，計算如下：

準確率計算和測量不確定度評定時的各項參數存在相似性，如圖5 所示。在用MCM 評定測量不確定度時，通過重復測量得到一組測量值，并將其均值作為最佳估計值。在計算所有測量值的殘差后，獲得如圖5（a）所示的分布圖，可作為對殘差分布的離散采樣。在選定包含區間后，便可將包含區間內測量值占所有測量值的比例作為包含概率。在計算基于深度學習的目標定位模型的準確率時，首先遍歷數據集D 的樣本xi獲得對應的測量結果，然后計算相對于真值的歸一化距離（di或IIoU，i），歸一化距離的離散分布如圖5（b）所示（為便于展示，此處為測量值增加了相對于真值的方位）。在選定閾值U或H后，可按式（18）或式（20）計算目標定位的準確率。

圖5 準確率計算和測量不確定度評定的相似性對比

通過上述對比可知，模型的預測準確率和不確定度評估給出的包含概率較為相似，差別在于準確率計算對象是模型擬合數據集D 的誤差，而不確定度評估的對象是針對單個樣本的測量誤差。

綜合上述分析可知，主流指標著重評價模型整體的擬合能力。相比較而言，測量不確定度更適用于評價實際應用中單個預測結果的好壞。

4 對目標定位不確定度評定方法的建議

在基于深度學習的目標定位任務中，現有的主流評價指標反映了開發階段模型在數據所表示的分布上的平均精度，并未針對實際使用中的單次測量結果進行可靠性分析。對基于深度學習的圖像關鍵點定位結果進行不確定度評定，能夠促進該技術的工業化應用。下面將結合標準的測量不確定度評定方法和深度學習中目標定位不確定度的現有研究成果，為設計規范化的、可靠的深度學習中目標定位不確定度評定方法提出建議。

4.1 對目標定位不確定度分量的分析

由式（14）可知，基于深度學習的目標定位的不確定度分量包括輸入數據不確定度和模型參數不確定度。輸入數據不確定度的來源包括相機采樣誤差和計算機誤差，而模型參數不確定度的來源包括相機采樣誤差、人工標注誤差、網絡訓練誤差和計算機誤差。在模型的推理應用階段，相機采樣誤差、計算機誤差是計算機視覺和機器視覺模型所共有的隨機或粗大誤差，可通過多次重復實驗的方法評估由其造成的不確定性。而在模型的訓練階段，相機采樣誤差、人工標注誤差和網絡訓練誤差直接造成了深度學習目標定位模型參數的不確定性，該類不確定性需要根據具體的目標定位模型進行分析。盡管根據第2 節所述的方法可獲得神經網絡預測的不確定度，但是在具體的工程應用中，該方法還存在如下問題：

①數據不確定度分量雖然評估了輸入數據造成的不確定性，但是其針對的是訓練數據的噪聲或數據增強手段帶來的不確定性。在實際工程應用中，成像系統噪聲和計算機的干擾并不能被先驗地分析，因此評定測量結果的不確定度時，還應對具體場景進行分析。

②相較于GUM法和MCM，深度學習中的目標定位不確定度缺乏統一、規范的評定方法，使得其評估結果不易被認可且缺乏通用性。因此設計符合技術規范的不確定度評定流程顯得尤為必要。

上述問題使得工業界難以獲得深度學習中目標定位結果不確定度的可靠估計，因此規范化的不確定度評定方法應該著手解決這些問題。

4.2 規范化的不確定度評定方法

在具體工程應用中，存在無法被先驗分析的成像噪聲和計算機的干擾，這些誤差來源同樣會導致測量結果的不確定性。成像噪聲導致了輸入數據的隨機誤差，計算機的干擾來源于舍入誤差導致的系統誤差和故障性誤差導致的隨機及粗大誤差。針對當前目標定位不確定度評定的需求，為了量化工程現場帶來的不確定度，將測量模型修改為

式中：yr為工程現場對被測量的預測結果，即深度模型輸出的目標像素坐標；f為測量函數，具體表現為神經網絡的結構；xr為包括成像和計算機系統干擾的輸入數據，即現場采集獲取的圖像數據；θr為受計算機系統干擾的神經網絡模型參數；ε 為預測誤差分布。由于深度神經網絡是高度非線性函數，因此可利用MCM進行測量不確定度評定。下文將分析各參數的PDF，并提出適用于基于深度學習的目標定位任務的不確定度計算方法。

（1）輸入數據xr的PDF。

使用MCM 首先需要獲得xr的PDF。舉例來說，對于某真實場景x*～δ（x*），其首先經過成像過程φi得到存在噪聲的圖像分布P（x*，φi），之后圖像被進行數據增強φa得到分布P（x*，φi，φa），同時計算機干擾φp被處理過程引入得到的分布P（x*，φi，φa，φp）。由于真實場景、成像、數據增強和計算機干擾相互獨立，因此的分布生成過程可表示為

（2）模型參數θr的PDF。

目標定位模型參數θr的不確定度來自訓練過程中對θ進行點估計的誤差，以及計算機舍入和故障導致的誤差。對θ點估計的誤差導致了模型擬合訓練數據集的誤差，因此可將訓練過程的干擾作為系統誤差引入測量現場的不確定度分析。對于訓練得到的模型參數θ ～P（θ），計算機運算過程導致的干擾φp會將其轉化為θr～P（θ，φp）。因為模型訓練過程和現場測量過程不相關，所以P（θr）的生成過程可表示為

在確定了θr的PDF 的前提下，同樣可以利用MCM評定θr的不確定度。如2.2 節所述，θ 的分布P（θ）可直接基于貝葉斯推斷的方法獲取，并在評定階段通過在P（θ）內采樣獲得樣本。此外，也可以對模型進行足夠多次的獨立訓練，獲得多組θ作為對P（θ）的采樣。獲得多組θ 后，基于這些參數的多次模型推理過程可作為對計算機干擾P（φp）的采樣，至此完成了對θr的分布P（θ，φp）的采樣。

（3）測量結果yr的不確定度。

5 結束語

為規范且合理地評價基于深度學習的目標定位結果，本文以測量不確定度為切入點，對目標定位技術的指標評定展開討論。首先，對深度學習中目標定位不確定度分析的研究現狀進行了討論，指出當前的研究并未拓展到具體工程環境，僅僅是針對數據擬合過程的不確定度進行分析。然后，對基于深度學習的目標定位技術的誤差來源進行了總結，并對比了該領域當前主流的評價指標與測量不確定度的異同，指出了主流指標缺少對實際應用時測量結果質量的評估。最后，結合測量不確定度評價方法、深度學習不確定度分析技術和深度學習中目標定位的誤差來源，針對基于深度學習的目標定位技術設計規范的不確定度評定方法提出了建議。

本文對深度學習中目標定位技術的測量可靠性進行了系統的分析，可在一定程度上促使新興的基于深度學習的測量技術向工程化、規范化和標準化的應用邁進。除定位技術外，完整的目標檢測任務還應包括分類技術，未來針對分類技術繼續進行不確定度分析是一個有價值的研究方向。