王秋爽 趙航 肖立山
1. 公安部戶政管理研究中心 2. 湖南省公安廳

居民身份證登記指紋工作開展以來,已經制發登記指紋信息居民身份證(以下簡稱“指紋證”)5億余張。隨著指紋證發放數量的累積,社會各用證部門和單位也逐步試點使用指紋比對核驗設備進行“人證一致性”驗證,指紋證即將在社會上廣泛使用,這對指紋圖像采集質量提出了很高要求。
為全面認識、掌握并提高各省的居民身份證指紋圖像采集質量,更好地滿足指紋證社會應用需要,有必要對指紋圖像質量的影響因素進行定性和定量的分析。
根據指紋學和指紋比對技術相關研究,影響指紋比對應用效果的主要因素是指紋圖像的采集質量。從2013年開始,公安部第一研究所組織有關專家針對證件指紋圖像質量評分規則、方法、工具進行了專門的研究[1-4],提出評價證件指紋算法的關鍵指標為注冊失敗率、等錯誤率、錯誤拒絕率為某值下的錯誤接受率、響應時間等技術指標,并基于此評價體系提出指紋圖像質量的評分方法和工具。本文基于上述評分工具的評分結果,通過對某省16,496,113個居民身份證指紋圖像進行全量統計,根據專家經驗法判定影響圖像質量的主要因素有采集季節、被采集人群、采集設備、采集指位等4類。
某省的指紋圖像質量明顯受季節因素影響很大,五月至十月的指紋圖像質量均值普遍高于全國均值,也高于冬季的十一月至二月。

被采集人群在16至25歲年齡段的指紋圖像質量最好,26至45歲年齡段的指紋圖像質量次之,46歲以上中老年人的指紋圖像質量再其次,小于15歲未成年人的指紋圖像質量最差。被采集人群性別、民族因素對指紋圖像質量沒有明顯影響。


某省的采集設備類型包括光學型和電容型兩種,為了比較兩種設備類型與指紋質量的相關性,均選取對應設備使用期間和采集人次的四分位數進行比較。總體來看,電容型設備的質量評分普遍高于光學型,但采集質量沒有光學型穩定。


通過對某省所有類型采集設備的使用期間和采集人次統計,指紋圖像質量均值和方差,與使用期間的長短呈現出明顯的負相關,與采集人次的多少呈現出輕微的負相關,即使用時間更長的設備采集的指紋圖像質量更低。


采集指位因素對指紋圖像質量的影響非常明顯,從拇指到小指的指紋圖像質量依次降低。

采用多元線性回歸方法對某省居民身份證指紋圖像質量評分進行定量分析,回歸方程用于解釋在指紋圖像質量評分結果中,各種影響因素對評分的定量影響程度。
研究一個因變量、與兩個或兩個以上自變量的回歸,稱為多元線性回歸,是反映一種現象或事物的數量依多種現象或事物的數量的變動而相應變動的規律,是建立多個變量之間線性或非線性數學模型數量關系式的統計方法。
多元線性回歸方程如下:

其中:Yi: 因變量;X1i~Xki: 自變量;β0~βk:回歸系數,μi:誤差,i: 樣本數,1,2,...,n; k:自變量個數。
多元線性回歸分析是一種廣泛使用的定量分析工具,線性依賴于其未知參數的模型比非線性依賴于其未知參數的模型更容易擬合,產生的統計特性更容易確定,其回歸結果便于評判和解釋。
對多元非線性回歸模型求解的傳統做法,仍然是想辦法把它轉化成標準線性形式的多元回歸模型來處理。因此多元線性回歸分析對于非線性關系同樣適用,回歸結果的可決系數R2用于參考,但用于解釋因變量的影響因素依然適用。
結合上一部分對指紋圖像采集質量影響因素的定性分析結論,本文對某省15,016,845個指紋圖像進行了統計和整理,選取多個影響因素的自變量,得到用于分析導致指紋圖像質量降低原因的樣本數據。

1. 篩選對指紋評分影響大的自變量并采用逐步回歸法進行回歸
多元線性回歸的平方和分解公式為:

其中,SST:總平方和;SSR:回歸平方和;SSE:誤差平方和。
由上式可知,理想中的多元線性回歸模型既需要有盡可能低的誤差,又需要有盡可能少的自變量。因此,篩選自變量采用一元線性回歸的方法,選取可決系數R2>0.01,在指紋質量評分低于平均值的區間篩選出19個對指紋評分影響大的自變量。
通過對篩選后的變量進行線性回歸,可以得到第一次回歸結果。

?
2. 判斷回歸結果是否出現多重共線性
采用觀察回歸結果的異常點并結合相關系數的方法來判斷回歸結果是否出現多重共線性。T檢驗的顯著性水平一般取0.05。
觀察表2得到的回歸結果發現,可決系數R2較高,但是存在自變量X17、X18的回歸系數T檢驗的P值大于0.05,也就是T檢驗不顯著的情況。初步判定存在多重共線性問題。
如果多個變量之間存在較強的共線性,則它們的回歸系數是不確定的,且回歸系數的方差會很大,也就是回歸結果不確定。因此,需要采取多種方法減輕或消除多重共線性問題。
經觀察相關系數矩陣發現,多個自變量之間存在很強的相關性。

3. 降低或消除多重共線性
為了降低或消除多元線性回歸中的多重共線性影響,本文采用計算自變量關聯矩陣的特征值和特征向量,以及加入L2范數懲罰項的嶺回歸方法,剔除自變量并優化最終回歸結果。對于嶺回歸過程采用生成并觀察嶺跡圖來選擇超參數alpha的方法。基本原則為:
(1)各回歸系數的嶺估計基本穩定;
(2)不存在有明顯不符合常理的回歸參數,嶺估計的符號要合理;
(3)回歸系數沒有不合實際意義的絕對值;
(4)殘差平方和增大不多。
根據以上原則,最終確定嶺回歸超參數alpha=10-5。

4. 得到最終回歸結果
通過多次處理并明顯降低了多重共線性的影響后,最終得到在指紋評分區間內的回歸結果。該結果共包括27個自變量,回歸的可決系數R2相對較高,且均通過了F檢驗和T檢驗,證明該回歸結果較穩定,且能夠明確地定量解釋導致指紋圖像質量降低的主要因素。

?

?

通過對某省居民身份證指紋圖像采集質量數據的多元線性回歸分析發現:
(1)與指紋質量評分負相關的因素主要是采集開始時間距現在天數,即采集器啟用的越早,指紋質量評分會逐步降低。
(2)在采集設備方面,與指紋質量評分負相關的因素主要是采集設備廠商編碼和采集設備型號。采集設備廠商編碼是一個9位的數字串,按認證通過時間頒發,從小到大;采集設備型號與采集設備廠商相關[5]。也就是說隨著采集設備廠商編碼逐步增大,指紋質量評分會逐漸降低。與指紋質量評分正相關的因素是采集設備類型,依次為未知、光學、電容三類。正相關說明電容和光學相比能取得更好的指紋質量評分。
(3)從被采集人角度來看,與指紋質量評分負相關的因素主要是采集年齡≤10歲、采集年齡≥36歲且≤45歲、采集年齡≥66歲的人群。這三類人群的指紋采集數量越多,質量評分越低。
(4)體現季節因素的采集時間,與指紋質量評分負相關的主要是11月份、12月份采集的指紋數量,即這兩個月采集的指紋數量越多,質量評分越低。
(5)從采集指位來看,與指紋質量評分負相關的因素主要是右手的拇指、中指、無名指、小指和左手的中指、小指。
通過對上述某省居民身份證指紋圖像采集質量的主要影響因素進行分析,可以提出幾點改進相關工作的方法和建議:
(1)指紋采集設備最早啟用時間,是導致指紋圖像質量降低的主要影響因素之一。為保持較高的指紋采集質量,建議有條件的單位及時更換啟用時間較早的采集設備。
(2)指紋采集設備廠商編碼的大小代表設備廠商通過認證時間的先后。分析結果表明早期通過認證的指紋采集設備廠商,其設備采集的指紋圖像質量較高。因此,建議后續認證通過的設備廠商提升產品質量或改進現有服務。
(3)被采集人群年齡在“≤10歲”、“≥36歲且≤45歲”、“≥66歲”這三個區間的指紋圖像質量較低,需要在辦證時予以重點關注,可采用一些提高指紋采集質量的方法,例如保持手指濕潤、增加采集次數等[4]。
(4)指位對指紋采集質量有一定的影響,建議盡量避免采集對指紋質量造成負面影響指位的指紋。
本文通過定性和定量分析的方法,對某省居民身份證指紋圖像采集質量的影響因素進行研究。其中,采用多元線性回歸的方法可以整體統計和評估居民身份證指紋圖像質量數據的現實情況,較為明確地找出導致指紋圖像采集質量降低的主要因素。
本文采用的方法也適用于評估其他省份的居民身份證指紋圖像采集數據。