基于光量子計算的信用評分特征篩選研究報告

2022-10-20 04:08:02朱德立

網絡安全與數據管理 2022年9期

文凱，馬寅，王鵬，朱德立

(1.北京玻色量子科技有限公司，北京 100016；2.光大科技有限公司，北京 100083)

0 引言

目前，量子計算是未來的計算發展趨勢,全球各主要研究機構和公司選用不同的物理方案來制造量子計算機，主流的技術路線包括超導量子計算、光量子計算等。超導量子計算系統對環境要求苛刻，要求在絕對零度附近的超低溫下才能工作；光量子計算其原理是使用光量子的疊加態對組合優化問題進行指數級求解加速。基于光量子系統的相干伊辛計算架構(Coherent Ising Machine，CIM)[1]，具有光量子常溫下編碼操控和其在相干時間、室溫工作、全聯接等方面的技術優勢。目前，國內北京玻色量子科技有限公司等企業，已完成第一臺全國產光量子計算原型機的設計制造。

CIM可以充分利用光量子常溫下編碼操控的技術優勢，實現100～100 000量子比特的量子計算的有效應用和算法優越性驗證[2]，并且可以廣泛地應用于生物制藥、交通、人工智能[3-7]等領域。在金融風控領域，特別是在信貸業務場景下，需要利用客戶多維度的特征，對客戶未來的違約行為做出預測，從而進行風險控制決策。因此好的風控評估模型能為銀行風控業務提供從資產負債、信用風險、反欺詐、反洗錢等全方位完整的風險控制方案。在建立風控模型的過程中，隨著大數據時代的到來，客戶數據維度呈指數型增長，傳統的特征篩選方法需要人工經驗的參與，對大維度數據的處理顯得較為吃力，亟需創新式的解決方案。量子計算作為超強算力的代表，在此領域擁有極大的潛力。

在信用評分的建模場景中[8]，特征選擇在整個過程起著至關重要的作用，通過篩選后續入模的特征從而提高模型的準確率和效率，并具有更好的泛化能力。尤其是在特征數較大時，不同特征的選擇將決定最后信用評分模型的整體效果。本文將采用傳統信用評分的建模邏輯，對于特征篩選這一環節，采用量子計算的方式進行優化，從而對整體模型效果進行提升(并與傳統方式的特征選擇進行對比)。通過建立相應的二次無約束二值優化(Quadratic Unbounded Binary Optimization，QUBO)[9]模型來實現特征選擇，該模型理想情況下選擇既獨立又有影響力的特征。此次研究主要通過量子計算解決QUBO模型來實現特征選擇，相比傳統信用評分的特征選擇，在不犧牲準確率的前提下，量子計算效率更高而且人工干擾更少，并在特征數很大時，解決了人工篩選難度大的問題。

1 數據及預處理

本文采用的數據是德國信用數據，其中包括20個特征(7個數字特征，13個分類特征)和1個二元分類特征(良好信用或不良信用)。在此基礎上，本文采用了兩種數據預處理的方式。

方式A：將分類特征進行one-hot編碼[10]，使得特征數增加為48個；

方式B：采用傳統信用評分業務中的建模邏輯，對原始數據進行WOE分箱處理，不改變原有的特征數。

將處理后的數據作為QUBO模型的輸入，用量子計算機求解QUBO模型，輸出選擇后的特征子集。

經過預處理后，得到一個m行，n列的矩陣U，每一列代表一個特征，每一行表示信用申請人的相應數據值。

歷史信用記錄表示為m個元素的向量V：

其中原始數據中代表信用credit的數據值(vi)為01變量，0表示接受，1表示拒絕信貸申請。

在建立QUBO模型時，需要計算特征之間的相關性及每個特征對信用V的相關性，而實驗A、B也采用了不同的處理方式：

實驗A：用斯皮爾曼相關性計算方法

實驗B：沿用斯皮爾曼相關性計算特征之間的相關性，用信息變量(Information Value，IV)值替換特征與信用數據之間的相關性。

2 特征選取

特征選取作為一種數據預處理策略，已被證明可以適用在各種數據挖掘和機器學習問題上，且對最終模型效果起到顯著的作用。特征選擇的目標包括構建更簡單、更容易理解的模型，提高數據挖掘性能，以及準備干凈、可理解的數據。從方法論上講，為了強調傳統數據現有特征選擇算法的異同，一般分為四類[11]：基于相關性[12]、基于信息理論[13]、基于稀疏學習和基于統計的方法[14]。本文主要討論了兩種特征選取策略：基于相關性的傳統特征選取；基于量子計算的特征選取。

2.1 傳統特征選取

假設從n個特征的原始集合中想要選擇具有m個特征的一個子集，用于做出信用決策。首先，通過IV值篩選掉對結果影響不大的冗余特征，在此基礎上選擇出相關性較高的特征對。

2.2 量子特征選取

從數學上講，特征選取的目標將是找到與向量V相關，但彼此不相關的矩陣U的列。令ρij表示矩陣U的第i列與第j列的相關性，ρVj表示U的第j列與V的單列的相關性。為了找到“最佳”子集，本文引入了n個二進制變量xj，它們具有如下數學含義：

將這些元素共同組成向量X，形如：

篩選最佳特征子集，求解最小化目標函數對應的X的值，目標函數由兩部分組成：第一個部分表示特征對被標記的類的影響為：

第二個組成部分代表了獨立性為：

引入參數α(0≤α≤1)以表示獨立性(在α=0時最大)和影響性(在α=1時最大)的相對權重并得到如下的目標函數為：

QUBO模型的數學表達式為：

其中xi為待求二進制變量，取值為{0，1}，qij為二次項系數，為已知量，當i=j時，將簡化為xi。將f(x)寫成線性代數的形式：

通過CIM求解向量X*，從而得到篩選后的特征子集為：

固定超參數α的值后篩選的特征結果如下：

(1)超參數α的值為0.977時，特征選擇從48個特征中得到的特征數量是24個，使得模型的預測準確率達到極大值。由于其中的分類特征經過one-hot編碼之后沒有直觀的意義，在此不再與傳統篩選的特征進行比對，只在后續的準確率計算中進行比對。

(2)超參數α的值為0.97時，特征選擇從20個特征中選取12個特征，統手工篩選出13個特征，如表1所示。

表1 傳統篩選和量子篩選特征結果對比

3 評估指標及實驗結果

信用評分模型的評估是通過未加權精度，即正確分類的數量除以分類的總數，對訓練集和測試集的預測結果進行評分。

零規則：德國信用數據有700個0類樣本(“良好信用”)和300個1類樣本(“不良信用”)。因此，將所有樣本分配給0類的“盲猜模型”將獲得70%的成功率。

本文希望量子特征選擇比零規則和隨機選擇的子集更好，結果可以媲美甚至超過傳統的特征選擇模型。在進行特征選擇之前，首先確定邏輯回歸模型在整個特征集上的表現，平均精度取決于數據被打亂的次數，以及數據如何在訓練集和測試集之間進行分割。

選擇1 000次洗牌和20%的測試份額的組合作為初始性能比較的標準。其他研究表明在德國信用數據上使用傳統的特征選擇準確性得分通常在70%～75%之間，標準差在5%左右。以下的實驗結果均是基于1 000次洗牌和20%的測試份額的初始設置進行，并且根據K-S、ROC以及LR評判模型判斷算法的好壞。

實驗A：用one-hot編碼對原始數據處理后獲得的實驗結果

圖1中，圖1(a)展示了K-S指標，其表示隨著樣本數(% of population)的增加，樣本數中好的百分比和壞的百分比之間的差值的最大值；圖1(b)展示了ROC曲線，陰影部分為AUC面積，代表了隨著FPR的增加TPR的變化，AUC越接近1越好。這兩個值經常用來評判模型區分樣本好壞的程度。表2為具有48個特征的LR模型的準確率，表3為不同的超參數進行量子特征選擇的結果。

圖1 48個特征的LR模型的K-S和ROC

表2 具有48個特征的LR模型的準確率

表3 不同的超參數進行量子特征選擇的結果

不同的超參數進行量子特征選擇的測試集結果如圖2所示，考慮α≥0.9，精度高于零規則結果，從圖2可以看到測試集的效果在α=0.98時達到較好的結果之后開始下降。α=0.98時模型的K-S和ROC如圖3所示，α=0.98時進行量子特征選擇后的模型準確率如表4所示。

圖2 不同的超參數進行量子特征選擇的測試集結果

圖3 α=0.98時模型的K-S和ROC

表4 α=0.98時進行量子特征選擇后的模型準確率

實驗B：用WOE分箱策略預處理數據，獲得的實驗結果如圖4所示，全20個特征代入LR模型的模型準確率如表5所示，不同的超參數進行量子特征選擇的結果如表6所示。

圖4 全20個特征代入LR模型的K-S和ROC

表5 全20個特征代入LR模型的模型準確率

表6 不同的超參數進行量子特征選擇的結果

更進一步得到α=0.98時，測試集的結果表現令人滿意(如圖5所示)，之后的精度增長趨于平緩。將選擇的特征放入LR模型進行訓練，結果如圖6所示，20個特征用量子計算特征選擇之后的模型準確率如表7所示。

表7 α=0.98時進行量子特征選擇的結果

圖5 不同的超參數進行量子特征選擇的結果

圖6 α=0.98時特征篩選后模型的K-S和ROC

4 結論

在與傳統的特征篩選方式進行對比后發現，本文采用的WOE策略與傳統的one-hot編碼相比，結果展示更為直觀。通過量子計算方法篩選得到的特征與傳統方法篩選的特征相比差別極小，在不降低準確率的情況下，基于量子計算的特征選取策略可以減少人為的參與，提高效率并降低對業務人員的依賴，從而減少操作風險。而在K-S以及ROC這兩個評價模型中，量子計算策略是優于傳統篩選策略；在LR評價模型中，量子計算策略和傳統篩選策略效果近似。本文展示了量子計算應用于特征篩選該類特定問題上的可行性，尤其是面對特征數巨大的情況下，量子計算更顯優勢，其超越并替代傳統方法的潛力巨大。

隨著量子計算機和量子計算算法的發展，傳統業務中的一些難題將迎來新的技術解決方案,例如計算成本較大、傳統計算機的并行計算能力不高以及問題最優解優化不夠等問題，都可以通過量子計算來解決。將量子計算運用到金融傳統業務場景中的特定問題上，將是現階段重點探討和未來努力的方向。