大數據背景下ROC曲線介紹與應用

2021-01-04 18:19:37李子言

科教導刊 2021年14期

李子言

摘要ROC曲線是研究二分類問題中一種簡便、高效的綜合性工具，它通過連接真陽率與假陽率在不同切斷點或者閾值下的值，構造出一條單調遞增曲線，曲線下的面積AUC即可作為衡量診斷效果的指標，面積數值越大，則代表該分類方法越有效。ROC曲線在算法效度研究，心理測評，[1]臨床醫學診斷中都有廣泛的應用。本文簡單介紹了ROC曲線的構造方法、基本性質和實際意義，并以生物醫學和機器學習的三個例子深入介紹了不同情形下ROC曲線的應用，最后總結ROC曲線的優缺點和應用場景。

關鍵詞 ROC曲線 AUC生物醫學機器學習二分類

中圖分類號：R195文獻標識碼：ADOI：10.16400/j.cnki.kjdk.2021.14.026

IntroductionandApplicationofROCCurveundertheBackgroundofBigData

LI Ziyan

（School of Mathematics and Statistics， Central China Normal University， Wuhan， Hubei 430079）

AbstractROC curve is a simple and efficient comprehensive tool in the study of binary classification. It constructs a monotonic increasing curve by connecting the true positive rate and false positive rate at different cut-off points or thresholds. The area AUC under the curve can be used as an index to measure the diagnosis effect. The larger the area is，the more effective the classification method is.ROC curve is widely used in algorithm validity research， psychologicalevaluation，clinicaldiagnosis.This paperbriefly introducestheconstructionmethod，basicpropertiesand practical significance of ROC curve， and introduces the application of ROC curve in different situations with three examples ofbiomedicine and machinelearning.Finally， it summarizes theadvantages and disadvantages of ROCcurve and application scenarios.

KeywordsROC curve； AUC； biomedical science； machine learning； dichotomy

1 ROC曲線的介紹

1.1 ROC曲線

ROC曲線（Receiver Operator Characteristic Curve，接收者操作特征曲線）是一種研究二分類問題的有效工具。對于二分類問題，它的樣本只有正樣本和負樣本兩類，但某些情形中，一個實驗可以提供多個結果而不是簡單的正樣本和負樣本，甚至在某些情形中，實驗結果是連續性變量。因此通過以假陽率為橫軸、縱軸為真陽率，ROC曲線可以將不同閾值下計算的準確值指標，比如以識別實驗結果是正樣本或假樣本的不同切斷點（cut-off-point）計算出的準確值指標連成一條曲線，曲線下面積則構成了檢驗整個診斷精度的一個合理指標。[2]ROC曲線常在醫學中確定診斷準則時有重要應用。

在醫學中一個癥狀（或一組癥狀，或篩選檢驗）的真陽率是疾病發生后出現癥狀的概率，又稱為靈敏度。

需要注意的是，顯然在同一種簡單的分類方法中，切斷點越多，對應的ROC曲線下面積越大，因此對比兩種分類方法時，切斷點的數量是固定的。但并不一定要求切斷點數量一致，因為切斷點的數量也可以理解為分類方法的內容之一。通常，我們認為有五個以上切斷點的分類或者連續型數據才有繪制ROC曲線的必要。[3]

當AUC=1時，所使用的分類器被稱為完美分類器，無論什么閾值都能獲得完全準確的預測，但在現實情況中這樣的分類器一般不存在。

當0.5

當AUC=0.5時，使用的分類器與隨機預測相同，類似于丟硬幣，預測正確和錯誤的概率均為50%，該分類器沒有一個好的預測價值。

當AUC<0.5時，使用的分類器比隨機預測效果更差，但此時可以反著預測，則得到0.5

使用AUC的原因是當兩種分類器的ROC曲線相交的時候，很難直觀判斷出哪個分類器的性能更好，而AUC能夠比較數值大小，AUC數值越大則分類器性能越好。

當測試樣本很有限時，ROC曲線圖形是階梯狀的，如圖2，于是計算每個階梯下的小矩形面積之和就可以獲得AUC。

但這個方法實際上計算是比較麻煩的，還有一種ROC AUCH法，與梯形面積法都是以逼近法求近似值。[5]

2大數據背景下ROC曲線的實際應用

2.1精神衛生

中國人的最少精神病測驗（CMMS）由114個項目組成，用于去識別老年性癡呆。這個指標也被延伸且用到臨床。每個老人與精神病醫生及護士談話并被診斷是否有老年性癡呆。表2僅列出一部分正式受過教育的部分老人資料。

改變分界點值，分別取5，10，15，20，25，30，當CMMS合計值小于該分界點者識別為有老年性癡呆，計算真陽率和假陽率構建ROC曲線如圖3。

使用梯形面積法，計算出ROC曲線下的面積s=0.08091，這個面積意味著醫生能按照CMMS分數的相對順序而正確地把一個非老年癡呆患者從老年癡呆患者中識別出來的概率是80.91%。當正常受試者與不正常受試者有相同分數時，學者可以隨機地做決定。

一般情況下，對于相同疾病地兩個篩選檢驗中，ROC曲線下面積大者被認為是較好地檢驗。但在某種特殊情形下可以例外，比如在兩個檢驗比較中，某個值的真陽率或假陽率特別重要時，面積的比較就沒有必要了。

2.2糖尿病預測算法分析

糖尿病是目前世界上較普遍的一種疾病，且發病率和患病率逐年提升，甚至日漸呈現低齡化的趨勢，通過皮瑪族印第安女性糖尿病數據集（PimaIndiansWomenDiabetes）進行分類預測，并繪制不同算法的ROC曲線，可以尋找高效預測糖尿病的算法，提高預測精度，幫助人們盡早發現糖尿病風險。[6]

對于此類算法而言，由于結果與閾值沒有很大聯系，于是可以僅采用一個切斷點，即一次輸出的結果，與原點和（0，1）點連接，得到僅有一個折點的ROC曲線。雖然這樣不能橫向比較同一個算法中不同分類效果的影響，但通過對折線下面積的比較，仍然能縱向比較不同算法的分類效果。

如果基于30%的測試集迭代隨機森林、隨機森林、K最近鄰、支持向量機、Logistic回歸、梯度提升機、決策樹和人工神經網絡分類模型分別畫出ROC曲線。[7]當一條曲線完全包裹另一條曲線時，則認為該算法更優，而本例得到的結果中，迭代隨機森林、隨機森林和K最近鄰三個分類模型的ROC曲線包裹了其他曲線且相交，無法直觀判斷算法優良性。此時便借助AUC值，由于這里只有一個折點，通過梯形面積法很快地就能獲得這三種算法的AUC值，迭代隨機森林的AUC值為0.7427，高于K最近鄰的0.7407和隨機森林的0.7368。因此下結論，認為迭代森林算法在該數據的分類上有最優秀的效果。

2.3人臉識別

在人臉識別技術中，ROC曲線也有重要應用，在人臉檢測數據集和基準官方網站（FDDB）中，對于不同的人臉檢測技術，并考慮閾值，繪制ROC曲線，得到圖4。

圖中，橫軸是誤報數，縱軸是檢測率，不同曲線代表著不同人臉識別算法。其中ROC曲線越陡峭，越高的算法性能更好，于是該圖能簡明快速地幫助學者尋找性能最好的人臉識別算法。

3 ROC曲線的優缺點

3.1優點

（1）直觀，ROC曲線將靈敏度和特異度以曲線圖像的形式綜合分析，可以肉眼觀察分類模型的性能。

（2）平衡性好，ROC曲線繪制過程中同時考慮到正樣本和負樣本，且即使正樣本與負樣本的比例發生了很大變化，ROC曲線也不會產生大的變化。

（3）簡單，ROC曲線所采用的兩個指標，TPR和FPR都不依賴于樣本具體的分布。

3.2缺點

ROC曲線對類分布的改變不敏感。[8]

這點既是優點也是缺點。類分布就是測試集中正例和負例的比例。在實際應用中，類分布的不平衡現象非常廣泛，類分布不平衡程度達到1：10，1：100的情況非常常見，有的甚至達到1：106。

一方面，這種嚴重的不平衡的類分布使得一些傳統的評價標準不再適用，而ROC曲線由于不受類分布的影響，適合于評估、比較這種不平衡數據集。另一方面，當模型分類中主要關心正例的預測準確性時，ROC曲線便不好應用。并且如果負例的數目眾多，會使得，FPR的增長不明顯，導致ROC曲線呈現一個過分樂觀的效果估計，大量負例被錯判成正例，在ROC曲線上卻無法直觀地看出來。

在大數據分析中，ROC曲線是一種非常形象直觀、操作簡單的方法，受到很多數據分析師的青睞。[9]

參考文獻

[1]郭秀艷，楊治良.實驗心理學.人民教育出版社，2004：292-295.

[2]伯納德·羅斯納著.生物統計學基礎（第五版）.孫尚拱譯.科學出版社，2020.7.

[3]王曼，徐春燕，施學忠.醫學論文中ROC曲線應用錯誤例析.編輯學報，2019，（02）：159-161.

[4]雷明.機器學習與應用.清華大學出版社，2019.1.

[5]分類學習算法的性能度量指標綜述，楊杏麗，計算機科學，網絡首發2021-04-21.

[6]王成武，晏峻峰.早期糖尿病風險預測模型的比較研究，智能計算機與應用. 2021，（01）.

[7]劉文博，梁盛楠，秦喜文，等.基于迭代隨機森林算法的糖尿病預測，長春工業大學學報，2019，40（06），604-611.

[8]J-JunLiang.P-R曲線與ROC曲線使用總結. https：//blog.csdn.net/ jliang3/article/details/88881315.

[9]Two sensitivity orders applied to the comparison of ROC curves，Ramos HéctorM.； Ollero Jorge； Suárez Llorens Alfonso，Communications inStatistics -Theory andMethods，Volume50，Issue 8. 2021. PP 1884-1896.