999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下ROC曲線介紹與應用

2021-01-04 18:19:37李子言
科教導刊 2021年14期
關鍵詞:機器學習

李子言

摘要ROC曲線是研究二分類問題中一種簡便、高效的綜合性工具,它通過連接真陽率與假陽率在不同切斷點或者閾值下的值,構造出一條單調遞增曲線,曲線下的面積AUC即可作為衡量診斷效果的指標,面積數值越大,則代表該分類方法越有效。ROC曲線在算法效度研究,心理測評,[1]臨床醫學診斷中都有廣泛的應用。本文簡單介紹了ROC曲線的構造方法、基本性質和實際意義,并以生物醫學和機器學習的三個例子深入介紹了不同情形下ROC曲線的應用,最后總結ROC曲線的優缺點和應用場景。

關鍵詞 ROC曲線 AUC生物醫學 機器學習 二分類

中圖分類號:R195文獻標識碼:ADOI:10.16400/j.cnki.kjdk.2021.14.026

IntroductionandApplicationofROCCurveundertheBackgroundofBigData

LI Ziyan

(School of Mathematics and Statistics, Central China Normal University, Wuhan, Hubei 430079)

AbstractROC curve is a simple and efficient comprehensive tool in the study of binary classification. It constructs a monotonic increasing curve by connecting the true positive rate and false positive rate at different cut-off points or thresholds. The area AUC under the curve can be used as an index to measure the diagnosis effect. The larger the area is,the more effective the classification method is.ROC curve is widely used in algorithm validity research, psychologicalevaluation,clinicaldiagnosis.This paperbriefly introducestheconstructionmethod,basicpropertiesand practical significance of ROC curve, and introduces the application of ROC curve in different situations with three examples ofbiomedicine and machinelearning.Finally, it summarizes theadvantages and disadvantages of ROCcurve and application scenarios.

KeywordsROC curve; AUC; biomedical science; machine learning; dichotomy

1 ROC曲線的介紹

1.1 ROC曲線

ROC曲線(Receiver Operator Characteristic Curve,接收者操作特征曲線)是一種研究二分類問題的有效工具。對于二分類問題,它的樣本只有正樣本和負樣本兩類,但某些情形中,一個實驗可以提供多個結果而不是簡單的正樣本和負樣本,甚至在某些情形中,實驗結果是連續性變量。因此通過以假陽率為橫軸、縱軸為真陽率,ROC曲線可以將不同閾值下計算的準確值指標,比如以識別實驗結果是正樣本或假樣本的不同切斷點(cut-off-point)計算出的準確值指標連成一條曲線,曲線下面積則構成了檢驗整個診斷精度的一個合理指標。[2]ROC曲線常在醫學中確定診斷準則時有重要應用。

在醫學中一個癥狀(或一組癥狀,或篩選檢驗)的真陽率是疾病發生后出現癥狀的概率,又稱為靈敏度。

需要注意的是,顯然在同一種簡單的分類方法中,切斷點越多,對應的ROC曲線下面積越大,因此對比兩種分類方法時,切斷點的數量是固定的。但并不一定要求切斷點數量一致,因為切斷點的數量也可以理解為分類方法的內容之一。通常,我們認為有五個以上切斷點的分類或者連續型數據才有繪制ROC曲線的必要。[3]

當AUC=1時,所使用的分類器被稱為完美分類器,無論什么閾值都能獲得完全準確的預測,但在現實情況中這樣的分類器一般不存在。

當0.5

當AUC=0.5時,使用的分類器與隨機預測相同,類似于丟硬幣,預測正確和錯誤的概率均為50%,該分類器沒有一個好的預測價值。

當AUC<0.5時,使用的分類器比隨機預測效果更差,但此時可以反著預測,則得到0.5

使用AUC的原因是當兩種分類器的ROC曲線相交的時候,很難直觀判斷出哪個分類器的性能更好,而AUC能夠比較數值大小,AUC數值越大則分類器性能越好。

當測試樣本很有限時,ROC曲線圖形是階梯狀的,如圖2,于是計算每個階梯下的小矩形面積之和就可以獲得AUC。

但這個方法實際上計算是比較麻煩的,還有一種ROC AUCH法,與梯形面積法都是以逼近法求近似值。[5]

2大數據背景下ROC曲線的實際應用

2.1精神衛生

中國人的最少精神病測驗(CMMS)由114個項目組成,用于去識別老年性癡呆。這個指標也被延伸且用到臨床。每個老人與精神病醫生及護士談話并被診斷是否有老年性癡呆。表2僅列出一部分正式受過教育的部分老人資料。

改變分界點值,分別取5,10,15,20,25,30,當CMMS合計值小于該分界點者識別為有老年性癡呆,計算真陽率和假陽率構建ROC曲線如圖3。

使用梯形面積法,計算出ROC曲線下的面積s=0.08091,這個面積意味著醫生能按照CMMS分數的相對順序而正確地把一個非老年癡呆患者從老年癡呆患者中識別出來的概率是80.91%。當正常受試者與不正常受試者有相同分數時,學者可以隨機地做決定。

一般情況下,對于相同疾病地兩個篩選檢驗中,ROC曲線下面積大者被認為是較好地檢驗。但在某種特殊情形下可以例外,比如在兩個檢驗比較中,某個值的真陽率或假陽率特別重要時,面積的比較就沒有必要了。

2.2糖尿病預測算法分析

糖尿病是目前世界上較普遍的一種疾病,且發病率和患病率逐年提升,甚至日漸呈現低齡化的趨勢,通過皮瑪族印第安女性糖尿病數據集(PimaIndiansWomenDiabetes)進行分類預測,并繪制不同算法的ROC曲線,可以尋找高效預測糖尿病的算法,提高預測精度,幫助人們盡早發現糖尿病風險。[6]

對于此類算法而言,由于結果與閾值沒有很大聯系,于是可以僅采用一個切斷點,即一次輸出的結果,與原點和(0,1)點連接,得到僅有一個折點的ROC曲線。雖然這樣不能橫向比較同一個算法中不同分類效果的影響,但通過對折線下面積的比較,仍然能縱向比較不同算法的分類效果。

如果基于30%的測試集迭代隨機森林、隨機森林、K最近鄰、支持向量機、Logistic回歸、梯度提升機、決策樹和人工神經網絡分類模型分別畫出ROC曲線。[7]當一條曲線完全包裹另一條曲線時,則認為該算法更優,而本例得到的結果中,迭代隨機森林、隨機森林和K最近鄰三個分類模型的ROC曲線包裹了其他曲線且相交,無法直觀判斷算法優良性。此時便借助AUC值,由于這里只有一個折點,通過梯形面積法很快地就能獲得這三種算法的AUC值,迭代隨機森林的AUC值為0.7427,高于K最近鄰的0.7407和隨機森林的0.7368。因此下結論,認為迭代森林算法在該數據的分類上有最優秀的效果。

2.3人臉識別

在人臉識別技術中,ROC曲線也有重要應用,在人臉檢測數據集和基準官方網站(FDDB)中,對于不同的人臉檢測技術,并考慮閾值,繪制ROC曲線,得到圖4。

圖中,橫軸是誤報數,縱軸是檢測率,不同曲線代表著不同人臉識別算法。其中ROC曲線越陡峭,越高的算法性能更好,于是該圖能簡明快速地幫助學者尋找性能最好的人臉識別算法。

3 ROC曲線的優缺點

3.1優點

(1)直觀,ROC曲線將靈敏度和特異度以曲線圖像的形式綜合分析,可以肉眼觀察分類模型的性能。

(2)平衡性好,ROC曲線繪制過程中同時考慮到正樣本和負樣本,且即使正樣本與負樣本的比例發生了很大變化,ROC曲線也不會產生大的變化。

(3)簡單,ROC曲線所采用的兩個指標,TPR和FPR都不依賴于樣本具體的分布。

3.2缺點

ROC曲線對類分布的改變不敏感。[8]

這點既是優點也是缺點。類分布就是測試集中正例和負例的比例。在實際應用中,類分布的不平衡現象非常廣泛,類分布不平衡程度達到1:10,1:100的情況非常常見,有的甚至達到1:106。

一方面,這種嚴重的不平衡的類分布使得一些傳統的評價標準不再適用,而ROC曲線由于不受類分布的影響,適合于評估、比較這種不平衡數據集。另一方面,當模型分類中主要關心正例的預測準確性時,ROC曲線便不好應用。并且如果負例的數目眾多,會使得,FPR的增長不明顯,導致ROC曲線呈現一個過分樂觀的效果估計,大量負例被錯判成正例,在ROC曲線上卻無法直觀地看出來。

在大數據分析中,ROC曲線是一種非常形象直觀、操作簡單的方法,受到很多數據分析師的青睞。[9]

參考文獻

[1]郭秀艷,楊治良.實驗心理學.人民教育出版社,2004:292-295.

[2]伯納德·羅斯納著.生物統計學基礎(第五版).孫尚拱譯.科學出版社,2020.7.

[3]王曼,徐春燕,施學忠.醫學論文中ROC曲線應用錯誤例析.編輯學報,2019,(02):159-161.

[4]雷明.機器學習與應用.清華大學出版社,2019.1.

[5]分類學習算法的性能度量指標綜述,楊杏麗,計算機科學,網絡首發2021-04-21.

[6]王成武,晏峻峰.早期糖尿病風險預測模型的比較研究,智能計算機與應用. 2021,(01).

[7]劉文博,梁盛楠,秦喜文,等.基于迭代隨機森林算法的糖尿病預測,長春工業大學學報,2019,40(06),604-611.

[8]J-JunLiang.P-R曲線與ROC曲線使用總結. https://blog.csdn.net/ jliang3/article/details/88881315.

[9]Two sensitivity orders applied to the comparison of ROC curves,Ramos HéctorM.; Ollero Jorge; Suárez Llorens Alfonso,Communications inStatistics -Theory andMethods,Volume50,Issue 8. 2021. PP 1884-1896.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产精品林美惠子在线播放| 亚洲日韩精品伊甸| 亚洲欧美日韩另类| 亚洲bt欧美bt精品| 熟女成人国产精品视频| 久久综合色天堂av| 久久精品人人做人人爽| 国产免费看久久久| 日韩无码黄色网站| 福利一区三区| 国产成人免费手机在线观看视频| 国产精品亚洲日韩AⅤ在线观看| 99这里只有精品6| 成AV人片一区二区三区久久| 免费人成视网站在线不卡| 色久综合在线| 精品欧美一区二区三区在线| 蜜桃视频一区二区三区| 91久久国产综合精品女同我| 无码网站免费观看| 国产亚洲精品yxsp| 97超碰精品成人国产| 美女毛片在线| 青青草原国产免费av观看| 久久一本日韩精品中文字幕屁孩| 久视频免费精品6| 99精品视频播放| 91精品国产91欠久久久久| 国产精品主播| 亚洲成年人网| 亚洲美女高潮久久久久久久| 日本欧美在线观看| 精品福利网| 中文字幕久久亚洲一区| 国产激情影院| 国产精品性| 亚卅精品无码久久毛片乌克兰| 乱色熟女综合一区二区| 啊嗯不日本网站| 亚洲天堂777| 国产夜色视频| 午夜精品福利影院| 五月天久久综合| 毛片国产精品完整版| 国精品91人妻无码一区二区三区| 国产成人精品综合| 亚洲人成影视在线观看| 亚洲区欧美区| 五月激情婷婷综合| 91蝌蚪视频在线观看| 午夜欧美理论2019理论| 日日噜噜夜夜狠狠视频| 亚洲欧美在线看片AI| 天天躁夜夜躁狠狠躁图片| 国产h视频免费观看| 亚洲福利视频一区二区| 久热re国产手机在线观看| 色天堂无毒不卡| 国产人妖视频一区在线观看| 制服丝袜一区| 91精品国产91久久久久久三级| 免费人成在线观看成人片| 欧美成人一区午夜福利在线| 日韩av在线直播| 性视频久久| 中文字幕丝袜一区二区| 少妇精品久久久一区二区三区| 亚洲a级在线观看| 免费99精品国产自在现线| 青青国产视频| 久久成人国产精品免费软件| 亚洲视频在线网| 小13箩利洗澡无码视频免费网站| 国产毛片基地| 午夜a视频| 98超碰在线观看| 日本色综合网| 一区二区三区精品视频在线观看| 国产福利一区在线| 中文成人无码国产亚洲| 国产成人精品一区二区| 国产日本视频91|