999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類需求背后的真實用戶想法—UC vs. Macro F1,辨析真正的分類評價標準

2018-06-17 10:48:32王悅林
科學與技術 2018年24期
關鍵詞:分類情境用戶

摘要:在人工智能領域,分類任務占據了很大的比例,例如物體識別(計算機視覺)、信用卡欺詐(數值型預測)、情感分析(自然語言處理)等等。針對眾多的分類需求,模型的評價標準只是簡單的準確率(Accuracy)嗎? AUC和Macro F1,誰才是真正的分類評價標準呢?

對于業務用戶來說,希望技術團隊完成的是正確分類,然后要求準一點。那么什么是準一點呢?也許用戶還沒有意識到這個問題的復雜性,或者說沒有意識到他們真正關心的是什么。

準一點就是準確度(Accuracy),也就是說用戶給了我們數據,我們分好類把答卷交給用戶,用戶判卷子的結果。一般情況下這樣的評估方式是合理的,但也有特殊的例子,例如真實的正負類比例是98比2,那么模型只要把所有的數據都判別為正類,準確率就是98%,非常高,但一個負類都挑不出來。

為了更方便描述問題,我們按下表把實際的正負類和判斷的正負類分成四種情況,分別是TP、FP、FN、TN,那么準確率Accuracy就是(TP+TN)/ ALL。要提升準確率,就要降低左下角的FP(也就是誤判,把不該判斷為正類的誤判為了正類)和右上角的FN(也就是漏判,把應該判斷為正類的漏判為了負類)。下表也被稱作混淆矩陣(Confusion matrix)。

那么用戶實際關注的是什么呢?舉兩個例子。例如各大網站的商品推薦,建立一個模型的目的是盡量將正確的商品推薦給感興趣的用戶,如果推了一個產品用戶沒有興趣,也不會有很大損失,這種情境下用戶對于錯誤的推薦并不會很在意。這是一種情境。

而如果是欺詐、垃圾郵件、還款逾期判別的模型,對識別的用戶和郵件會直接進行處理,被錯判為欺詐的用戶可能非常惱怒,被錯判為垃圾郵件也許會直接影響用戶工作。這種情況下寧可遺漏,也要減少誤判。這是第二種情境。

這兩種情境,用戶關注點并不相同,情境一關注的是不要遺漏,可推薦可不推薦的都要給用戶推薦過去。情境二關注的是誤判,拿不準的寧可漏掉,也不要錯誤判定。使用技術語言,情境一關注的是查全率:Recall or TPR = TP/(TP+FN),情境二關注的是精確率:Precision = TP/(TP+FP)。那有沒有平衡這兩種評價標準的指標呢?有,就是F Measure,簡化版本為F1。在多分類中,又細化為Micro F1和Macro F1。

到此天下太平,拿到需求只要跟用戶確認好關注的是Recall,還是Precision就好。然而,新的搗亂分子出現了,那就是AUC:Area Under Curve。

AUC是反映ROC曲線下面的面積,面積越大,模型質量越好。而這個面積是由ROC曲線決定的。而組成ROC曲線的每一個點,是由TPR和FPR來決定。TPR和FPR,指的是TP的比率和FP的比率。TPR = TP/(TP+FN),其實就是Recall。而FPR是個新面孔,FPR=FP/(FP+TN)。如果全部分類正確,則TPR為1,FPR為0,ROC曲線的左上角就是坐標為0,1的點,此時AUC為1。

那么AUC和F1的區別是什么呢?AUC關注的是混淆矩陣里左右兩邊的關系,即放到正類答卷里的數據多,還是放到負類卷子里的數據多。

而F1關注的是正類被誤判的多還是漏判的多:

那么AUC里為什么正類答卷和負類答卷的數據是變化的呢?因為AUC是在并不假設閾值是固定的前提下判斷模型質量。這里的閾值是指,模型判斷一行數據是正類還是負類時,是概率大于50%判斷為正類?還是大于60%判斷為正類?在這個閾值不固定的情況下,AUC仍可以判斷模型質量,并且可以使用KS(Kolmogorov-Smirnov)來幫助查找最優閾值:KS=max(TPR-FPR)。可以說ROC曲線是由多個閾值形成的多個混淆矩陣的結果組合成的。而F1是指在閾值已經固定的前提下,判斷模型質量。因而AUC更公正和合理一些。

總結一下,正確的做法是用AUC評價模型能力,選取好的模型之后根據實際需求確定閾值,再用Macro F1計算性能指標。

參考文獻

[1]Alex Beutel,Jilin Chen,Zhe Zhao,and Ed H. Chi. 2017. Data Decisions and Theoretical Implications when Adversarially Learning Fair Representations. CoRR abs/1707.00075(2017). http://arxiv.org/abs/1707.00075

[2]Daniel Borkan,Lucas Dixon,John Li,Jeffrey Sorensen,Nithum Thain,and Lucy Vasserman. 2019. Limitations of Pinned AUC for Measuring Unintended Bias. CoRR abs/1903.02088,1903.02088v2(2019). arXiv:1903.02088v2

[3]Tim Brennan,William Dieterich,and Beate Ehret. 2009. Evaluating the Predictive Validity of the Compas Risk and Needs Assessment System. Criminal Justice and Behavior 36,1(2009),21–40. https://doi.org/10.1177/0093854808326545

[4]Joy Buolamwini and Timnit Gebru. 2018. Gender Shades:Intersectional Accuracy Disparities in Commercial Gender Classification. In Proceedings of the 1st Conference on Fairness,Accountability and Transparency(Proceedings of Machine Learning Research),Sorelle A. Friedler and Christo Wilson(Eds.),Vol. 81. PMLR,New York,NY,USA,77–91. http://proceedings.mlr.press/v81/buolamwini18a.html

作者簡介:王悅林,研究方向:人工智能。

(作者單位:聯想集團)

猜你喜歡
分類情境用戶
情境引領追問促深
不同情境中的水
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
護患情境會話
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
特定情境,感人至深
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 国产高清在线丝袜精品一区| 尤物国产在线| 幺女国产一级毛片| 国产熟睡乱子伦视频网站| 久久成人免费| 精品三级在线| 免费国产高清精品一区在线| 激情午夜婷婷| 日韩精品毛片| 99国产精品免费观看视频| 国产成人精品高清不卡在线| 九色免费视频| 亚洲天堂777| 亚洲一区二区三区麻豆| 亚洲AV无码一区二区三区牲色| 久久国产成人精品国产成人亚洲| 性激烈欧美三级在线播放| 秋霞一区二区三区| 成年女人a毛片免费视频| 欧洲免费精品视频在线| 男人天堂亚洲天堂| 欧美视频在线第一页| 亚洲午夜福利在线| 国产精品偷伦在线观看| 亚洲欧美综合在线观看| 黄色网址手机国内免费在线观看| 99久久精品久久久久久婷婷| 国产高清在线精品一区二区三区 | 亚洲男人天堂2018| 女人18毛片一级毛片在线| 五月六月伊人狠狠丁香网| 久久免费视频播放| 91麻豆精品国产91久久久久| 免费观看欧美性一级| 欧美在线视频不卡第一页| 欧美有码在线观看| 中文成人在线| 精品视频在线一区| 先锋资源久久| 国产小视频在线高清播放 | 伊人久久婷婷五月综合97色| 中文字幕在线观| 亚洲第一黄色网| 成人精品免费视频| 精品国产美女福到在线不卡f| 久久亚洲中文字幕精品一区| 国产内射在线观看| 午夜精品福利影院| 国产导航在线| 国产高清在线精品一区二区三区| 久久精品人人做人人| 精品国产免费第一区二区三区日韩| 特级毛片8级毛片免费观看| 国产白浆在线| 国产在线无码一区二区三区| 亚洲精品欧美重口| 天天摸夜夜操| 日韩毛片视频| 亚洲成av人无码综合在线观看| 久久国产亚洲欧美日韩精品| 日本高清免费不卡视频| 22sihu国产精品视频影视资讯| 国产污视频在线观看| 免费A∨中文乱码专区| 色视频国产| 美女毛片在线| 久久精品免费国产大片| 97国产在线视频| 国产精品无码久久久久久| 国产乱肥老妇精品视频| 国产精品综合色区在线观看| 伊人无码视屏| 国产精品开放后亚洲| 国产精品久久久久久久久久98| 亚洲天堂视频在线播放| 日韩高清无码免费| 亚洲中文久久精品无玛| 青青草一区二区免费精品| 久久综合结合久久狠狠狠97色| 在线国产91| 欧美成人一级| 这里只有精品在线播放|