999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類需求背后的真實用戶想法—UC vs. Macro F1,辨析真正的分類評價標準

2018-06-17 10:48:32王悅林
科學與技術 2018年24期
關鍵詞:分類情境用戶

摘要:在人工智能領域,分類任務占據了很大的比例,例如物體識別(計算機視覺)、信用卡欺詐(數值型預測)、情感分析(自然語言處理)等等。針對眾多的分類需求,模型的評價標準只是簡單的準確率(Accuracy)嗎? AUC和Macro F1,誰才是真正的分類評價標準呢?

對于業務用戶來說,希望技術團隊完成的是正確分類,然后要求準一點。那么什么是準一點呢?也許用戶還沒有意識到這個問題的復雜性,或者說沒有意識到他們真正關心的是什么。

準一點就是準確度(Accuracy),也就是說用戶給了我們數據,我們分好類把答卷交給用戶,用戶判卷子的結果。一般情況下這樣的評估方式是合理的,但也有特殊的例子,例如真實的正負類比例是98比2,那么模型只要把所有的數據都判別為正類,準確率就是98%,非常高,但一個負類都挑不出來。

為了更方便描述問題,我們按下表把實際的正負類和判斷的正負類分成四種情況,分別是TP、FP、FN、TN,那么準確率Accuracy就是(TP+TN)/ ALL。要提升準確率,就要降低左下角的FP(也就是誤判,把不該判斷為正類的誤判為了正類)和右上角的FN(也就是漏判,把應該判斷為正類的漏判為了負類)。下表也被稱作混淆矩陣(Confusion matrix)。

那么用戶實際關注的是什么呢?舉兩個例子。例如各大網站的商品推薦,建立一個模型的目的是盡量將正確的商品推薦給感興趣的用戶,如果推了一個產品用戶沒有興趣,也不會有很大損失,這種情境下用戶對于錯誤的推薦并不會很在意。這是一種情境。

而如果是欺詐、垃圾郵件、還款逾期判別的模型,對識別的用戶和郵件會直接進行處理,被錯判為欺詐的用戶可能非常惱怒,被錯判為垃圾郵件也許會直接影響用戶工作。這種情況下寧可遺漏,也要減少誤判。這是第二種情境。

這兩種情境,用戶關注點并不相同,情境一關注的是不要遺漏,可推薦可不推薦的都要給用戶推薦過去。情境二關注的是誤判,拿不準的寧可漏掉,也不要錯誤判定。使用技術語言,情境一關注的是查全率:Recall or TPR = TP/(TP+FN),情境二關注的是精確率:Precision = TP/(TP+FP)。那有沒有平衡這兩種評價標準的指標呢?有,就是F Measure,簡化版本為F1。在多分類中,又細化為Micro F1和Macro F1。

到此天下太平,拿到需求只要跟用戶確認好關注的是Recall,還是Precision就好。然而,新的搗亂分子出現了,那就是AUC:Area Under Curve。

AUC是反映ROC曲線下面的面積,面積越大,模型質量越好。而這個面積是由ROC曲線決定的。而組成ROC曲線的每一個點,是由TPR和FPR來決定。TPR和FPR,指的是TP的比率和FP的比率。TPR = TP/(TP+FN),其實就是Recall。而FPR是個新面孔,FPR=FP/(FP+TN)。如果全部分類正確,則TPR為1,FPR為0,ROC曲線的左上角就是坐標為0,1的點,此時AUC為1。

那么AUC和F1的區別是什么呢?AUC關注的是混淆矩陣里左右兩邊的關系,即放到正類答卷里的數據多,還是放到負類卷子里的數據多。

而F1關注的是正類被誤判的多還是漏判的多:

那么AUC里為什么正類答卷和負類答卷的數據是變化的呢?因為AUC是在并不假設閾值是固定的前提下判斷模型質量。這里的閾值是指,模型判斷一行數據是正類還是負類時,是概率大于50%判斷為正類?還是大于60%判斷為正類?在這個閾值不固定的情況下,AUC仍可以判斷模型質量,并且可以使用KS(Kolmogorov-Smirnov)來幫助查找最優閾值:KS=max(TPR-FPR)。可以說ROC曲線是由多個閾值形成的多個混淆矩陣的結果組合成的。而F1是指在閾值已經固定的前提下,判斷模型質量。因而AUC更公正和合理一些。

總結一下,正確的做法是用AUC評價模型能力,選取好的模型之后根據實際需求確定閾值,再用Macro F1計算性能指標。

參考文獻

[1]Alex Beutel,Jilin Chen,Zhe Zhao,and Ed H. Chi. 2017. Data Decisions and Theoretical Implications when Adversarially Learning Fair Representations. CoRR abs/1707.00075(2017). http://arxiv.org/abs/1707.00075

[2]Daniel Borkan,Lucas Dixon,John Li,Jeffrey Sorensen,Nithum Thain,and Lucy Vasserman. 2019. Limitations of Pinned AUC for Measuring Unintended Bias. CoRR abs/1903.02088,1903.02088v2(2019). arXiv:1903.02088v2

[3]Tim Brennan,William Dieterich,and Beate Ehret. 2009. Evaluating the Predictive Validity of the Compas Risk and Needs Assessment System. Criminal Justice and Behavior 36,1(2009),21–40. https://doi.org/10.1177/0093854808326545

[4]Joy Buolamwini and Timnit Gebru. 2018. Gender Shades:Intersectional Accuracy Disparities in Commercial Gender Classification. In Proceedings of the 1st Conference on Fairness,Accountability and Transparency(Proceedings of Machine Learning Research),Sorelle A. Friedler and Christo Wilson(Eds.),Vol. 81. PMLR,New York,NY,USA,77–91. http://proceedings.mlr.press/v81/buolamwini18a.html

作者簡介:王悅林,研究方向:人工智能。

(作者單位:聯想集團)

猜你喜歡
分類情境用戶
情境引領追問促深
不同情境中的水
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
護患情境會話
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
特定情境,感人至深
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 毛片久久久| 国产男女免费视频| 狠狠ⅴ日韩v欧美v天堂| 狠狠色婷婷丁香综合久久韩国| 欧美中文字幕在线视频| 夜夜操国产| 欧美日韩国产成人高清视频| 欧美亚洲另类在线观看| 五月天香蕉视频国产亚| 国产色网站| 国产人人乐人人爱| 日韩免费毛片| 亚洲精品第一页不卡| 国产v精品成人免费视频71pao| 99视频在线精品免费观看6| swag国产精品| 日本一本在线视频| 在线精品自拍| 四虎国产永久在线观看| 91色在线视频| 亚洲精品成人7777在线观看| 欧美日韩91| 国产成人AV综合久久| 三上悠亚一区二区| 日本免费一区视频| 五月天丁香婷婷综合久久| 国产一级二级在线观看| 久久久久国产一区二区| 看av免费毛片手机播放| 免费一级毛片在线播放傲雪网| 啪啪永久免费av| 2021国产精品自产拍在线| 欧美精品v日韩精品v国产精品| 性网站在线观看| 国产一国产一有一级毛片视频| 91精品国产91久无码网站| 中文字幕66页| 成人福利在线视频| 不卡色老大久久综合网| 一级毛片在线播放免费| 国内自拍久第一页| 日韩中文精品亚洲第三区| 久久婷婷六月| 欧美精品H在线播放| 国产精品13页| 四虎成人在线视频| 国产亚洲精品无码专| 成人无码一区二区三区视频在线观看| 久久久久国色AV免费观看性色| 超碰免费91| 久久青草热| 久久影院一区二区h| 伊人久久久大香线蕉综合直播| 国产超薄肉色丝袜网站| 国产精品女熟高潮视频| 国产成人AV大片大片在线播放 | 欧洲成人免费视频| 色播五月婷婷| 夜精品a一区二区三区| 99在线视频网站| 亚洲欧美精品一中文字幕| 伊人成人在线视频| 91视频99| 国产色婷婷视频在线观看| 色综合中文| 亚洲熟妇AV日韩熟妇在线| 五月激情婷婷综合| 国产成人久久777777| 91久久夜色精品国产网站| 中文字幕日韩欧美| 少妇被粗大的猛烈进出免费视频| 欧美啪啪精品| 亚洲成AV人手机在线观看网站| 国产高清不卡视频| 99久久99这里只有免费的精品| 国产高清不卡视频| 免费不卡视频| 91麻豆精品视频| 欧美色综合网站| 久久婷婷五月综合色一区二区| 日韩av手机在线| 最新国语自产精品视频在|