999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向不平衡數據的邏輯回歸偏標記學習算法

2017-04-07 07:22:46瑜,
大連理工大學學報 2017年2期
關鍵詞:模型

周 瑜, 顧 宏

( 大連理工大學 電子信息與電氣工程學部, 遼寧 大連 116024 )

面向不平衡數據的邏輯回歸偏標記學習算法

周 瑜, 顧 宏*

( 大連理工大學 電子信息與電氣工程學部, 遼寧 大連 116024 )

偏標記學習是近幾年提出的新機器學習框架,已有的邏輯回歸偏標記算法尚不能解決數據不平衡問題.建立了一種可以解決數據不平衡的邏輯回歸模型偏標記學習算法.基本思想是在多元邏輯回歸模型中定義新的似然函數以達到處理不平衡數據的目的.算法先根據訓練集中各個類別樣本所占比例定義了一個新的似然函數,之后通過逼近和求導等數學手段推導得到了能夠求解的光滑的邏輯回歸偏標記學習模型.在UCI數據集和真實數據集上的仿真實驗表明,所提算法在數據存在不平衡問題時提高了樣本的平均分類精度.

偏標記學習;數據不平衡;邏輯回歸;阻尼牛頓法

0 引 言

偏標記學習是近幾年提出的一種新的機器學習框架,國內外學者對它的研究已經有了一定的成果.最早的文獻是Grandvalet對邏輯回歸模型進行的拓展研究[1],其提出了一種偏標記學習算法;隨后Jin等[2]將偏標記學習歸結為一種新的機器學習框架.新的學習框架的提出促進了眾多學者對偏標記學習的研究,k近鄰[3]、最大間隔[4]、線性支持向量機[5-6]等方法均被用于偏標記學習算法研究.這些方法都是通過定義新的損失函數來改進傳統分類模型,使其可以處理偏標記學習問題.但在很多的實際應用問題中,各個類別的樣本數量之間是極度不平衡的,如在蛋白質亞細胞定位預測問題中[7],數據集中兩類數目差別近百倍.數據集的這種類不平衡(也稱數據不平衡)問題對學習算法性能具有很大的影響,通常會導致算法的分類面偏向少數類一側,從而造成預測精度大幅下降,特別是對少數類樣本的預測精度要遠遠低于多數類樣本[8].目前已有的偏標記學習算法都沒有考慮數據的不平衡性.因此,考慮數據不平衡問題的偏標記學習算法也是將偏標記學習技術推向更加實用化所需要解決的關鍵問題.本文建立一種邏輯回歸偏標記學習算法,以期提高不平衡數據的平均分類精度.

1 邏輯回歸偏標記學習模型

1.1 模型建立

偏標記學習的定義如下:

設X為樣本的特征空間,Y={1,2,…,l}為類別標記集合.利用訓練集D={(x1,Y1),(x2,Y2),…,(xn,Yn)}(其中xi∈X是樣本的特征向量;Yi≡{yi1,yi2,…,yini}?Y,是含樣本xi真實標記的一個集合)確定一個函數f:X→Y,使得f可以正確輸出新(待預測)樣本x*∈X的類別標記.

(1)

(2)

由于max(·)函數不可導,用凝聚函數逼近最大值似然函數.當p→+∞時,有

(3)

當p→∞時,

當s≠t,s∈Yi時,

當s=t,s,t∈Yi時,

則當p→∞時,

則Z(W)對W一階和二階導數可寫成矩陣形式:

(4)

1.2 模型求解

本文應用阻尼牛頓法對模型進行求解,阻尼牛頓法的迭代公式如下:

Wk+1=Wk-λk(▽▽Z(Wk))-1▽Z(Wk)

圖1 阻尼牛頓法求解W

2 數值實驗

表1 算法驗證所用的數據集

表2 兩個算法在UCI數據集上的預測精度

表3 兩個算法在UCI數據集上的平均預測精度

表4 兩個算法在真實數據集上的預測精度

3 結 語

本文提出了可以處理數據不平衡問題的邏輯回歸偏標記學習算法,在數據集上的實驗結果驗證了本文算法的有效性以及在處理不平衡問題方面的優勢.下一步的工作是定義新的似然函數,應用更好的適合偏標記學習的機器學習算法,使其能夠更好地處理數據不平衡偏標記學習問題.

[1] GRANDVALET Y. Logistic regression for partial labels [C] // Proceeding of the 9th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems. Annecy: IPMU, 2002:1935-1941.

[2] JIN R, GHAHRAMANI Z. Learning with multiple labels [C] // Advances in Neural Information Processing Systems 15-Proceedings of the 2002 Conference, NIPS 2002. Vancouver: Neural Information Processing Systems Foundation, 2003.

[3] HüELLERMEIER E, BERINGER J. Learning from ambiguously labeled examples [J]. Intelligent Data Analysis, 2006, 10(5):419-439.

[4] LUO J, ORABONA F. Learning from candidate labeling sets [C] // Advances in Neural Information Processing Systems 23: 24th Annual Conference on Neural Information Processing Systems 2010, NIPS 2010. Red Hook: Curran Associates Inc., 2010:1504-1512.

[5] COUR T, SAPP B, TASKAR B. Learning from partial labels [J]. Journal of Machine Learning Research, 2011, 12:1501-1536.

[6] NGUYEN N, CARUANA R. Classification with partial labels [C] // KDD 2008 - Proceedings of the 14th ACMKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2008:551-559.

[7] HE J, GU H, LIU W. Imbalanced multi-modal multi-label learning for subcellular localization prediction of human proteins with both single and multiple sites [J]. PLoS One, 2012, 7(6):e37155.

[8] LIU X Y, ZHOU Z H. Imbalanced Learning:Foundations, Algorithms, and Applications [M]. Hoboken:Wiley-IEEE Press, 2013:61-82.

[9] HORN R, JOHNSON C. Topics in Matrix Analysis [M]. Cambridge:Cambridge University Press, 1991:239-297.

[10] BACHE K, LICHMAN M. UCI machine learning repository [EB/OL]. (2013-04-04) [2016-08-12]. http://archive.ics.uci.edu/ml.

[11] 周 瑜,賀建軍,顧 宏,等. 一種基于最大值損失函數的快速偏標記學習算法[J]. 計算機研究與發展, 2016, 53(5):1053-1062.

ZHOU Yu, HE Jianjun, GU Hong,etal. A fast partial label learning algorithm based on max-loss function [J]. Journal of Computer Research and Development, 2016, 53(5):1053-1062. (in Chinese)

Partial label learning algorithm for imbalanced data based on logistic regression

ZHOU Yu, GU Hong*

( Faculty of Electronic Information and Electrical Engineering, Dalian University of Technology, Dalian 116024, China )

Partial label learning is a new machine learning framework proposed in recent years, but existing partial label learning algorithms based on logistic regression have not solved the problem of data imbalance. A partial label learning algorithm for data imbalance is presented based on logistic regression model. The basic idea is to define a new likelihood function in the multiple logistic regression models to deal with imbalanced data. Firstly, a new likelihood function is defined according to the proportion of each class sample in the training set; then, the smooth and logistic regression-based partial label learning model is derived through derivation and approximation method. Simulation experiments on UCI data sets and real world data sets show that the proposed algorithm improves the average classification accuracy of sample for data imbalance problem.

partial label learning; data imbalance; logistic regression; damped Newton method

2016-09-05;

2016-11-07.

國家自然科學基金資助項目(61502074,U1560102).

周 瑜(1982-),女,博士生,E-mail:zhouyu829@163.com;顧 宏*(1961-),男,教授,博士生導師,E-mail:guhong@dlut.edu.cn.

1000-8608(2017)02-0184-05

TP391

A

10.7511/dllgxb201702011

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 九色在线观看视频| 国产成年无码AⅤ片在线| 国产微拍一区| 国产在线98福利播放视频免费| 欧美成人午夜在线全部免费| 黄色免费在线网址| 热久久这里是精品6免费观看| aaa国产一级毛片| 好紧好深好大乳无码中文字幕| 久久久久人妻一区精品色奶水| 欧美日韩国产系列在线观看| 欧美午夜理伦三级在线观看| 成人国产免费| 一级黄色网站在线免费看| 99精品视频九九精品| 91精品网站| 天堂成人在线| 欧美在线黄| 亚洲a级毛片| 亚洲日本中文综合在线| 国产亚洲精品91| 99视频有精品视频免费观看| AV不卡国产在线观看| 伊人精品成人久久综合| 亚洲中久无码永久在线观看软件| 91在线精品麻豆欧美在线| 国产免费精彩视频| 99久久精品免费视频| 日本免费一区视频| 国产色爱av资源综合区| 国产午夜无码片在线观看网站| 亚洲 欧美 偷自乱 图片| 亚洲一区二区在线无码| 国产专区综合另类日韩一区| 亚洲天堂区| 中文字幕首页系列人妻| 亚洲综合片| 国产白丝av| 亚洲成人精品久久| 91午夜福利在线观看精品| 无码国产偷倩在线播放老年人| 午夜在线不卡| 日本午夜三级| 欧美色视频在线| 四虎国产在线观看| 国产成人一区二区| www.av男人.com| 国产视频入口| 在线中文字幕日韩| 在线观看免费黄色网址| 国产福利大秀91| 国产黄在线免费观看| 国产精品护士| 天天色综网| 在线国产资源| 香蕉综合在线视频91| 国产白浆视频| 亚洲香蕉在线| 国产免费福利网站| 天天综合网色| 动漫精品啪啪一区二区三区 | 99视频免费观看| 国产精品人莉莉成在线播放| 亚洲视频二| 国产午夜看片| 激情综合图区| 亚洲 欧美 中文 AⅤ在线视频| 中文字幕人成乱码熟女免费| 久久77777| a天堂视频| 亚洲有码在线播放| 国产人免费人成免费视频| 国产乱子精品一区二区在线观看| 欧美日韩动态图| 国产一线在线| 日本午夜三级| 成人看片欧美一区二区| 伊人五月丁香综合AⅤ| 国产一级在线观看www色 | 欧美在线国产| 国产精品久久久久无码网站| 亚洲天堂自拍|