黃 甜,魏靜雯
(南京財經大學 應用數學學院,江蘇 南京 210000)
目前,人們還沒有完全找出導致乳腺癌的原因,但認為懷孕、生育和哺乳等都是致癌因素。研究結果表明,雌激素受體α亞 型(ERα)參與細胞以及癌細胞的增殖[1],是乳腺癌內分泌治療的重要靶點。針對ERα,通過篩選找出抑制腫瘤生長的藥物成分,對于抗癌藥物的研制具有重要意義。
隨著計算機技術的發展和計算機應用的普及,許多學者通過機器學習對醫學數據進行了數值分析,以挖掘數據背后隱藏的信息。
20世紀90年代中期,V.N.VAPNIK等[2]提出的有限樣本的機器學習理論逐漸成熟起來,形成了比較完善的統計學習理論,彌補了傳統統計學的不足。隨著統計學習理論的發展,人們能從本質上研究機器學習理論,而不需要從生物仿生學的角度構建學習機器。支持向量機是以統計學習理論為基礎發展起來的一種機器學習方法,主要用于解決二分類問題。與此同時,支持向量回歸(support vector regression,SVR)算法在支持向量機的基礎上發展起來,并用于解決函數擬合問題。S.M.CLARKE等[3]研究了支持向量回歸算法,并將其作為逼近復雜工程的替代技術。張馨予等[4]利用遺傳算法對支持向量回歸模型的初始參數進行了優化,并利用優化后的模型預測了中國老齡化人口問題。
近年來,支持向量回歸算法在生物醫學、函數逼近和模式識別等方面已得到了廣泛的應用。在此基礎上,我們采用條件互信息最大化(conditional mutual information maximization,CMIM)準則分析了藥物分子描述符的特征信息,利用篩選的特征信息建立了支持向量回歸算法,預測了合成的新抗乳腺癌藥物的生物活性,并對預測結果進行擬合和分析,驗證了預測結果的正確性。……