簡彩仁, 陳曉云
(1. 福州大學數學與計算機科學學院, 福建 福州 350116; 2. 廈門大學嘉庚學院, 福建 漳州 363105)
基于稀疏表示和最小二乘回歸的基因表達數據分類方法
簡彩仁1, 2, 陳曉云1
(1. 福州大學數學與計算機科學學院, 福建 福州 350116; 2. 廈門大學嘉庚學院, 福建 漳州 363105)
提出基于稀疏表示和最小二乘回歸的分類方法: 用訓練樣本重構測試樣本, 先利用稀疏表示剔除噪聲樣本, 接著用最小二乘回歸和最近鄰子空間準則對樣本分類, 可以克服傳統分類方法存在的過擬合問題. 在6個基因表達數據上的實驗結果表明, 該方法可以提高分類準確率.
稀疏表示; 最小二乘回歸; 基因表達數據; 分類
中國每年新發腫瘤病例約為312萬例, 平均每天有8 550人, 每6 min就有一個人被確診為癌癥[1]. 伴隨著生活水平的提高, 人們更加關心自己的健康, 渴望戰勝各種惡性腫瘤. 腫瘤不能等同于癌癥, 腫瘤可以分為良性腫瘤和惡性腫瘤, 后者才稱為癌癥. DNA微陣列技術可同時測量成千上萬的基因表達水平的高通量性為癌癥診斷提供了支持[2]. 通過對DNA芯片測定的基因表達數據建立有效的分類模型, 可以在分子水平上實現對腫瘤類型的準確識別, 對癌癥的診斷和治療具有重要意義[3].
腫瘤樣本的分類最大的挑戰是基因表達數據的小樣本高維數特征, 通常樣本的個數幾十到幾百個, 而基因數量卻往往超過一千, 甚至達到幾萬. 在過去的十幾年, 許多腫瘤基因的分類模型已經被提出. Paul等……