999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的生長激素結合蛋白特征提取研究

2021-07-07 06:35:44范仕豪
電子樂園·下旬刊 2021年7期
關鍵詞:重要性特征評價

范仕豪

摘要:本文收集生長激素結合蛋白序列信息數據集,將其分為訓練集和測試集兩部分。使用TF-IDF,One-hot和PCA方法提取訓練集中的特征向量,構建決策樹,梯度提升樹,隨機森林這三種預測模型,以及對這三種模型的預測性能,計算評價指標。根據特征重要性進行特征篩選,剔除掉重要性較低的特征,保留特征重要性高的特征構建預測模型,再次計算評價指標進行比較。通過比較得出,得出使用PCA方法提取特征,進行特征篩選后構建的梯度提升樹預測模型性能最好,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

關鍵詞:生長激素結合蛋白;機器學習;特征篩選;TF-IDF;One-Hot;PCA;決策樹;梯度提升樹;隨機森林

引言:隨著現代人工智能技術的不斷發展,機器學習作為當前人工智能的主要技術之一,不斷產生突破性進展,我們可以把機器學習運用到各種領域,比如我們進出學校時的師生人臉識別系統[1],無人駕駛汽車的上路駕駛系統[2],家里的各種智能掃地機器人和各類智能家居,也可以精細到生物醫學分子研究和醫學影像,習近平總書記強調,“人工智能是新一輪科技革命和產業變革的重要驅動力量,加快發展新一代人工智能是事關我國能否抓住新一輪科技革命和產業變革機遇的戰略問題”,因此為蛋白質識別的研究帶來新的可能和機遇。

本文主要講述如何利用已有獲得的生長激素結合蛋白序列信息,進行數據挖掘信息,使用不同的方法提取特征向量,再分別對根據其特征的重要性進行篩選特征,構建決策樹,梯度提升樹,隨機森林算法構建預測模型,在測試集上進行模型評估,計算不同特征提取方法下得到的預測模型的評價指標,并對其進行比較和分析。

1 數據集的收集

用收集到的原始生長激素結合蛋白序列信息全部數據集分為兩類,一類是訓練集,用來進行不同方法下的特征提取和構建預測模型,另一部分是測試集,在測試集上進行預測模型的評估,計算預測模型的評價指標。其中得到訓練集的正樣本和負樣本分別有123個,測試集的正樣本和負樣本分別有31個。

2 特征提取方法

2.1? One-Hot

獨熱編碼(One-Hot Encoding),也被稱為一位有效編碼,其方法是使用N位狀態寄存器來對N個狀態進行編碼分析處理,每個寄存器位都代表一個獨立的狀態,并且不論何時,其中只有一位有效,即只有一位是1,剩下的位都是0。獨熱編碼是利用0和1表示一些參數,使用N位狀態寄存器來對N個狀態進行編碼。

2.2? TF-IDF

“詞頻——逆向文件頻率”(Term Frequency - Inverse Document Frequency,簡稱TF-IDF),是一種統計方法,用來評判某個字對于一個文件集或一個語料庫中的其中一份文件的重要度,這種方法廣泛用于機器識別和文本挖掘技術中,是一種于咨詢檢索與咨詢勘探的常用加權技術,某個字的重要度會與它在文件中出現的次數成正比,也同時會與它在語料庫中出現的頻率成反比。得到的特征向量命名為:

['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']

2.3 PCA

主成分分析(principal components analysis,簡稱PCA)是一種較為經典的數據降維方法。它的基本思想是從一組特征中計算出一組按照重要性的大小從大到小依次排列的新特征,它們是原有特征的線性組合,并且新特征之間不相關, 我們計算出原有特征在新特征上的映射值即為新的降維后的樣本。也就是說PCA的目標是用一組正交向量來對原特征進行變換得到新特征,新特征是原有特征的線性組合。

通過PCA算法能夠對原有20維的較長特征向量進行壓縮,得到一個簡單的四維特征向量:

3 對模型的評價

我們對預測模型的評價標準要用到這四個數據,在常用的評價預測二分類模型性能有四個指標,分別是準確率(accuracy),召回率(recall),精確率(precision),平衡F1分數(F1-Score)其表達式分別如下:

3.1 決策樹預測模型評價

測試集對決策樹預測模型進行測試,當使用One-Hot方法提取特征時,決策樹預測模型評價指標precision為0.39,recall為0.40,f1-score為0.38,accuracy為0.40。當使用TF-IDF方法提取特征時,precision為0.48,recall為0.48,f1-score為0.47,accuracy為0.48。使用PCA方法提取特征時,precision為0.65,recall為0.63,f1-score為0.62,accuracy為0.62。

通過評價指標可以看出,預測模型的性能并不好。因此考慮對特征向量進行處理,剔除一些冗余特征。

在One-Hot方法和TF-IDF方法提取特征向量時,各個特征的重要性如下表:

根據特征的重要性進行篩選,篩選特征閾值為0.1,剔除特征重要性小于0.1的特征,兩種方法分別保留[‘C’ , ’L’ , ’W’ , ’ Y ’]和[‘F’ , ’M’ , ’Q’ , ’ W ’]。

使用PCA提取特征向量時,得到各個特征的重要性如下表:

根據特征的重要性進行篩選,篩選特征閾值為0.1,剔除特征重要性小于0.1的特征,得到一個新的特征向量,保留[‘X2’ , ’X3’ , ’X4’ ]。

對進行剔除冗余特征后的特征向量重新構建決策樹模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.61,recall為0.58,f1-score為0.55,accuracy為0.58。當使用TF-IDF方法提取特征時,precision為0.52,recall為0.52,f1-score為0.48,accuracy為0.52。使用PCA提取特征時,precision為0.66,recall為0.60,f1-score為0.55,accuracy為0.60。

可以得出,在進行特征篩選,剔除冗余特征后構建的決策樹模型,性能明顯得到了優化,評價指標也有所提高。

3.2 隨機森林預測模型評價

使用測試集對隨機森林預測模型進行測試,當使用One-Hot方法提取特征時,評價指標precision為0.63,recall為0.63,f1-score為0.63,accuracy為0.63。當使用TF-IDF方法提取特征時,precision為0.52,recall為0.52,f1-score為0.50,accuracy為0.52。使用PCA提取特征時,precision為0.64,recall為0.63,f1-score為0.62,accuracy為0.63。

根據特征向量的特征重要性進行特征篩選,在隨機森林中,使用One-Hot方法和TF-IDF方法提取特征的特征重要性如下表:

篩選特征閾值為0.05,剔除掉特征重要性低于0.05的特征,兩種方法下分別保留[‘A’ , ’F’ , ’H’ , ’ I ’ , ‘L’ , ‘N’ , ‘W’]和[‘C’ , ’E’ , ’F’ , ’ H ’ , ‘I’ , ‘R’ , ‘V’ , ‘W’]

使用PCA方法提取特征向量,各個特征的重要性如下表:

篩選特征閾值為0.2,剔除掉特征重要性低于0.2的特征,保留[‘X2’ , ’X3’]

對進行剔除冗余特征后的特征向量重新構建隨機森林模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.65,recall為0.65,f1-score為0.64,accuracy為0.65。當使用TF-IDF方法提取特征時,precision為0.55,recall為0.55,f1-score為0.55,accuracy為0.55。使用PCA提取特征時,precision為0.64,recall為0.63,f1-score為0.62,accuracy為0.63。

可以得出,在進行特征篩選,剔除冗余特征后構建的隨機森林模型,性能明顯得到了優化,評價指標也有所提高。

3.3梯度提升樹預測模型評價

使用測試集對梯度提升樹預測模型進行測試,當使用One-Hot方法提取特征時,評價指標precision為0.52,recall為0.52,f1-score為0.52,accuracy為0.52。當使用TF-IDF方法提取特征時,precision為0.66,recall為0.65,f1-score為0.64,accuracy為0.62。使用PCA提取特征時,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

根據特征向量的特征重要性進行特征篩選,在梯度提升樹預測模型中,使用One-Hot和TF-IDF方法提取特征的特征重要性如下表:

One-Hot方法下篩選特征閾值為0.05,剔除掉特征重要性低于0.1的特征,保留[‘L’ , ’N’ ],使用TF-IDF方法篩選特征閾值為0.05,剔除掉特征重要性低于0.05的特征,保留[‘C’ , ’E’ , ’F’ , ’ H ’ , ’L’ , ’M’ , ‘N’ , ’P’ , ’Q’ , ‘R’ , ‘W’]

使用PCA方法提取特征向量,各個特征的重要性如下表:

由表可得,’X1’特征重要性明顯小于其他幾種特征,但當剔除掉’X1’特征時,梯度提升樹預測模型性能反而降低了,所以’X1’不屬于冗余特征,不作剔除處理。

對進行剔除冗余特征后的特征向量重新構建梯度提升樹模型,再次用測試集對其進行模型測試,得到評價指標:當使用One-Hot方法提取特征時,評價指標precision為0.61,recall為0.61,f1-score為0.61,accuracy為0.61。當使用TF-IDF方法提取特征時,precision為0.71,recall為0.71,f1-score為0.71,accuracy為0.71。使用PCA提取特征時,precision為0.82,recall為0.81,f1-score為0.80,accuracy為0.81。

可以得出,在進行特征篩選,剔除冗余特征后構建的梯度提升樹預測模型,性能明顯得到了優化,評價指標也有所提高。

4 結論

通過對獲得的生長激素結合蛋白序列信息數據集進行分類得到構建預測模型的訓練集和用來判斷預測模型性能優劣,計算評價指標的測試集,對訓練集數據使用One-Hot,TF-IDF,PCA三種方法提取特征向量。再用決策樹,梯度提升樹,隨機森林這幾種算法進行構建預測模型。在測試集上對三種預測模型進行評估,得到預測指標。本文還對已提取的特征向量中的冗長特征進行處理,剔除掉特征重要性低的特征,根據保留剩下的特征再次構建三種預測模型,再次在測試集上進行預測模型的評估,計算評價指標,發現預測模型性能明顯得到的提高。最終得出結論,在預測生長激素結合蛋白這種二分類問題時,使用PCA方法提取特征向量,構建的梯度提升樹預測模型性能最好。

參考文獻

[1]韋大歡.基于疫情防控下人臉識別在宿舍管理系統中的應用[J].現代計算機,2022,28(03):82-86.

[2]黃東風.人工智能在汽車駕駛技術領域的應用與發展[J].時代汽車,2022(01):42-43.

猜你喜歡
重要性特征評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
基于Moodle的學習評價
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产欧美视频在线观看| 黄色免费在线网址| 日韩福利视频导航| 国产综合色在线视频播放线视 | 国国产a国产片免费麻豆| 久久亚洲黄色视频| 国产成人综合久久精品下载| 无码又爽又刺激的高潮视频| 国产AV无码专区亚洲A∨毛片| 成人日韩欧美| 欧美笫一页| 欧美午夜在线播放| 亚洲国产成熟视频在线多多| 99精品高清在线播放| av天堂最新版在线| 强奷白丝美女在线观看| 国产在线日本| 精品免费在线视频| 国产噜噜噜| 四虎永久免费网站| 97视频精品全国免费观看| 自拍偷拍欧美| 福利视频一区| 91成人试看福利体验区| 国产a v无码专区亚洲av| 欧美一级在线看| 国产人人射| 波多野结衣在线se| 日韩精品免费一线在线观看| 久久99国产综合精品1| 高清码无在线看| 久久香蕉国产线看精品| 久久窝窝国产精品午夜看片| jizz亚洲高清在线观看| 国内精品视频| 亚洲国产成人久久精品软件| 天天色天天综合网| 欧美.成人.综合在线 | 成人午夜久久| 亚洲精品制服丝袜二区| 91精品啪在线观看国产| 免费观看国产小粉嫩喷水| 国产黄在线免费观看| 中文天堂在线视频| 精品福利网| 免费黄色国产视频| 亚洲三级色| 中文字幕无码av专区久久| 久久精品无码中文字幕| 国产精品免费久久久久影院无码| 亚洲无线观看| 久久亚洲高清国产| 亚洲人成网18禁| 亚洲中文字幕在线观看| 伊人色在线视频| 日韩激情成人| 国产一在线观看| 久热中文字幕在线| 狠狠色香婷婷久久亚洲精品| 国产微拍精品| 夜色爽爽影院18禁妓女影院| 国产成人精品一区二区秒拍1o| 天天干伊人| 中文字幕欧美日韩高清| 亚洲av无码片一区二区三区| 亚洲女人在线| 黄色在线网| 成人欧美日韩| 国产在线观看成人91| 午夜在线不卡| 在线观看91香蕉国产免费| 精品人妻无码中字系列| 国产精品青青| 国产福利不卡视频| 亚洲色图欧美| 国产另类乱子伦精品免费女| 久久久91人妻无码精品蜜桃HD| 91高清在线视频| 男女男免费视频网站国产| 亚洲成人播放| 中文字幕波多野不卡一区| 中文字幕日韩欧美|