999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進KPCA與SVM的題名分類研究

2019-08-23 05:34:47聶黎生
現代電子技術 2019年16期
關鍵詞:模式識別特征提取數據挖掘

聶黎生

摘? 要: 為了進一步提高期刊論文題名信息分類查準率和查全率,提出一種基于改進KPCA與SVM的知網題名信息分類算法。基于中國知網數據庫選取《中文核心期刊要目總覽》(2014年版)2017年度31種計算機學科(TP)期刊收錄的13 401篇論文題名作為實驗語料庫,采用改進KPCA算法對數據進行降維和特征提取,將提取的特征數據庫作為SVM的輸入進行訓練和分類。實驗結果表明,該方法較以往分類算法能夠進一步提高期刊論文題名的分類效果。

關鍵詞: 題名分類; 核主成分分析; 數據降維; 特征提取; 數據挖掘; 模式識別

中圖分類號: TN919?34; TP301.6? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)16?0108?04

隨著學術期刊論文數量的迅速增長,分類檢索作為服務于數據庫,滿足用戶需求的一種服務愈顯重要。目前國內外題名分類占據了論文檢索主流市場。題名分類是基于預先建立的分類器,通過計算機對給定的未知類別論文集進行分類的過程。題名作為一種短文本語言規范,專業性強,內容簡練,能夠高度概括和集中表達論文核心內容,因此可以作為文獻分類的重要依據 [1]。從圖書情報學專業角度看,其分類關鍵是依據語言詞表對題名預處理獲取短文本特征并用特征向量表示,然后與預先通過訓練集建模構造的分類器進行模式匹配,找出每個特征的所屬分類后返回分類結果。近年來,文本分類常見的算法有KNN,BPNN,ELM等。這些算法在特征選擇時忽略了特征項的信息增益以及特征項與類別信息的關聯程度,導致短文本分類準確率不高,難以獲得用戶滿意的效果。針對該問題,本研究選取《中國知網》論文數據庫部分論文作為研究對象,提出融合改進KPCA與SVM的知網題名分類算法,試圖提高分類結果的準確率和正確率。該算法首先對收集大量期刊論文題名信息進行去噪和格式化預處理,提取其關鍵詞和高頻詞歸一化處理后形成特征庫;然后,通過改進KPCA算法實現分類信息最大化為后續識別分類提供方便;最后,對特征庫基于支持向量機(SVM)訓練,建立分類器進而實現對待分文本分類并輸出分類結果。

3? 實驗分析與結論

3.1? 實驗數據及過程

實驗依據中國知網數據庫,選取《中文核心期刊要目總覽》(2014年版)2017年度31種計算機學科(TP)期刊收錄的13 401篇論文,其原始分類粒度粗糙,提取語料的題名、關鍵詞和摘要適合作為研究真實世界題名分類實驗材料。研究對象主要針對計算機領域,選取控制策略、神經網絡、機器學習及數據挖掘等領域論文的題名、關鍵詞和摘要作為實驗語料。為了降低數據不均衡對分類器的負面影響,提高分類的準確率,本文將13 401篇論文隨機分成3份:基礎集、訓練集與測試集。基礎集為已知題名類別的集合,用于計算題名特征與其他論文題名特征的交集數量;訓練集也是已知題名類別的集合,用于構建分類器(SVM,BPNN等);測試集主要用于檢驗不同分類算法的分類性能。

3.2? 性能評價與分析

為測試本算法的有效性,采用信息檢索和分類體系常用的查準率Precision(P)、查全率Recall(R)、測試值F?measure(F)評估算法的分類性能。依次采用IMKPCA?SVM,KPCA?BPNN,PCA?SVM三種算法對測試集分類。不同分類算法的Precision,Recall及F?measure值如表1所示。

從表1可以看出,基于IMKPCA?SVM分類方法各評價指標值均超過95%,分類精度整體最佳,主要原因在于IMKPCA降維處理后并計算類別信息度量保留了核心特征,同時采用SVM分類器,避免了BPNN的“維數災”[9]和PCA只能提取線性特征結構的缺陷,最終使分類準確率顯著提升。為了進一步揭示本文算法分類性能,表2列出了各分類算法的細分指標。

從表2的類別細分結果可以看出,基于IMKPCA?SVM分類方法在控制策略和數據挖掘2個領域中的分類效果較好,其主要原因是控制策略和數據挖掘的領域知識較為成熟,通過知網可以獲得質量較高的題名特征。但神經網絡和機器學習作為風靡全球的新興交叉學科領域,知網收錄研究論文和登錄詞匯相對缺少,且由于本次實驗選取的數據規模有限,并未包含其他領域中的足夠概念,所以從實驗結果看出這兩個領域的分類性能有所受限。

4? 結? 語

本文提出一種基于改進KPCA降維與SVM分類的題名分類方法,該方法首先采用KPCA算法降維提取高頻詞匯和題名關鍵詞得到分類結果的核心特征詞集,并通過優化進一步去除與分類結果相關度極低的特征詞,然后通過SVM模型計算待分類文本與訓練集核心特征的相似度,并將相似度最高的類別分配給待分類文本。實驗結果表明本文方法能夠進一步提高期刊題名的分類效果,為題名分類提供了新的途徑。下一步打算拓展該方法在其他領域進行設計與驗證,增加其通用性應用價值。

參考文獻

[1] 李湘東,劉康,丁叢,等.基于知網語義特征擴展的題名信息分類[J].圖書館雜志,2017,37(2):11?19.

LI Xiangdong, LIU Kang, DING Cong, et al. Title information classification based on hownet semantics feature extension [J]. Library journal, 2017, 37(2): 11?19.

[2] CHEN J J, ZHAO Z, SUN H, et al. Facial expression recognition based on PCA reconstruction [C]// Proceeding of? 5th International Conference on Computer Science & Education. Hefei: IEEE, 2010: 195?198.

[3] 何新,李大輝,付軍.特征提取算法KPCA的改進與設計[J].高師理科學刊,2015,35(6):34?37.

HE Xin, LI Dahui, FU Jun. The improvement and design of KPCA feature extraction algorithm [J]. Journal of science of teachers′college and university, 2015, 35(6): 34?37.

[4] 萬家強,王越,劉羽.改進KPCA對分類數據的特征提取[J].計算機工程與設計,2010,31(18):4085?4087.

WAN Jiaqiang, WANG Yue, LIU Yu. Improvement of KPCA on feature extraction of classification data [J]. Computer engineering and design, 2010, 31(18): 4085?4087.

[5] 方天紅,賈涵,陳慶虎.Gabor特征和字典學習算法在打印文件鑒別中的應用[J].電子測量與儀器學報,2017,31(4):644?650.

FANG Tianhong, JIA Han, CHEN Qinghu. Application of gabor feature and dictionary learning algorithm in printed document identification [J]. Journal of electronic measurement and instrument, 2017, 31(4): 644?650.

[6] YU P S, CHEN S T, CHANG I F. Support vector regression for real?time flood stage forecasting [J]. Journal of hydrology, 2006, 328(3): 704?716.

[7] 馬樂寬,邱瑀,趙越,等.基于改進的神經網絡與支持向量機的小流域日徑流量預測研究[J].水資源與水工程學報,2016,27(5):23?27.

MA Lekuan, QIU Yu, ZHAO Yue, et al. Prediction of dailyrunoff in a small watershed based on improved neural networkand support vector machine [J]. Journal of water resources & water engineering, 2016, 27(5): 23?27.

[8] 高超,許翰林.基于支持向量機的不均衡文本分類方法[J].現代電子技術,2018,41(15):183?186.

GAO Chao, XU Hanlin. Unbalanced text classification method based on support vector machine [J]. Modern electronics technique, 2018, 41(15): 183?186.

[9] 王慧,宋淑蘊.基于KCPA 提取特征和RVM 的圖像分類[J].吉林大學學報(理學版),2017,55(2):357?362.

WANG Hui, SONG Shuyun. Image classification based on KCPA feature extraction and RVM [J]. Journal of Jilin University (Science edition), 2017, 55(2): 357?362.

[10] 劉玉琪.基于隨機森林算法的人體運動模式識別研究[D].北京:北京郵電大學,2018.

LIU Yuqi. Research of human pattern recognition based on random forest algorithm [D]. Beijing: Beijing University of Posts and Telecommunications, 2018.

猜你喜歡
模式識別特征提取數據挖掘
探討人工智能與數據挖掘發展趨勢
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
淺談模式識別在圖像識別中的應用
電子測試(2017年23期)2017-04-04 05:06:50
一種基于LBP 特征提取和稀疏表示的肝病識別算法
第四屆亞洲模式識別會議
一種基于Hadoop的大數據挖掘云服務及應用
第3屆亞洲模式識別會議
基于MED和循環域解調的多故障特征提取
電氣設備的故障診斷與模式識別
河南科技(2014年5期)2014-02-27 14:08:35
主站蜘蛛池模板: 国产欧美精品午夜在线播放| 黄色三级网站免费| 国产69囗曝护士吞精在线视频| 亚洲色图在线观看| 久久久久久久久亚洲精品| 国产福利小视频高清在线观看| 久久激情影院| 国产成人综合日韩精品无码首页| 性喷潮久久久久久久久| 在线观看91精品国产剧情免费| 玖玖免费视频在线观看| 日韩高清成人| 国产中文一区a级毛片视频 | 22sihu国产精品视频影视资讯| 天堂岛国av无码免费无禁网站| 午夜欧美理论2019理论| 黄色国产在线| 精品欧美视频| 国产成+人+综合+亚洲欧美| 青青草国产免费国产| 亚洲黄色网站视频| 99热国产这里只有精品无卡顿"| 国产91丝袜在线播放动漫 | 欧美日韩一区二区三| 久久国产精品夜色| 日本欧美一二三区色视频| 在线无码私拍| a毛片在线| 久久婷婷综合色一区二区| 亚洲综合专区| 欧美19综合中文字幕| 99九九成人免费视频精品| 扒开粉嫩的小缝隙喷白浆视频| 午夜精品福利影院| 99这里只有精品6| 亚洲性视频网站| 伊人激情综合| 国产成人综合久久精品尤物| 九一九色国产| 免费一级大毛片a一观看不卡| 91久久国产综合精品女同我| 欧美视频在线不卡| 日日碰狠狠添天天爽| 中文字幕自拍偷拍| 亚洲无码视频图片| 国产亚洲欧美日韩在线一区二区三区 | 午夜一区二区三区| 欧美国产综合色视频| 亚洲男人在线| 亚洲国产成熟视频在线多多| av一区二区无码在线| 日韩精品欧美国产在线| a级毛片免费看| 亚洲欧洲日韩国产综合在线二区| 99免费视频观看| 五月天综合婷婷| 欧美成人手机在线观看网址| 国产在线专区| 午夜a级毛片| 亚洲国产日韩欧美在线| 999福利激情视频| 国产va欧美va在线观看| 国产欧美精品一区二区| 亚洲男人的天堂视频| 伊人查蕉在线观看国产精品| 香蕉99国内自产自拍视频| 亚洲视频影院| 亚洲欧美成人在线视频| 国产激情第一页| 亚洲成人免费看| 国产麻豆精品手机在线观看| 亚洲一区国色天香| 亚洲av无码久久无遮挡| 亚洲一区网站| 91久久国产热精品免费| 国产精品三区四区| 国产精品手机视频| 高清码无在线看| 国产亚洲美日韩AV中文字幕无码成人 | 女人av社区男人的天堂| 国产91精选在线观看| 高清视频一区|