


摘? 要:為規(guī)范科研成果管理流程,減少科研管理人員工作量,提高科研成果審核的及時性和準(zhǔn)確性,設(shè)計了基于網(wǎng)絡(luò)爬蟲技術(shù)的科研成果真實性驗證算法,根據(jù)設(shè)計的算法,采用Python語言編寫程序,爬取了科研成果網(wǎng)絡(luò)數(shù)據(jù),與湖南工程職業(yè)技術(shù)學(xué)院2019年度科研成果數(shù)據(jù)進行了比對,從匹配的結(jié)果來看,網(wǎng)絡(luò)爬蟲技術(shù)能有效實現(xiàn)科研成果的真實性驗證,為科研成果管理的數(shù)字化、自動化、智能化提供了技術(shù)支撐。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;科研成果;自動化
Abstract:In order to standardize the management process of scientific research achievements,reduce the workload of scientific research management personnel,and improve the timeliness and accuracy of scientific research achievement audit,the authenticity verification algorithm of scientific research achievement based on web crawler technology is designed. According to the designed algorithm,the program is written in Python language,and the network data of scientific research achievement are crawled and compared with the data of scientific research achievement of Hunan Vocational College of Engineering in 2019,from the matching results,the web crawler technology can effectively realize the authenticity verification of scientific research achievement,and provide technical support for the digitization,automation and intellectualization of scientific research achievement managements.
Keywords:web crawler;scientific research achievements;automation
0? 引? 言
近年來,我院立項的科研項目,獲得的科研成果越來越多,科研領(lǐng)域越來越廣泛。但長期以來,我院的科研管理工作依然停留在傳統(tǒng)的數(shù)字化管理階段,科研成果匯總后以簡單的Excel文檔形式存儲在科研處,科研論文、專著及論文的真實性驗證需要科研秘書人工到門戶網(wǎng)站逐條進行查詢,工作量大,為減輕科研秘書的工作量,規(guī)范科研成果管理流程,實現(xiàn)科研成果管理的數(shù)字化、信息化、智能化,有必要建設(shè)我院智慧科研成果管理服務(wù)平臺。
1? 平臺需求分析
科研成果管理平臺的用戶角色包括教職工,二級學(xué)院及處室科研秘書,學(xué)校科研處秘書。教職工主要實現(xiàn)科研成果的登記,二級學(xué)院及處室科研秘書主要實現(xiàn)本部門教職工科研成果的審核,學(xué)校科研處秘書主要實現(xiàn)全校教職工科研成果的審核,具體功能需求為:
(1)教職工登錄系統(tǒng)后可以添加、刪除、修改、查看個人的科研成果;
(2)二級學(xué)院及處室科研秘書登錄系統(tǒng)后可以添加、刪除、修改、查看個人的科研成果和審核本部門的科研成果;
(3)二級學(xué)院及處室科研秘書登錄系統(tǒng)后可以添加、刪除、修改、查看個人的科研成果并對全校的科研成果進行自動化初審。學(xué)校科研秘書登錄系統(tǒng)后可以添加、刪除、修改、查看個人的科研成果并對全校的科研成果進行自動化復(fù)審;
(4)科研成果包括論文、專利、專著、立項課題、論文獲獎等信息,所有科研成果能根據(jù)基礎(chǔ)數(shù)據(jù)設(shè)置的參數(shù)自動生成獎勵信息,并對個人獎勵進行統(tǒng)計匯總;
(5)系統(tǒng)能自動生成個人業(yè)績,二級學(xué)院及處室科研業(yè)績、學(xué)校科研業(yè)績相關(guān)圖表,供教職工個人、二級部門領(lǐng)導(dǎo)、學(xué)校領(lǐng)導(dǎo)查看;
(6)系統(tǒng)能按指定條件查詢生成可視化科研成果縱向?qū)Ρ确治鰣D,供校領(lǐng)導(dǎo)查閱;
(7)系統(tǒng)能自動從網(wǎng)上爬取其他同類高校的科研數(shù)據(jù),生成橫向?qū)Ρ瓤梢暬瘓D表,供校領(lǐng)導(dǎo)查看。
2? 平臺功能模塊設(shè)計
根據(jù)平臺需求,對智慧科研成果管理平臺的功能模塊進行了設(shè)計,平臺主要包括基礎(chǔ)數(shù)據(jù)設(shè)置、科研業(yè)績考核、科研成果管理、智能決策管理、系統(tǒng)管理5個模塊,具體設(shè)計如圖1所示。
其中科研成果登管理系統(tǒng)的核心模塊,主要實現(xiàn)科研論文、專利、專著、立項課題及獲獎?wù)撐牡墓芾砗途S護。科研業(yè)績考核模塊包括個人業(yè)績查看、學(xué)院業(yè)績查看、學(xué)校業(yè)績查看。智能決策模塊主要實現(xiàn)歷年學(xué)校論文發(fā)表及立項課題的數(shù)據(jù)分析,學(xué)校歷年發(fā)表論文及立項課題情況與同類高校發(fā)表論文及立項課題情況的橫向?qū)Ρ确治觥?/p>
3? 平臺網(wǎng)絡(luò)爬蟲需求
科研成果登記后,二級學(xué)院及處室科研秘書需對本部門所有教職工的科研成果進行初審,驗證科研成果的真實性,學(xué)校科研處秘書需要對全校教職工的科研成果進行復(fù)審,驗證科研成果的真實性,傳統(tǒng)方法需要科研秘書人工訪問科研成果查新網(wǎng)站,逐條比對教職工登記的科研成果,工作量大,工作效率低。
為減輕科研秘書的工作量,提高科研成果審核的及時性和準(zhǔn)確性,提高科研成果管理效率,有必要引入網(wǎng)絡(luò)爬蟲技術(shù)來爬取網(wǎng)絡(luò)數(shù)據(jù),再將爬取的網(wǎng)絡(luò)數(shù)據(jù)與教職工登記的科研成果數(shù)據(jù)進行比對,來實現(xiàn)科研成果的自動化驗證。
4? 網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用
4.1? 爬蟲技術(shù)
Scrapy爬蟲技術(shù)主要包括爬蟲,項目管道。爬取網(wǎng)絡(luò)數(shù)據(jù)時,先要獲取需要爬取的URL鏈接,再從URL鏈接中找到訪問URL請求頭,并將請求頭內(nèi)容封裝合適的存儲結(jié)構(gòu)。請求頭發(fā)送請求給爬蟲程序,爬蟲程序執(zhí)行完后,將處理后響應(yīng)內(nèi)容提交給項目管道,最后通過項目管道來執(zhí)行具體的數(shù)據(jù)操作。
4.2? 科研成果自動審核關(guān)鍵算法描述
構(gòu)建網(wǎng)絡(luò)爬蟲先需要尋找目標(biāo)相關(guān)網(wǎng)絡(luò),從相關(guān)網(wǎng)絡(luò)上獲取有價值的網(wǎng)頁內(nèi)容;然后分析所獲取的網(wǎng)頁內(nèi)容,并提取有用數(shù)據(jù),在將數(shù)據(jù)存儲到數(shù)據(jù)結(jié)構(gòu)中,最后利用數(shù)據(jù)結(jié)構(gòu)展示或進一步處理,具體程序流程如圖2所示。
先讀取數(shù)據(jù)表中數(shù)據(jù),將數(shù)據(jù)保存在內(nèi)存中,循環(huán)判斷是否是最后一條數(shù)據(jù),如果不是,開始爬取數(shù)據(jù),并提取爬取到的有用數(shù)據(jù),再判斷爬取的數(shù)據(jù)與數(shù)據(jù)庫數(shù)據(jù)是否匹配,如果匹配成功,則修改數(shù)據(jù)表中審核字段標(biāo)志為“已審核”,否則繼續(xù)循環(huán)判斷是否是數(shù)據(jù)表中最后一條數(shù)據(jù),如果是,則退出循環(huán)。
4.3? 核心代碼解析
匹配URL地址數(shù)據(jù)用到Scrapy爬蟲,首先在爬蟲的方法里面獲取數(shù)據(jù)表中數(shù)據(jù),數(shù)據(jù)存入data,關(guān)鍵代碼為:
其中parse_detail為獲取數(shù)據(jù)源方法,獲取數(shù)據(jù)后,要與數(shù)據(jù)庫中數(shù)據(jù)進行匹配,如果匹配成功,再修改審核標(biāo)志,如果匹配不成功,則不修改審核標(biāo)志。
5? 運行效果
通過網(wǎng)絡(luò)爬蟲技術(shù),將爬取的數(shù)據(jù)與數(shù)據(jù)表中登記的數(shù)據(jù)進行對比,如果匹配成功,則修改數(shù)據(jù)表中審核字段為已審核,運行效果如圖3所示。
在圖3中,可以看到審核標(biāo)志已經(jīng)修改為“已審核”,有效減少了科研成果管理人員的工作量,提升了高校的信息資源建設(shè)效率。
6? 結(jié)? 論
根據(jù)高校科研成果管理流程對智慧科研管理平臺進行了需求分析,設(shè)計了智慧科研管理平臺功能模塊,探索了網(wǎng)絡(luò)爬蟲技術(shù)在科研成果真實性驗證中的應(yīng)用,實現(xiàn)了科研成果的自動化審核,在規(guī)范科研成果管理的同時,為智慧科研成果管理的自動化、智能化建設(shè)提供了有力的支撐。
參考文獻:
[1] 曾麗英.基于SSM框架的高校科研管理系統(tǒng)設(shè)計與實現(xiàn) [D].南昌:南昌航空大學(xué),2019.
[2] 李志剛.山大商院科研成果管理系統(tǒng)設(shè)計與實現(xiàn) [D].大連:大連理工大學(xué),2018.
[3] 安素青.基于web的高等學(xué)校科研管理系統(tǒng)的設(shè)計與實現(xiàn) [D].青島:青島大學(xué),2018.
[4] 余帆.云南財經(jīng)大學(xué)科研管理系統(tǒng)設(shè)計與實現(xiàn) [D].濟南:山東大學(xué),2018.
[5] 嚴秋萍.高校科研創(chuàng)新服務(wù)平臺設(shè)計與實現(xiàn) [D].長沙:湖南大學(xué),2018.
[6] 李宛澤.曲靖師范學(xué)院科研成果管理系統(tǒng)的設(shè)計與實現(xiàn) [D].濟南:山東大學(xué),2017.
[7] 張素珍,單振芳,白增山.基于網(wǎng)絡(luò)備份的科技成果管理系統(tǒng)設(shè)計與實現(xiàn) [J].電腦知識與技術(shù),2017,13(27):62-63+88.
[8] 詹楊.高職院校教科研信息管理系統(tǒng)的設(shè)計與實現(xiàn) [J].襄陽職業(yè)技術(shù)學(xué)院學(xué)報,2017,16(1):84-87.
[9] 廖清遠,楊小燕.基于多客戶端的高職院校科研管理系統(tǒng)設(shè)計與實現(xiàn) [J].電腦編程技巧與維護,2016(24):66-67+75.
作者簡介:唐紹華(1980.10—),男,漢族,湖南常寧人,教師,副教授,工程師,碩士,研究方向:職業(yè)技術(shù)教育、軟件架構(gòu)設(shè)計、企業(yè)信息化。