劉占波,王立偉,王曉麗
(牡丹江醫(yī)學(xué)院,黑龍江牡丹江,157011)
大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術(shù)的高校科研管理系統(tǒng)的設(shè)計(jì)
劉占波,王立偉,王曉麗
(牡丹江醫(yī)學(xué)院,黑龍江牡丹江,157011)
本文簡(jiǎn)要分析了目前高校科研管理現(xiàn)狀;介紹了大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù);給出了大數(shù)據(jù)環(huán)境下高校科研管理系統(tǒng)的設(shè)計(jì)方案。
科研管理;大數(shù)據(jù);數(shù)據(jù)挖掘
近年來,大數(shù)據(jù)技術(shù)引起了科技界、產(chǎn)業(yè)界和政府部門的高度關(guān)注。Nature和Science 等國(guó)際頂級(jí)學(xué)術(shù)刊物相繼出版專刊來探討對(duì)大數(shù)據(jù)的研究,大數(shù)據(jù)的開發(fā)與利用已經(jīng)在教育、科研和醫(yī)療等行業(yè)中展開。
隨著數(shù)據(jù)量的與日俱增, 科研管理數(shù)據(jù)庫(kù)中蘊(yùn)藏著大量的信息資源,需要有更先進(jìn)的技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行挖掘以發(fā)揮科研數(shù)據(jù)潛能,從中迅速提取出有價(jià)值的信息以指導(dǎo)和輔助科研管理。因此,有必要在科研管理中引入數(shù)據(jù)挖掘技術(shù),以提高科研管理的水平和能力。
隨著高校信息化建設(shè)的不斷推進(jìn), 高校內(nèi)部運(yùn)行著的各種系統(tǒng)和各類數(shù)據(jù)庫(kù),如教務(wù)系統(tǒng)、學(xué)工系統(tǒng)、人事系統(tǒng)及科研管理系統(tǒng)等。而各個(gè)系統(tǒng)間各自為政,數(shù)據(jù)共享性差,存在嚴(yán)重的信息孤島。而科研管理系統(tǒng)通常又包括項(xiàng)目管理系統(tǒng)、經(jīng)費(fèi)管理系統(tǒng)和成果管理系統(tǒng)等多個(gè)子系統(tǒng),各子系統(tǒng)數(shù)據(jù)獨(dú)立存儲(chǔ),無關(guān)聯(lián)性,嚴(yán)重影響了科研數(shù)據(jù)的挖掘利用。在功能上,科研管理系統(tǒng)主要集中在數(shù)據(jù)的收集、查詢、管理、導(dǎo)出、打印等單一功能。隨著數(shù)據(jù)容量的與日俱增,系統(tǒng)對(duì)海量數(shù)據(jù)的分析統(tǒng)計(jì)功能簡(jiǎn)單、缺少對(duì)數(shù)據(jù)的關(guān)聯(lián)分析、挖掘利用與決策支持等功能。目前的高校科研管理在一定程度上滯后于科研本身的發(fā)展或阻礙著高校科研的發(fā)展。
所謂大數(shù)據(jù),就是用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)的特征,通常用四個(gè)V開頭的關(guān)鍵詞來描述,一是Volume(容量),也就是數(shù)據(jù)體量大;二是Variety(多樣性),即數(shù)據(jù)類型繁多;三是Velocity(速度),數(shù)據(jù)產(chǎn)生和更新的頻率快;四是Value(價(jià)值),數(shù)據(jù)價(jià)值密度低,即海量的數(shù)據(jù)可能包含極少量的有價(jià)值的信息。所以,如何高效提取這些有價(jià)值的信息是關(guān)鍵。大數(shù)據(jù)技術(shù)是網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的有效結(jié)合,是解決數(shù)據(jù)豐富而知識(shí)貧乏的有效途徑,其實(shí)質(zhì)是從數(shù)據(jù)中提取隱含的、未知的和潛在有用信息的過程,被公認(rèn)為是數(shù)據(jù)庫(kù)研究中的一個(gè)極富應(yīng)用前景的新領(lǐng)域。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)掘有趣模式和知識(shí)的過程,數(shù)據(jù)源包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、Web、其它信息存儲(chǔ)庫(kù)或動(dòng)態(tài)地流入系統(tǒng)的數(shù)據(jù)。目前,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘已成為學(xué)術(shù)研究、商業(yè)應(yīng)用以及行政管理的熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)在國(guó)內(nèi)外大型商業(yè)、金融、工業(yè)、郵電和科研等部門得到廣泛應(yīng)用。在科研管理中引入數(shù)據(jù)挖掘技術(shù),是解決科研數(shù)據(jù)豐富而知識(shí)貧乏的有效途徑,可為高校科研管理提供決策支持。
4.1數(shù)據(jù)標(biāo)準(zhǔn)化
近年來,高校科研事業(yè)快速健康發(fā)展,科研及相關(guān)數(shù)據(jù)容量越來越大,蘊(yùn)含的信息越來越多,數(shù)據(jù)挖掘技術(shù)的有效利用將成為高校科研發(fā)展的關(guān)鍵因素。為了更好的實(shí)施數(shù)據(jù)挖掘技術(shù),必需對(duì)科研數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和相關(guān)關(guān)聯(lián)參數(shù)的設(shè)置。比如:科研項(xiàng)目的項(xiàng)目名稱、立項(xiàng)時(shí)間、項(xiàng)目起止時(shí)間、經(jīng)費(fèi)和關(guān)鍵詞等。標(biāo)準(zhǔn)化數(shù)據(jù)將有利于科研數(shù)據(jù)的收集、比對(duì)、整理、分析及數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用。
4.2系統(tǒng)的主要功能高校科研管理系統(tǒng)主要?jiǎng)澐殖扇缦履K:項(xiàng)目申報(bào)模塊、項(xiàng)目管理模塊、成果管理模塊、成果獲獎(jiǎng)模塊、學(xué)術(shù)交流模塊、數(shù)據(jù)挖掘模塊和系統(tǒng)管理模塊等。項(xiàng)目申報(bào)模塊:實(shí)現(xiàn)校內(nèi)科研項(xiàng)目的申報(bào)、審核、評(píng)審、立項(xiàng)等功能。項(xiàng)目管理模塊:實(shí)現(xiàn)科研項(xiàng)目信息的錄入、查詢、管理(項(xiàng)目的暫停、中止與結(jié)題等)、數(shù)據(jù)分析與統(tǒng)計(jì)和科研經(jīng)費(fèi)管理等功能。其中科研經(jīng)費(fèi)管理包括科研經(jīng)費(fèi)的進(jìn)帳、提取、支出與結(jié)轉(zhuǎn)四個(gè)方面。成果管理模塊:科研成果是高校從事科研活動(dòng)的主要結(jié)果,能夠反映高校的整體科研水平。該模塊主要功能是實(shí)現(xiàn)著作、論文、專利與鑒定成果等信息的錄入、查詢、管理與數(shù)據(jù)分析等。成果獲獎(jiǎng)模塊:主要功能是記錄成果報(bào)獎(jiǎng)信息與成果的獲獎(jiǎng)信息,并對(duì)相關(guān)信息進(jìn)查詢、管理、統(tǒng)計(jì)與分析等。學(xué)術(shù)交流模塊:該模塊涉及到學(xué)術(shù)會(huì)議(舉辦/參加)、受聘講學(xué)(派遣/接受)、訪問考察(派遣/接受)、進(jìn)修學(xué)習(xí)(派遣/接受)四個(gè)方面。數(shù)據(jù)挖掘模塊:對(duì)科研數(shù)據(jù)進(jìn)行不同維度的數(shù)據(jù)挖掘,為科研管理提供決策支持。系統(tǒng)管理模塊:為系統(tǒng)管理員及部門、科室管理員提供實(shí)時(shí)監(jiān)控系統(tǒng)運(yùn)行的狀態(tài),包括系統(tǒng)相關(guān)參數(shù)、開關(guān)、用戶權(quán)限的設(shè)置及系統(tǒng)基本信息、用戶數(shù)據(jù)、系統(tǒng)日志及數(shù)據(jù)庫(kù)的管理與維護(hù)等功能。
4.3關(guān)鍵技術(shù)
系統(tǒng)采用基于Microsoft .NET技術(shù)的B/S(瀏覽器/服務(wù)器)模式運(yùn)行,用戶通過瀏覽器就可以實(shí)現(xiàn)科研數(shù)據(jù)的管理與維護(hù);系統(tǒng)前臺(tái)web頁(yè)面采用Microsoft Visual Studio 2010開發(fā)環(huán)境進(jìn)行設(shè)計(jì)與制作;系統(tǒng)后臺(tái)科研與成果數(shù)據(jù)庫(kù)采用Microsoft SQL Server 2008進(jìn)行數(shù)據(jù)庫(kù)設(shè)計(jì)與數(shù)據(jù)的存儲(chǔ)。系統(tǒng)通過數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析、整理,最終形成數(shù)據(jù)分析報(bào)告。
4.4數(shù)據(jù)挖掘算法
系統(tǒng)擬采用的數(shù)據(jù)挖掘算法包括:(1)Apriori算法,是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則的算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。(2)C4.5算法,是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型;它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。(3)貝葉斯分類的基礎(chǔ)是概率推理,就是在各種條件的存在不確定,僅知其出現(xiàn)概率的情況下,如何完成推理和決策任務(wù)。通過上述數(shù)據(jù)挖掘算法實(shí)現(xiàn)對(duì)科研數(shù)據(jù)關(guān)聯(lián)性的分析及數(shù)據(jù)的深度挖掘,并對(duì)高校科研管理工作提供決策支持。
本系統(tǒng)除實(shí)現(xiàn)科研管理的基本功能之外,主要實(shí)現(xiàn)從不同角度,依據(jù)不同參數(shù)對(duì)科研數(shù)據(jù)的關(guān)聯(lián)性等方面的研究。并使用不同的數(shù)據(jù)挖掘算法對(duì)科研數(shù)據(jù)進(jìn)行分析與數(shù)據(jù)挖掘,為高校的科研管理提供決策支持,解決信息孤島等問題。
[1]許哲軍,大數(shù)據(jù)環(huán)境下的高校科研管理信息化探索[J]. 技術(shù)與創(chuàng)新管理,2014,2(35):112-114.
[2]郭卜銘,高校科研管理中的數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技與產(chǎn)業(yè),2007,6(7):38-40.
[3]王鳴,科研管理信息系統(tǒng)的數(shù)據(jù)挖掘應(yīng)用探討[J].瓊州學(xué)院學(xué)報(bào),2014,2(20):152-153.
[4]郭卜銘,高校科研管理中的數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技與產(chǎn)業(yè),2007,6(7):38-41.
[5]查東輝,數(shù)據(jù)挖掘在高校教務(wù)及科研管理中的應(yīng)用[J].科技管理研究,2009,4:109-110.
[6]徐守軍,數(shù)據(jù)挖掘技術(shù)在科研管理中應(yīng)用前景初探[J].中學(xué)醫(yī)學(xué)科研管理雜志,2005,4(18),214-216.
Design of Scientific Research Management System Based on Data Mining Under Big Data Environment
Liu Zhanbo, Wang Liwei, Wang Xiaoli
(Mudanjiang Medical University, Mudanjiang, 157011)
This paper briefly analyzes the present situation of scientific research management in universities, introduces the big data and data mining technology, and presents the design scheme of university scientific research management system under the environment of big data.
Scientific research management; Big data; Data mining
牡丹江市科學(xué)技術(shù)計(jì)劃項(xiàng)目(Z2015g0001);黑龍江省學(xué)位與研究生教育教學(xué)改革研究項(xiàng)目(JGXM_HLJ_2015136);牡丹江醫(yī)學(xué)院科學(xué)技術(shù)研究項(xiàng)目(ZS201503)。