陳玉亮,張代華
(江蘇科技大學(xué)檔案館,江蘇 鎮(zhèn)江 212003;江蘇科技大學(xué)信息中心,江蘇 鎮(zhèn)江 212003)
數(shù)據(jù)挖掘技術(shù)應(yīng)用于科研檔案的實(shí)證研究
陳玉亮,張代華
(江蘇科技大學(xué)檔案館,江蘇 鎮(zhèn)江212003;江蘇科技大學(xué)信息中心,江蘇 鎮(zhèn)江212003)
隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,其在社會(huì)各領(lǐng)域得到了廣泛的應(yīng)用,并顯現(xiàn)出巨大的價(jià)值。本文以江蘇科技大學(xué)獲得資助的國(guó)家級(jí)科研項(xiàng)目為例,分別采用聚類分析法和關(guān)聯(lián)規(guī)則分析法對(duì)近五年來(lái)獲批的國(guó)家級(jí)科研項(xiàng)目組數(shù)據(jù)集進(jìn)行了數(shù)據(jù)挖掘,為學(xué)校找出科研重點(diǎn)領(lǐng)域,凝練出學(xué)科發(fā)展特色提供決策依據(jù)。
數(shù)據(jù)挖掘;聚類分析;關(guān)聯(lián)規(guī)則分析
本文著錄格式:陳玉亮,張代華. 數(shù)據(jù)挖掘技術(shù)應(yīng)用于科研檔案的實(shí)證研究[J]. 軟件,2016,37(9):52-54
科研檔案是高等學(xué)校科研發(fā)展的縮影和真實(shí)寫照,是反映高校科學(xué)研究和科研管理水平的重要標(biāo)志,是高校實(shí)力的見(jiàn)證。科學(xué)研究水平是各高校核心競(jìng)爭(zhēng)力的關(guān)鍵所在,支撐和引領(lǐng)學(xué)科建設(shè)與發(fā)展。隨著高校科技創(chuàng)新競(jìng)爭(zhēng)的日趨激烈,在科技資源配置方面,高端人才和重點(diǎn)重大項(xiàng)目資助的集中度不斷升級(jí)。與各“985”高校、國(guó)子頭的科研院所相比,地方普通高校與它們的創(chuàng)新競(jìng)爭(zhēng)力差距不斷擴(kuò)大,只有可能在少數(shù)優(yōu)勢(shì)學(xué)科具有一定競(jìng)爭(zhēng)力,在面上科研任務(wù)競(jìng)爭(zhēng)中占有一定份額。多年來(lái),高校在科研管理中積累了很多數(shù)據(jù),但這些數(shù)據(jù)只是簡(jiǎn)單的以案卷目錄的形式存儲(chǔ)在檔案管理系統(tǒng)中,在高校的科研決策中并沒(méi)有得到充分利用,還停留在傳統(tǒng)的管理水平上。如何利用已有的科研檔案信息明確自己的科研優(yōu)勢(shì),找出科研重點(diǎn)領(lǐng)域,凝練出品牌特色,以應(yīng)對(duì)普通省屬高校發(fā)展的嚴(yán)峻挑戰(zhàn),提升自己的核心競(jìng)爭(zhēng)力,是目前普通省屬高校亟須解決的重大課題。
數(shù)據(jù)挖掘是一種深層次的數(shù)據(jù)分析方法, 是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又具有潛在價(jià)值的數(shù)據(jù)信息和知識(shí)的過(guò)程[1]。數(shù)據(jù)挖掘是一種全新的信息處理技術(shù),其主要特點(diǎn)是對(duì)大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù),把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持[2]。目前數(shù)據(jù)挖掘已廣泛應(yīng)用于商業(yè)零售、電信、金融、電力、保險(xiǎn)、生物信息學(xué)和醫(yī)療等行業(yè)。
聚類分析是根據(jù)數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息,將數(shù)據(jù)對(duì)象分組[3],并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度,不同組中的數(shù)據(jù)對(duì)象具有較低的相似度[4]。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的重要工具之一[5],關(guān)聯(lián)規(guī)則分析是用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系的過(guò)程。關(guān)聯(lián)規(guī)則的強(qiáng)度可以用它的支持度和置信度來(lái)度量。支持度是一種重要度量,因?yàn)橹С侄群艿偷囊?guī)則可能只是偶然出現(xiàn);另一方面,對(duì)于給定的規(guī)則X→Y,置信度越高,Y在包含X的事務(wù)中出現(xiàn)的可能性就越大。
2.1應(yīng)用背景介紹
國(guó)家級(jí)科研項(xiàng)目[6]是高校及科研院所科研實(shí)力及學(xué)術(shù)水平的一項(xiàng)重要指標(biāo),是高校高水平縱向研究課題經(jīng)費(fèi)的主要來(lái)源。江蘇科技大學(xué)作為江蘇省省屬高校,一直以來(lái)都非常重視國(guó)家級(jí)科研項(xiàng)目的申報(bào)和管理工作,在獲得批準(zhǔn)項(xiàng)目數(shù)量與資助金額不斷提升的同時(shí),學(xué)校的科研實(shí)力和學(xué)術(shù)水平也躍上了一個(gè)新臺(tái)階。多年來(lái),我校在科學(xué)研究過(guò)程中積累了很多數(shù)據(jù),但這些數(shù)據(jù)只是簡(jiǎn)單的以案卷目錄的形式存儲(chǔ)在檔案管理系統(tǒng)中,在學(xué)校的科研決策中并沒(méi)有得到充分利用,本文以江蘇科技大學(xué)2011—2015年獲得資助的國(guó)家級(jí)科研項(xiàng)目為例, 應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)參與國(guó)家級(jí)科研項(xiàng)目的課題組進(jìn)行了科研績(jī)效評(píng)估,為學(xué)校找出科研重點(diǎn)領(lǐng)域和優(yōu)勢(shì)學(xué)科、凝練出品牌特色提供決策依據(jù),同時(shí)進(jìn)一步探討科研績(jī)效與科研人員最高學(xué)位、職稱、年齡之間的關(guān)系,從而實(shí)現(xiàn)科研團(tuán)隊(duì)的優(yōu)化配置。
2.2數(shù)據(jù)選擇及預(yù)處理
2.2.12011至2015年江蘇科技大學(xué)國(guó)家級(jí)科研項(xiàng)目基本情況分析
近五年來(lái),江蘇科技大學(xué)所獲自然科學(xué)與社會(huì)科學(xué)國(guó)家級(jí)項(xiàng)目實(shí)現(xiàn)了質(zhì)與量的飛躍,獲資助項(xiàng)目數(shù)逐年遞增,資助經(jīng)費(fèi)也實(shí)現(xiàn)了穩(wěn)步增長(zhǎng),獲資助項(xiàng)目數(shù)從2011的24項(xiàng)增加到2015年的45項(xiàng),資助經(jīng)費(fèi)從2011年的659萬(wàn)元增加到2015年的1478萬(wàn)元(其中2013年葛世倫教授申請(qǐng)的“基于云的管理信息系統(tǒng)再造研究”項(xiàng)目作為重點(diǎn)項(xiàng)目,資助經(jīng)費(fèi)為220萬(wàn)元)。
2.2.2課題組數(shù)據(jù)集
國(guó)家級(jí)科研項(xiàng)目相關(guān)信息包括項(xiàng)目名稱、申請(qǐng)領(lǐng)域、資助經(jīng)費(fèi)、負(fù)責(zé)人年齡、項(xiàng)目組成員最高學(xué)位、專業(yè)、職稱、批準(zhǔn)年度。基于此,本文構(gòu)造了課題組數(shù)據(jù)集,并利用聚類方法對(duì)其進(jìn)行了分析。課題組數(shù)據(jù)集由項(xiàng)目資助經(jīng)費(fèi)、負(fù)責(zé)人年齡、項(xiàng)目組中博士人數(shù)、碩士人數(shù)、學(xué)士人數(shù)、其他人數(shù)、教授(正高)人數(shù)、副教授(副高)人數(shù)、講師(中級(jí))人數(shù)、助教(初級(jí))人數(shù)、項(xiàng)目中各專業(yè)的人數(shù)組成。2011—2015年江蘇科技大學(xué)共獲批了185個(gè)國(guó)家級(jí)項(xiàng)目,有156個(gè)專業(yè)共 815名科研人員參與。因此,本文為課題組數(shù)據(jù)集添加了對(duì)應(yīng)于這156個(gè)專業(yè)的人數(shù)屬性, 以便發(fā)現(xiàn)項(xiàng)目組人員專業(yè)差別對(duì)國(guó)家級(jí)項(xiàng)目的影響。項(xiàng)目負(fù)責(zé)人年齡劃分成<=30、31-35、36-40、41-45、46-50、51-55、56-60、61-65、>=66共9個(gè)年齡段。
2.3基于數(shù)據(jù)挖掘的課題組科研績(jī)效評(píng)估
2.3.1課題組數(shù)據(jù)集的聚類分析

表1 課題組數(shù)據(jù)集聚類結(jié)果
課題組數(shù)據(jù)集的聚類結(jié)果顯示,簇1中的項(xiàng)目數(shù)為45,大部分是面上項(xiàng)目或者重點(diǎn)項(xiàng)目,資助經(jīng)費(fèi)額較高、課題組科研能力較強(qiáng),僅占總項(xiàng)目的24.3%;簇2中的項(xiàng)目數(shù)為140,占總項(xiàng)目的75.7%。結(jié)合聚類結(jié)果的簇中心情況如表1所示,簇1的各項(xiàng)指標(biāo)都優(yōu)于簇2,尤其是教授人數(shù)和資助經(jīng)費(fèi)額。本文還利用決策樹(shù)分析聚類結(jié)果,發(fā)現(xiàn)教授人數(shù)、講師人數(shù)和資助經(jīng)費(fèi)是導(dǎo)致這種項(xiàng)目聚類結(jié)果的重要因素。簇1共包含材料學(xué)11項(xiàng)、海洋工程10項(xiàng)、機(jī)械工程7項(xiàng)、管理科學(xué)與工程7項(xiàng)、養(yǎng)蠶學(xué)5 項(xiàng)、自動(dòng)化2項(xiàng)、物理學(xué)2項(xiàng)、生物學(xué)1項(xiàng)目。這說(shuō)明了材料學(xué)、海洋工程、機(jī)械工程、管理科學(xué)與工程、養(yǎng)蠶學(xué)是江蘇科技大學(xué)自然科學(xué)的優(yōu)勢(shì)研究學(xué)科,自動(dòng)化、物理學(xué)、生物學(xué)等學(xué)科在快速發(fā)展,計(jì)算機(jī)科學(xué)、電子學(xué)等其他學(xué)科還需要提高。簇2的負(fù)責(zé)人年齡段指標(biāo)顯示這些項(xiàng)目申請(qǐng)人比較年輕,絕大多數(shù)都小于40歲,正是出科研成果的黃金時(shí)期,他們是學(xué)校科研隊(duì)伍的生力軍;簇1的負(fù)責(zé)人年齡段指標(biāo)顯示項(xiàng)目申請(qǐng)人具有豐富的科研經(jīng)驗(yàn),但超過(guò)一半以上的人在50歲以上,人才成長(zhǎng)有些脫節(jié),年輕教師沒(méi)有能夠及時(shí)頂上來(lái),不利于學(xué)校的長(zhǎng)遠(yuǎn)發(fā)展。
2.3.2課題組數(shù)據(jù)集的關(guān)聯(lián)規(guī)則分析
本文在聚類分析的基礎(chǔ)上,采用關(guān)聯(lián)規(guī)則分析法來(lái)探討科研績(jī)效評(píng)估結(jié)果與科研人員的最高學(xué)位、職稱、年齡之間的關(guān)系。數(shù)據(jù)表見(jiàn)表2,其中,表1中簇1欄中項(xiàng)目組人員的評(píng)估結(jié)果為優(yōu),簇2欄中項(xiàng)目組人員的評(píng)估結(jié)果為良。對(duì)科研人員的年齡進(jìn)行了分段,A1表示科研人員年齡<=30歲,A2表示31-35歲,A3表示36-40歲,A4表示41-45歲,A5表示46-50歲,A6表示51-55歲,A7表示56-60歲,A8表示61-65歲,A9表示>=66歲。

表2 項(xiàng)目組科研人員數(shù)據(jù)表
通過(guò)關(guān)聯(lián)規(guī)則Apriori算法挖掘出項(xiàng)目組科研人員數(shù)據(jù)表中各個(gè)屬性之間的關(guān)聯(lián)規(guī)則,并設(shè)定Smin=0.05,Cmin=0.20,得出如下的關(guān)聯(lián)規(guī)則,如表3所示。表3中X表示最高學(xué)位和職稱,Y表示評(píng)估結(jié)果。

表3 關(guān)聯(lián)規(guī)則
從表3中的關(guān)聯(lián)規(guī)則可知:擁有博士或碩士學(xué)位的人員科研經(jīng)驗(yàn)豐富,評(píng)定結(jié)果為優(yōu)的可信度和支持度較高;具有教授或副教授職稱的人員具有豐富的科研經(jīng)驗(yàn),評(píng)定結(jié)果為優(yōu)的可信度和支持度較高。從加強(qiáng)學(xué)校科研團(tuán)隊(duì)建設(shè)目標(biāo)出發(fā),應(yīng)該吸收學(xué)位低的人員參與科研活動(dòng)[7],同時(shí)要培養(yǎng)職稱低的人員,豐富他們的科研經(jīng)驗(yàn),提高他們的科研能力。
本文對(duì)江蘇科技大學(xué)2011—2015年間獲批的國(guó)家級(jí)項(xiàng)目數(shù)據(jù)集進(jìn)行了數(shù)據(jù)挖掘,結(jié)果表明材料學(xué)、海洋工程、機(jī)械工程、管理科學(xué)與工程、養(yǎng)蠶學(xué)是江蘇科技大學(xué)自然科學(xué)的優(yōu)勢(shì)研究學(xué)科,自動(dòng)化、物理學(xué)、生物學(xué)等學(xué)科在快速發(fā)展,計(jì)算機(jī)科學(xué)、電子學(xué)等其他學(xué)科還需要提高。同時(shí)對(duì)項(xiàng)目組科研人員數(shù)據(jù)信息進(jìn)行了關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)了受教育程度和職稱是影響科研人員科研績(jī)效的主要因素,從而可以實(shí)現(xiàn)科研團(tuán)隊(duì)的優(yōu)化配置,提高科研能力。通過(guò)以上分析,為凝練江蘇科技大學(xué)優(yōu)勢(shì)科研領(lǐng)域,確定科研創(chuàng)新團(tuán)隊(duì)、重點(diǎn)項(xiàng)目、標(biāo)志性成果等的培育對(duì)象提供了參考決策依據(jù);為有的放矢地支持重點(diǎn)科研領(lǐng)域建設(shè)、提升學(xué)校核心競(jìng)爭(zhēng)力奠定了一定的基礎(chǔ)。
[1] 馮文霞, 王廣安. 數(shù)據(jù)挖掘在服務(wù)成本預(yù)測(cè)方面的應(yīng)用研究(SDCF-DM)[J]. 軟件, 2013, 34(4): 46-48
[2] 曾洪周. 數(shù)據(jù)挖掘在國(guó)土資源檔案館中的應(yīng)用[J]. 蘭臺(tái)世界, 2007, (12), 11-12.
[3] Pang-Ning Tan, Michael Steinbach. 數(shù)據(jù)挖掘?qū)д揫M]. 北京: 人民郵電出版社, 2010.
[4] 楊雪霞. 數(shù)據(jù)挖掘技術(shù)在高校圖書館管理系統(tǒng)中的應(yīng)用研究[J]. 軟件, 2011, 32(4): 16-18.
[5] 刁雅靜, 盧健. 基于權(quán)重的關(guān)聯(lián)模式分析改進(jìn)在網(wǎng)站優(yōu)化中的應(yīng)用[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 26(3), 305-308.
[6] 徐立波. 高校科研業(yè)績(jī)積分管理系統(tǒng)研究[J]. 軟件, 2014, 35(2): 10-12.
[7] 秦勤, 段秋紅, 何永強(qiáng). 科研績(jī)效評(píng)估中的數(shù)據(jù)挖掘研究[J]. 河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版), 2010, 22(4), 60-62.
Empirical Study of Applying of Data Mining Technology in Scientific Research Archives
CHEN Yu-liang1, ZHANG Dai-hua2
(1. Archives of Jiangsu University of Science and Technology, Jiangsu Zhenjiang, 212003; 2. Information Center of Jiangsu University of Science and Technology, Jiangsu Zhenjiang, 212003)
With the development of data mining technology, it has been widely used in various fields of society and showed great value. This paper take nearly five years State-level scientific research projects of Jiangsu University of Science and Technology as an example and use clustering analysis and association rules analysis to mine the projects data set to provide decision-making basis on finding focus research areas and condensed out of the development characteristics of disciplines.
Data mining; Clustering analysis; Association rules analysis
TP399
A
10.3969/j.issn.1003-6970.2016.09.012
江蘇省現(xiàn)代教育技術(shù)研究2014年度立項(xiàng)課題(2014-R-32532)
陳玉亮(1979-),男,江蘇鹽城人,碩士,館員,主要研究方向?yàn)闄n案信息化;張代華(1973-),男,湖北荊門人,高級(jí)實(shí)驗(yàn)師,主要研究方向?yàn)楦咝P畔⒒?/p>