陶 劍,雷文利
(安陽市科學技術信息研究所,河南安陽 455000)
隨著信息社會的發展,科技管理信息化促成信息量大幅增長,同時對于信息提取也帶來難度,提取精確度也不斷提高要求,傳統提取方式越來越難以滿足在大量數據中尋求決策的需求,信息社會只有借助于信息手段才能適合現代需求,我們可以通過數據挖掘工具發現海量數據背后未知的規律或模式,同時為決策層在科學管理決策時提供了有力的依據和有效的支持。
“數據挖掘”也稱為從數據中發現知識,具體來講就是從大規模海量數據中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在的模式或知識。數據挖掘的目的是從海量的看似雜亂無章、毫無關聯的數據當中將信息集中、萃取和提煉出來,從而找出所研究對象的內在規律。通過對歷史數據和當前數據的分析,發現隱藏的關系和模式,進而預測未來可能發生的趨勢。換句話說,數據挖掘改變提升了人們對數據信息的應用,從最初簡單的、低層次的數據應用上升到從大型數據中挖掘出有價值的信息資源,從而最終為決策支持提供依據。數據挖掘的過程大致可分為問題定義、數據抽取、數據預處理、數據挖掘、結果評估與表示等幾個階段。現在常用的數據挖掘技術有關聯規則、決策樹、聚類、分類、變化和偏差分析、回歸分析、Web頁挖掘等。
關聯規則作為一種比較重要的數據挖掘知識模式,是指從數據庫中找出置信度(Confidence)和支持度(Support)都大于給定值的強壯規則,挖掘不同數據項集之間的隱藏的關聯規則。Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法,是一種基于兩階段頻集思想的遞推算法。它主要是采用逐層搜索的迭代方法,從大量數據中找出數據項與數據項之間的關系或規則。Apriori算法的過程如下:首先設定最小支持度minsup和最小置信度minconf;其次,遍歷所有事務集,找出所有的頻繁1項集標記為L1;然后利用L1找頻繁2項集的集合L2,通過L2找L3,依此類推,直至生成所有的頻繁項目集(當支持度大于最小支持度時被稱作頻繁項集)。最后從頻繁項目集中找出符合條件的關聯規則。而本文采用Apriori算法對科技信息之間的關系進行建模和分析,從而找到科技信息之間的關系和規律,為科技管理提供決策支持。
隨著信息化在科技系統中的應用,科技部門建立了科技業務信息管理系統,積累了大量的科技人員、科技項目、科技成果等科技信息。如何找到隱藏這三者之間的深層關系,發現其中的相關規律,方便科技管理、發揮數據挖掘在科技信息管理的作用,本文通過構建數據挖掘模型較好的發現科研人員與科技項目、科技論文之間的關聯,并通過數據挖掘從海量的個體信息中提取到有效的數據便于科技管理層參考,提取的各種規律也可以為合理的分配科技人才和管理科技項目提供參考。本實驗數據源選自安陽市科技信息管理系統,該系統已收集自2006年以來的科技人員512名,涉及農業、化工、醫療、教育、衛生、環境等各個領域;科技成果899項;科技項目已達3014項,涉及工業、農業、成果推廣、國際合作、軟科學等類型。
數據挖掘包括數據準備、數據挖掘和結果分析理解三個步驟。本文研究的重點是分析科技人員的年齡階段、職稱、單位等信息與其所產出的科技成果、參與的科技項目之間的數據關聯規則。具體操作如下:
數據準備包括數據選擇、數據預處理和數據變換等工作。數據選擇是從現有的數據庫或數據倉庫中提取相關數據,形成目標數據。本文研究的數據庫由科技人員表、職稱表、單位表、科技成果表、科技獎勵表、項目表和項目經費等,并從這部分數據庫中選擇數據,并分別構建了科技人員—科技成果、科技人員—科技項目以及科技人員—科技成果—科技項目等數據倉庫進行挖掘,其基本關系如圖2所示。
按照數據挖掘算法的要求對所提取到的數據進行整理,并對數據可能的取值進行編碼處理(如表1所示)。通過精簡維數后所建立的科技人員--科技成果--科技項目挖掘表數據結構如表2所示。

表1 數據可能取值的符號表示

表2 科技人員—科技成果—科技項目挖掘表數據結構
設定MinSup=6% ,MinConf=70%時,通過應用Apfiofi
算法對數據進行挖掘得到結果如表3、4和5所示:

表3 科技人員—科技成果關聯規則

表4 科技人員—科技項目關聯規則

表5 科技人員—科技成果—科技項目關聯規則
在表3科技人員與科技成果的關聯規則中,由I03=>I23置信度為89.23可以看出,在參與科技項目并產生科技成果的科技人員當中,年齡在40歲-50歲的副高級工程師占到89.23%;在表4科技人員與科技項目的關聯規則中,由I03I37=>I23置信度為81.08可以看出,年齡在40歲-50歲并且參與重大科技項目的科技人員中副高級工程師占到81.08%;在表5科技人員、科技成果、科技項目的關聯規則中,由I30I36=>I26+I27置信度為71.42可以看出,在承擔省級科技攻關項目的科技人員中有71.42%的人員申報了省級、市級科技成果。
從初步挖掘出的關聯規則中,得到如下幾點結論:
第一,科技項目負責人中大部分為年齡在40-50歲之間的副高級工程師。由此可見,這部分科研人員的研究意識、科研能力較強,應加強對這部分科技人員在科技政策和科技項目的支持和引導。
第二,40歲以上科技人員參與項目并登記的成果在全市研究成果并獲獎的比重較大,應積極引導并發揮科技項目帶頭人的作用,鼓勵培養更多科技人員參與項目建設研究。
第三,畢業于重點院校、學歷高的科技人員所產出的科技成果和參與的科技項目的比例相對于比較高,應當重視科技人員的深造和繼續學習。
第四,科技人員比重大、有針對性的基礎應用研究的科研項目,其研究開發周期短,且實際應用價值高,能高效快速地解決企業、社會的實際問題,建議加大科技項目中科技人員的比例,在項目選擇時應注重與企業、社會的實際問題、需求相結合。制定相關的科技政策,鼓勵引導科技人員更多的參與科技項目,使科技項目具有更高的科技含量,更高的實用價值。
科技管理部門應進一步加強數據挖掘在科技信息管理中的應用,將數據挖掘的范圍擴展到科技企業、科技論文、科技活動、科技獎勵、科技創新、科技服務等領域。一方面,整合安陽市現有的科技人員,對科技人員按照所屬專業進行歸類,突出科技專家的技術優勢;另一方面,充分收集科技企業對科技技術的需求,加強與高等院校和科研院所的密切合作,引導科技人員與科技項目進行雙向選擇,做好科技需求與科技成果對接,切實做好科技人員與科技企業項目之間的橋梁,搭建好企業、科研人員、項目、成果等信息服務對接平臺。
運用數據挖掘技術對科技管理信息進行分析研究,找出科技管理信息中的隱性知識和內在聯系,揭示其內在隱含規律并應用在實際的管理工作中,對科研項目的前期立項管理、科技人員的綜合評價、科技成果的評估等方面都能發揮重要的作用,對于進一步提升科技信息化管理水平,輔助科技信息管理決策都有積極的促進作用。
[1]傅韜,史贄.數據挖掘技術在水利信息化中的應用[J],江西水利科技,2009,(1).
[2]劉仕筠,盛志偉,郭本俊.數據挖掘在高校教育信息化中的應用[J].教育與職業,2009,(2).
[3]袁堂朋.基于用戶行為模式的Web日志挖掘模型的研究與實現[D].南京:南京郵電大學,2013.
[4]朱新星 等.高校科技信息數據挖掘方法研究[J].中國農業教育,2009.
[5]唐雪春 等.中醫藥科技項目電子化管理探索[J].中醫藥管理雜志,2008.
[6]花開明.基于本體的元數據互操作在電子政務中的應用研究[D].上海:東華大學,2007.
[7]熊芯.基于粗糙集的數據挖掘方法研究[D].哈爾濱:哈爾濱工程大學,2009.
[8]陳寶等.數據挖掘技術在財產保險行業非現場內部審計中的應用[D].合作經濟與科技,2013.