唐云鵬
摘 要:簡要回顧了科技評估方法的發展歷程,從科技評估概念、特點及其在我國的開展情況入手,系統研究了數據挖掘在科技評估中的應用,并對實踐過程中出現的問題進行了分析。將數據挖掘應用于科技評估有助于提高科技評估工作的產出效益,促進科技評估工作進一步發展。
關鍵詞:科技評估;數據挖掘;神經網絡
前言
隨著我國科技計劃管理體制改革的深入,評估活動越來越受到各級政府的高度重視。只有運用科學、公正的方法進行全程評估,才能確保科技項目系統產出的水平及價值,使其真正起到推動社會經濟發展的作用。
評估方法綜合反映了在科技評估活動中各種基本要素之間的相互關系,是科技評估活動的基礎與核心。評估結果的獲取必須依賴于評估的方法。采用科學的、適應評估對象客觀發展規律的評估方法是科技評估工作的重點。科技評估方法的供需矛盾,是制約我國科技評估事業發展的重要因素。近年來,各方面對科技評估的需求日益強烈,但科技評估的方法相對落后不能適應需要。不同部門或地區評估機構的能力與水平參差不齊,評估機構的綜合素質和能力制約了科技評估事業的發展。從目前我國科技評估發展的現狀看,一方面,迫切地需要加強全國評估能力的系統建設,規范科技評估活動;另一方面,需要在實踐特別是承擔重大評估任務過程中,進一步探索符合我國國情的科技評估理論與方法,逐步建立和完善科學的評估規范、標準、手冊等。
一、數據挖掘和科技評估
1.1 早期科技評估方法的概念與特征
(1)共詞分析。共詞分析是指對于給定學科主題的論文做成的數據庫,計算出關鍵詞重復(“共現”)次數,實質上就是一個關于某些共同關鍵詞出現頻率的模型,這種測度方法假設描述科學發現的詞匯是關鍵詞或索引詞。
(2)同行評議法。同行評議法是充分依靠科研人員團隊進行民主管理,選擇更優配置知識生產要素方案的方法。作為評價事物的一種方法,在我國以及歐美國家被廣泛采用,各國科學基金機構基本上都采用這種方法作為資源分配的輔助決策手段。
(3)AHP法(層次分析法)的核心問題是排序問題,包括遞階層次結構原理、標度原理和排序原理。早期的科技評估方法還有很多,具體應用時要根據實際情況進行選擇和改進。
二.數據挖掘概述
數據庫技術的日臻成熟為人們對數據進行深層次探索提供了條件。所謂數據挖掘,就是從數據庫中抽取隱含的、以前未知的、具有潛在應用價值信息的過程。與傳統分析工具不同,數據挖掘使用基于發現的方法,運用模式匹配和其它算法
決定數據之間的重要聯系。總的來說,數據挖掘包含從數據倉庫中萃取價值的各種方法和技術。這些技術掃描大型數據庫,并抽取其中的模式和關系,它們是將統計工具和分析思維相結合的產物,有助于解釋萃取出的信息。近年來,隨著數據挖掘在商業市場中的普及,以下技術獲得青睞并納入數據挖掘技術體系內:決策樹、鏈接分析、最近鄰分析、人工神經網絡、自動聚類探測、記憶推理、遺傳算法等。實質上,數據挖掘技術已經不再是統計學方法的簡單應用,而是要求
規則歸納法、人工智能和關系型數據庫的聯合工作。
上世紀90年代后期,知識工程概念深入人心,各學科的動態增長體現了科學領域的多維性,科研活動進一步要求使用復雜精細的信息檢索技術和挖掘技術,無疑擴大了數據挖掘在“知識發現”方面的影響。“數據——信息——知識”這種線形轉化關系分布在科研多維領域的各個軸線上,數據挖掘是這種線性轉化的起點,更是知識循環反饋中積極的一環,它對現有的知識進行收集、整理、分類和管理,進一步通過知識交流來擴展科學領域整體知識儲備,由此產生出新概念、新思想、新體系。
三.數據挖掘在科技評估中的應用
數據挖掘在從結構化的和非結構化的數據庫析取信息時,關注的是數據庫整體即所有的詞、所有的數量關系和所有的圖像。因為知識的高階結構,如理論、專業等,不僅是文字組合,更體現著一種聚集關系,這種關系的最高級層次是科學期刊和科學書籍。詞、句子、段落和小節等都維系這種聚集關系。在評估科學成果(例如文獻產出)時,數據挖掘是一個適當的測度方法,它將詞放到文獻結構中去考慮,搜索處在這類文獻中出現的句子以及概念構造,以邏輯順序非形式化進行論證。
實質上,數據庫內容結構分析法識別出的是科學主題(或概念)、這些主題間的關系以及它們在文獻數據庫中的發展和進化,允許分析人員創建一個有關科學的主題、論題或理論的進化模型。數據庫內容結構分析法比傳統的共詞分析又進了一步。它通過關注主題或概念,而不是索引詞,能夠對科學文獻進行更豐富的挖掘。引入人工智能后,我們可建立一個半自動、基于規則的數據挖掘系統,在用戶積極參與下完成數據抽取工作。
數據挖據在科學評估中的作用:識別影響或控制科學資源分配的要素、財政和人力資源的耗費。(1)提供與科學工作者相關的資源消耗的模式數據(人口統計學等)。(2)開發關于科學團體的模型以及其它相關服務供應者服務效果的模型。
四、數據挖掘的不足和改進之處
作為多種技術的混合體,數據挖掘已經對科技評估產生了切實的效益。但它也存在一些不足:(1)盡管數據挖掘有能力產生一些模型,但是對于揭示出的模式含義的解釋是獲得良好評估效果的關鍵。例如:揭示出的模型確實反映科技的狀況和進步了嗎?如果是,又反映到了什么程度?應注意科技活動和社會指標之間的聯系,在數據庫內部對相關指標數據進行統計性操作,嘗試發現關聯性。(2)科技評估方法對信息的需求以能全面描述對象多維信息為主,力求準確完整。數據挖掘的效果主要取決于數據和數據源的質量。需加大數據篩選的力度,保證數據的有效性和穩定性。(3)科技評估的方法是以系統工程方法為主的體系,有很廣的集成度。在指標設計方面,如果缺少統一的理論框架,將導致科技指標模型只是簡單的堆砌不同的指標,不能明確闡述更復雜的現象。一個連貫性、實用性強的指標體系應該建立在很強的關聯性基礎之上。可以創立更多的指數并將它們內在一致的方式聯系起來。(4)對算法的過度依賴,會降低計算機化模式的可信度。在科技工作中,需要大量的人員的推理過程,科學假設及論證的過程是大腦思維的過程,計算機算法尚不能完全模擬,但這一點可以通過帶有數據挖掘功能的專家支持系統逐步完成。
對于評估方法的研究,國內外學者做了大量的工作。事實上,數據挖掘對于我國各行各業來說還是一個新興和重要的概念。除科技評估外,電信、零售、稅務、能源等行業都具有數據海量的特點和深度分析的需求,可以預見,這些行業的現有信息系統必然向數據挖掘系統演化,數據挖掘的應用前景十分樂觀。廣闊的應用前景預示著新技術的研發價值,公司最近的一份報告列舉了在今后,年內將對工業產生重要影響的,項關鍵技術,其中以數據挖掘為核心的知識發現和人工智能排名第一。我們有理由相信,在不久的將來,結合了數據挖掘技術的科技評估方法將對中國科技事業取得世界領先地位起到不可替代的作用。
參考文獻:
[1] 張星明 - 科技成果鑒定及其改革的研究 北京:中國科學技術信息研究所
[2] 王屏慧 - 科技項目評價方法.北京:科學出版社
[3] 張晗,崔雷 - 生物信息學的共詞分析研究 情報學報
(作者單位:昆明市科技型中小企業技術創新基金管理中心)