陳立新
【摘 要】本文在對已有的科學技術成果計量與評價方法進行統(tǒng)一考察和綜合分析的基礎上,主要以文本語義分析和引文網(wǎng)絡分析為主,通過知識元和引文對關鍵核心專利進行識別,并對專利技術前沿領域和熱點領域進行預判。本文的主要目標是構建一套基于知識元和引文的專利技術成果計量和評價的指標、模型、方法和理論體系,為技術成果的計量和評價探索出一種新的模式和新的途徑。
【關鍵詞】知識元;專利;引文分析;內(nèi)容分析;專利計量與評價
【Abstract】Based on investigating and comprehensive analyzing for the methods used for measuring and evaluating science and technology achievements,the article present a method,by using text semantic analysis and citation network analysis, to identify the core patents,the patent technology frontier and the hot fields. This articles main goal is to build a set of indicators, models, methods and theoretical system based on citation analysis and content analysis, which could be a new mode and new way for measuring and evaluating technical achievements.
【Key words】Knowledge element;Patent;Citation analysis;Content analysis;Measurement and evaluation of patents
0 引言
技術創(chuàng)新已經(jīng)成為我國的重大戰(zhàn)略目標,專利作為一種重要的技術創(chuàng)新成果,對當今社會的經(jīng)濟發(fā)展產(chǎn)生了重大而深遠的影響。因此,需要及時了解當前專利技術發(fā)展的真實狀況、前沿領域及發(fā)展態(tài)勢。目前對專利技術成果的計量和評價已經(jīng)成為當前社會迫切需要解決的重大問題,這對整體了解和把握專利技術的發(fā)展狀況和實現(xiàn)國家技術創(chuàng)新的戰(zhàn)略目標具有非常重要的意義[1-2]。
然而,目前對專利成果的計量和評價研究有明顯的不足,不管是在理論方面還是在指標和模型等方面,主要是借用和沿襲對科學論文成果的計量和評價模式[3]。這些方法和指標可以簡單明了地計量出科學發(fā)展的大體概況,但是往往不能精確地反應出技術發(fā)展的個體差異和特征??梢哉f,評價科學論文的理論、方法、指標和模型并不能完全用來評價專利技術成果。而一些重大的關鍵專利技術可能會對社會產(chǎn)生極大的影響,因此如何識別和評價關鍵專利技術,把握和跟蹤專利技術研發(fā)的熱點領域和前沿領域就成為技術領域成果計量和評價的重大問題。當前,有很多學者已經(jīng)將數(shù)據(jù)挖掘和文本語義分析技術應用于專利文獻的統(tǒng)計、分析、評價和預測,并取得了良好的效果[4-5]。文本分析方法主要是深入專利文獻的內(nèi)部,從知識元的角度分析專利的研究內(nèi)容,進而對其進行分析和聚類,并在此基礎上對專利成果進行評價和預測[6]。可以更準確地識別和判斷專利技術研發(fā)的熱點領域,以及預測專利技術的成熟度和老化程度[7]。
在深入分析和借鑒當前專利計量和評價研究成果的基礎上,本文提出了文本語義分析與引文網(wǎng)絡分析相結合的專利計量和評價方法體系。該方法主要是以專利文獻的內(nèi)部文本信息和專利引文信息為統(tǒng)計分析對象,以關鍵核心專利技術識別、專利技術前沿領域和熱點領域預判為主要任務,最終建立一套全新的專利計量與評價的指標、模型、理論和方法體系。本文以美國專利文獻為樣本進行專利計量和評價的案例研究。從美國專利數(shù)據(jù)庫下載了1976年以后的所有文本型的專利全文數(shù)據(jù),共計500多萬篇專利文獻。本文在數(shù)據(jù)挖掘的基礎上,深入專利文獻內(nèi)部,從知識的最小不可再分單位——知識元的角度對專利文獻進行深度文本語義分析。藉此對關鍵核心專利進行識別,并對專利技術前沿領域和熱點領域進行預判。
本研究可以為科研管理部門和科技研發(fā)部門了解和評價專利技術成果,選擇和確定關鍵技術研發(fā)領域及重點攻關方向提供有價值的情報信息。因此,基于知識元與引文的專利計量和評價研究是一項既具有重大理論意義又具有重大社會應用價值的課題。
1 基于內(nèi)容分析與引文分析的專利計量與評價體系的構建
本文在對已有的科學技術成果計量與評價方法進行統(tǒng)一考察和綜合分析的基礎上,主要以文本語義分析和引文網(wǎng)絡分析為主,通過知識元和引文網(wǎng)絡對關鍵核心專利進行識別,并對專利技術前沿領域和熱點領域進行預判。本文的主要目標是構建一套基于知識元和引文的專利技術成果計量和評價的指標、模型、方法和理論體系,為技術成果的計量和評價探索出一種新的模式和新的途徑,并為科研管理部門和科技研發(fā)部門了解和評價專利技術成果,選擇和確定關鍵技術研發(fā)領域及重點攻關方向提供有價值的情報信息。
1.1 基于知識元的專利文獻的語義分析
從美國專利數(shù)據(jù)庫下載相關數(shù)據(jù),利用數(shù)據(jù)挖掘等技術對專利文獻進行初步整理和加工,從知識的最小不可再分單位——知識元入手,分別對詞語、句子、單篇文獻3個層級的文本做語義分析,計算專利文獻的相似性,進行聚類分析。美國專利商標局的專利數(shù)據(jù)庫提供了1790年以來美國授權的所有專利文獻,包括發(fā)明、外觀設計等600多萬項專利文獻數(shù)據(jù),1976年以后的數(shù)據(jù)包括圖像型和文本型的專利全文數(shù)據(jù)。從美國專利數(shù)據(jù)庫下載1976年以后的所有文本型的專利全文數(shù)據(jù),共計500多萬篇專利文獻。以美國專利文獻數(shù)據(jù)為樣本對其進行文本分析,將專利標題、摘要、專利說明書正文和權利要求這4部分內(nèi)容按照一定的權重分析其文本的語義內(nèi)容。在數(shù)據(jù)挖掘的基礎上,深入專利文獻內(nèi)部,從知識的最小不可再分單位——知識元的角度對專利文獻進行深度文本語義處理。具體研究過程是首先從詞的語義相似性入手,將任意兩個專利文本中的每一個句子所包含的詞語進行分析,同時使用同義詞詞典和相關軟件對詞語進行語義消歧和計算語義距離。然后在詞語相似性的基礎上對兩個句子的相似性進行計算,并在句子相似性的基礎上對兩個文本進行相似性計算。最后,按照兩個文本相似性的語義分析方法對所有專利文獻進行分析,設定相似性的閾值和構建相似性矩陣,通過相似性矩陣進行聚類分析,將研究內(nèi)容大致相同的專利劃歸為一個研究領域。
1.2 構建基于知識元的專利計量和評價體系
在對專利文獻語義分析的基礎上,構建引文數(shù)據(jù)庫,進行引文網(wǎng)絡分析,識別關鍵核心專利,判斷專利技術的前沿領域和熱點領域。具體研究過程是從某一個大類的專利文獻入手,在文本語義分析的基礎上,從知識元和時間序列的角度考察某一專利技術的新穎程度。通過統(tǒng)計和分析各個領域專利文獻的時間序列,即可識別和判斷專利技術的新穎性和老化程度。如果某一類專利及其相似專利在短時間內(nèi)大量涌現(xiàn)則認為該類專利有可能正在形成一個熱點領域并有可能成為當前的研究前沿領域;若研究內(nèi)容相似的專利在時間序列上很早就已經(jīng)出現(xiàn),目前該類專利的數(shù)量逐年下降,則可以認為該類專利正在老化。然后在此基礎上,對大量涌現(xiàn)的專利進行引文分析。在引文分析中,結合文本語義分析的聚類結果,根據(jù)研究的需要形成多級引文網(wǎng)絡,即構建單項專利文獻——某一專利技術領域——專利技術大類等各個層級的專利引文網(wǎng)絡。將引文分析法結合各個層級的專利研究內(nèi)容,通過知識元與引文相結合的方法對關鍵核心專利、專利技術前沿領域和熱點領域進行分析。一般而言高水平的專利會得到同行的認可,特別是一些關鍵核心領域的技術會在同行中產(chǎn)生很大的影響并得到特別多的關注,因此關鍵核心專利的被引用率就會在短時期內(nèi)躍升。通過知識元與引文相結合,即可綜合判斷出專利技術的前沿領域和熱點領域,識別出關鍵核心專利。最終通過理論研究和實際案例研究,可以構建出一套基于知識元與引文的專利技術成果計量和評價的指標、模型、方法和理論體系。
2 結語
本文主要以專利文本語義分析和專利引文網(wǎng)絡分析為主,通過知識元和引文對關鍵核心專利進行識別,并對專利技術前沿領域和熱點領域進行預判,構建一套基于知識元和引文的專利技術成果計量和評價的指標、模型、方法和理論體系,為技術成果的計量和評價探索出一種新的模式和新的途徑。
【參考文獻】
[1]汪雪鋒,劉曉軒,朱東華.專利價值評價指標研究[J].科學管理研究,2008(6):115-117.
[2]萬小麗,朱雪忠.專利價值的評估指標體系及模糊綜合評價[J].科研管理,2008(2):185-191.
[3]肖國華,王春,姜禾,郭婕婷.專利分析評價指標體系的設計與構建[J].圖書情報工作,2008(3):96-99.
[4]王敏,李海存,許培揚.國外專利文本挖掘可視化工具研究[J].圖書情報工作, 2009(24):86-90.
[5]劉玉琴,汪雪鋒,雷孝平.基于文本挖掘技術的專利質(zhì)量評價與實證研究[J].計算機工程與應用,2007(33):12-14.
[6]彭繼東,譚宗穎.一種基于文本挖掘的專利相似度測量方法及其應用[J].情報理論與實踐, 2010(12):114-118.
[7]劉玉琴,朱東華,呂琳.基于文本挖掘技術的產(chǎn)品技術成熟度預測[J].計算機集成制造系統(tǒng), 2008(3): 506-510.
[責任編輯:田吉捷]