

【摘 要】專利分析是現代企業運行中的一個重要技術基礎。常見的專利分析方法可分為基于統計、內容和數字挖掘等多種方法,每種方法的目標、方法和過程均不同,為了方便科技人員選擇使用,本文對常用的專利分析方法進行綜述。
【關鍵詞】專利分析;引文分析;數據挖掘;內容分析
專利作為技術信息最有效的載體,對于知識產權戰略的實施和企事業單位的研發活動具有重要的意義[1,2]。據世界知識產權組織(WIPO)的統計,全世界每年有 95%~98%的發明創造成果都可以在專利文獻中查到[3]。
隨著世界技術競爭的日益激烈, 各國企業紛紛開展專利戰略研究[4], 其核心正是專利分析, 即對專利說明書、專利公報中大量零碎的專利信息進行分析、加工、組合, 并利用統計學方法和技巧使這些信息轉化為具有總攬全局及預測功能的競爭情報, 從而為企業的技術、產品及服務開發中的決策提供參考[5]。
通過專利分析,可以了解技術的發展現狀和趨勢, 獲知重要的研究機構、發明人,找到核心的技術,為科技創新、知識產權保護等提供參考。技術研發人員可以充分利用專利信息攻克技術難關、避免重復研發,同時還可以進行專利侵權預警專利規避等工作[6~8]。
專利分析不僅是企業爭奪技術的前提, 更是企業發展其技術策略, 評估競爭對手的技術實力的手段[9]。因此, 專利分析已經成為企業戰略與競爭分析中一種獨特而實用的分析方法,已經成為企業競爭情報常用分析方法之一。
本文對各種專利分析方法進行綜述,對情報分析人員根據具體需要,快速掌握和選擇合適的專利分析方法具有重要意義。
一、基于統計的專利分析
采用統計學方法分析專利主要有專利信息定量分析法,專利信息定性分析法和專利信息擬定量分析法。
(一)專利信息定量分析
專利信息定量分析是研究專利文獻的重要方法之一[10],是建立在數學,統計學,運籌學,計量學,計算機等學科的基礎之上,通過數學模型和圖表等方式,從不同角度研究專利文獻中所記載的技術信息。
定量分析的主要方法有時間序列法、頻次排序法、利用拉布福德文獻分散定律確定核心技術法和技術發展生命周期法。生命周期法是企業常用的方法,該方法一般可以把技術發展過程分為萌芽階段,生長階段,成熟階段和衰老階段四個階段。通過統計學中的相關統計參數對上述各個階段進行定量度量如下[11]。
(1) 技術生產率γ:γ=■
式中a表示當年發明專利申請數,A表示追溯5年的發明專利申請累計數。連續計算數年,若γ值遞增,說明該技術處在萌芽生長階段。
(2)技術成熟系數?琢:?琢=■
式中a同上,b表示當年實用新型專利申請數,連續計算數年,?琢值遞減時,反應技術日趨成熟。
(3)技術衰老系數?茁:?茁=■
式中a, b同上,c表示當年外觀設計專利或商標申請數,連續計算數年,當?茁值遞減時,表示該技術日趨陳舊。
(4)新技術特征系數N:N=■
式中γ表示技術生產率,?琢表示技術成熟系數。系數N表示某項技術新興和衰老的總和指標,N值越大,新技術特性越強,預示其越具有發展潛力。
(二)專利信息定性分析[6]
專利信息定性分析是指通過對專利文獻內在特征,即對專利技術內容進行歸納和演繹,分析與綜合以及抽象與概括等分析,了解和分析某技術發展狀況的方法。其基本過程為:
圖中的流程并非單向過程,各步驟之間可以循環和反復。如,涉及的數據挖掘過程如果有新的之前沒有考慮到的問題,則可以重新準備數據;數據挖掘過程中,如發現數據選擇過多,也可以重新數據選擇。
(三)專利信息擬定量分析
針對不同的分析目的,分析人員需要采用定量與定性相結合的分析方法,即擬定量分析方法[12]。本方法通常由數據統計入手,然后,進行全面,系統的技術分類和比較研究,再進行針對性的量化分析,最后,進行高度科學抽象的定性描述,使整個分析過程由宏觀到微觀。專利信息中比較常見的擬定量分析方法有專利引文分析方法和數據挖掘等方法。
專利引文分析:專利引文指在目標專利文件被其他專利作為引用文獻列出的情況分析。公開時間早,并且接近本領域的核心技術的專利,引證率相對較高,因此,引證率高的專利也常常視為本領域內核心專利。因此,可以根據專利的引證關系,引證時間和技術族譜等綜合分析專利。
專利數據挖掘[13]: 數據挖掘是從大量數據中挖掘隱含的、未知的、對決策有潛在價值的知識和規則。這些知識與規則蘊含了數據庫中一組對象之間的特定關系,揭示的有用信息可為科學研究、經營決策、市場策劃、經濟邪測、工業控制提供依據。
數據挖掘的主要采用關聯規則、聚類分析、序列搖式、分類等。關聯規則是尋找在同一個事件中出現的不同項的相關性。聚類是把一組個體按照相似性歸成若干類別,其目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別的個體間的距離盡可能的大。序列模式和關聆規則相似,其目的也是挖掘數據之間的聯系,但序列模式分析的側重點在于分析數據間的前后序列關系。分類要解決的問題是為一個事件或對象歸類。
二、基于自然語言處理的專利分析方法
(一)語義標注方法
語義標注首先分成按照內容的標注方法、按照結構的標注方法與多策略混合的方法。
1.基于內容的方法
以內容理解為主, 主要從文檔內容入手進行標注, 采用基于自然語言處理與機器學習技術, 通過各種方法提取句子的模式, 從而進行自然語言處理。通常無結構化文檔,直接采用基于內容的方法來進行標注[14]。
這種方法主要從內容上進行分析、提取與識別出有用的語義信息,并用標簽進行標注。根據采取技術的不同,進一步分為基于自然語言處理的方法和基于機器學習的方法。自然語言處理,技術包括去除停止詞、分詞、取詞根、詞性標注、語法分析、句法分析、短語識別、命名實體識別、指代消解和司義消歧等。
2.基于結構的方法
以結構化分析為主, 主要是從文檔結構著手, 結合文檔的結構特征來進行標注[15], 常采用一些結構化分解方案或文檔模板來進行語義標注如在word文檔中的文檔結構信息標題層次、樣式等。
基于結構的方法主要適用于結構化文檔。多策略混合方法是綜合內容和結構兩個層面來標注,特別適合半結構化文檔基于內容的方法是語義標注常用的方法之一。
三、基于文本挖掘的專利分析方法
文本挖掘是指為了發現知識, 從文本數據中抽取隱含的、以前未知的、潛在有用的模式的過程[16]。主要目標是獲得文本的主要內容涉及的主題、類屬、關鍵內容等,目前具體實現技術主要有如下幾種[17]:
(一)特征抽取
文本特征分為一般特征和數字特征,其中一般特征主要包括名詞和名詞短語;數字特征主要包括日期、時間、貨幣以及單純數字信息。特征是概念的外在表現形式,特征抽取是識別潛在概念結構的重要基礎。
(二)主題標引
利用傳統的關鍵詞標引技術來標引文本,影響文本標引的質量,導致同義標引詞的泛濫,影響檢索的查全率。同時也會影響特征抽取的準確度。利用主題詞標引代替關鍵詞標引可以提高標引的質量,對改善文本的檢索效果十分有益。
(三)文本分類
文本分類的任務是基于內容將自然語言文本自動分配給預定義的類別。文本分類技術類似于數據庫挖掘中的分類技術,不同之處在于它需要預先對文本進行特征抽取,它利用文本特征向量對文本進行分類。
(四)文本聚類
聚類就是將一個數據對象的集合分組成為多個類或簇。它的分析并不依賴于已知類標記的數據對象。在通常情況下,聚類的訓練數據樣本沒有類標記,它要劃分的類是未知的,通過聚類可以產生這種類標記。文本聚類是對給定的文本集根據文本相似度進行聚類的方法。
(五)自動摘要
自動摘要是利用計算機分析文章的結構,找出文章的主題語句,然后經過整理、組合、修飾,構成文摘的過程。人工編制復雜、量大而且費時,隨著互聯網的發展,對Web資源信息量巨大,人工編制文摘成本非常高,因此,可以采用軟件進行自動摘要。
自動摘要的前提是計算機能夠找到關鍵語句,這要求專利書寫嚴格按照格式規范,要求搜索軟件不斷更新,具有自動學習功能等。
四、總結
隨著科技迅猛的發展,知識越來越成為經濟的重要增長點。專利分析已經成為了科技發展和企業獲取競爭優勢的有效方法。本文對基于統計,自然語言處理,文本挖掘等專利分析方法進行介紹與總結,闡述了專利分析的方法和相關應用。為不同領域科技人員進行專利分析提供了基礎。
作者簡介:顧建紅(1976-),女,民族:漢,籍貫(精確到市):江蘇常州,研究方向:專利。
參考文獻:
[1]覃興.運用專利分析進行競爭對手跟蹤的方法研究[J].產業與科技論壇,2017,16(03):71-72.
[2]宋巧枝,方曙.專利信息分析方法在企業戰略制定中的應用[J].現代情報,2007,(10):193-195.
[3]董微微.專利分析方法對技術路線圖制定的支撐作用研究——基于技術創新視角[J].現代情報,2017,37(02):44-51.
[4]張世玉.技術層面專利組合分析方法優化及其應用研究[D].吉林大學,2015.
[5]李向陽,張亞非,基于語義標注的信息抽取,解放軍理工大學學報自然科學版,2008
[6]王朝霞,馮培恩,邱清盈專利知識獲取及其支持概念創新設計的方法研究,浙江大學,2009
[7]彭茂祥,李浩.基于大數據視角的專利分析方法與模式研究[J/OL].情報理論與實踐,2016,39(07):108-113.
[8]劉彤,楊冠燦,侯元元.基于多重關系整合的專利網絡分析方法研究與應用[J/OL].情報理論與實踐,2016,39(02):59-63.
[9]陸勤虎.基于專利分析方法的區域科技創新能力比較研究[D].天津大學,2009.
[10]李陽.基于專利分析的技術機會識別方法與應用研究[D].北京協和醫學院,2013.
[11]郭婕婷,肖國華.專利分析方法研究[J].情報雜志,2008,(01):12-14+11.
[12]陳卓.論專利信息統計分析技術及預測分析方法[J].中國發明與專利,2015,(10):91-92
[13]李飛.基于內容挖掘的專利信息分析的方法體系及應用研究[D].南京理工大學,2008.
[14]黎江.基于專利文獻的技術機會分析方法研究[D].中國科學院研究生院(文獻情報中心),2008.
[15]劉澎.大數據在專利信息分析中的應用研究[D].江蘇科技大學,2016.
[16]李飛.基于內容挖掘的專利信息分析的方法體系及應用研究[D].南京理工大學,2008.
[17]方曙.基于專利信息分析的技術創新能力研究[D].西南交通大學,2007.