黃柏如,周志平,王 利,趙衛(wèi)東
(同濟大學(xué)電子與信息工程學(xué)院,上海 201804)
國際上尚未對專利地圖的概念進(jìn)行統(tǒng)一、標(biāo)準(zhǔn)的定義。通常專利地圖泛指利用可視化方法對搜集到的專利信息進(jìn)行整理歸納,以直觀的圖表形式呈現(xiàn)的方法。通過對專利資料以及與專利資料相關(guān)的其他資料的統(tǒng)計分析,得到專利某些屬性的分布情況或?qū)@g的關(guān)聯(lián)信息,以圖表的方式呈現(xiàn),從而直觀地反映出搜集到的大量專利資料中的信息,使得文本數(shù)量多、篇幅長、內(nèi)容復(fù)雜的專利資料以更明晰的形式呈現(xiàn),為企業(yè)或國家的專利戰(zhàn)略決策提供支持[1]。
專利地圖的概念十分寬泛,視專利地圖分析者與使用者的目的和使用的技術(shù)不同,專利地圖的表現(xiàn)形式和內(nèi)容多變。根據(jù)分析對象與分析方法的不同,專利地圖一般可分為3 類:定量專利地圖、定性專利地圖、定性定量結(jié)合專利地圖[2]。專利地圖功能主要包括行業(yè)技術(shù)分析管理、技術(shù)預(yù)見、企業(yè)技術(shù)預(yù)警、競爭情報挖掘、企業(yè)戰(zhàn)略制定等方面[3]。
最早的專利地圖在20 世紀(jì)60 年代誕生于日本,彼時日本由于戰(zhàn)爭原因,科技水平十分落后,而同時期歐美許多國家已經(jīng)積累了大量的先進(jìn)技術(shù),因此,日本需要大量引進(jìn)國外的先進(jìn)技術(shù),同時又需要注重自身的科技發(fā)展。在這樣的情況下,專利地圖作為一種實用的專利分析工具逐漸在工業(yè)界得到了應(yīng)用,幫助日本企業(yè)突破了歐美國家的技術(shù)壟斷,乃至如今使日本成為世界上最大的技術(shù)輸出國之一。
目前專利地圖在國外已經(jīng)得到了廣泛的應(yīng)用,除日本外,韓國與美國在專利地圖的研究方面也有所發(fā)展,制作了很多不同領(lǐng)域的專利地圖。與此同時,對于專利地圖制作方法的基礎(chǔ)研究亦在不斷地更迭,如日本特許廳提出的FI 分類方法以及更為精細(xì)的F-term 分類方法能夠更高效地根據(jù)專利文獻(xiàn)內(nèi)容對專利文獻(xiàn)進(jìn)行分類[4]。
此外,隨著專利數(shù)據(jù)的迅速膨脹,仍采用人工抽取信息、整理信息、繪制專利地圖的方式過于費時費力甚至于無法完成,而隨著機器學(xué)習(xí)技術(shù)的興起,對于專利數(shù)據(jù)的智能化分析也隨之開始發(fā)展,如Lamirel 等人[5]使用MultiSOM 算法,根據(jù)專利文獻(xiàn)材料自動化地生成了多種不同專利地圖;Chang等人[6]提取了專利文獻(xiàn)中的關(guān)鍵詞與關(guān)鍵短語來構(gòu)建專利地圖,以此監(jiān)測碳納米管場發(fā)射顯示器的技術(shù)趨勢。
我國目前對專利地圖的研究仍較少,在中國知網(wǎng)數(shù)據(jù)庫中檢索“專利地圖”關(guān)鍵詞,統(tǒng)計2003—2018 年間專利地圖相關(guān)中文文獻(xiàn)數(shù)量,結(jié)果如圖1所示。國內(nèi)最早對專利地圖進(jìn)行研究的是吳新銀等人[7-9],他們通過研究國外的專利地圖文獻(xiàn)及具體的應(yīng)用實例,引入了專利地圖的基本概念,并整理了其分類與功能等,探討了專利地圖的制作方法。自2009 年以來,國內(nèi)關(guān)于專利地圖的文獻(xiàn)發(fā)表量相較之前大幅增加,國內(nèi)學(xué)者對于專利地圖的研究重視有所提升;然而就絕對值而言,有關(guān)專利地圖的中文文獻(xiàn)數(shù)量仍處于較低的水平,與此同時,其中大部分文獻(xiàn)注重的是專利地圖的應(yīng)用或基于專利地圖對某一領(lǐng)域的研究[10-11],而針對專利地圖制作方法、表示方式等基礎(chǔ)理論的研究較少。

圖1 國內(nèi)專利地圖相關(guān)研究的文獻(xiàn)量與增長率年度分布
制作專利地圖的基礎(chǔ)是數(shù)據(jù),即大量的專利文獻(xiàn)。專利文獻(xiàn)包含結(jié)構(gòu)化項目,即語義格式統(tǒng)一的項目,如專利申請?zhí)?、申請日期等,以及非結(jié)構(gòu)化項目,即無固定格式的項目,如權(quán)利要求、摘要、發(fā)明的說明書等。通常定量分析專利地圖只利用結(jié)構(gòu)化項目,而對非結(jié)構(gòu)化項目利用較少,得到一系列諸如柱狀圖、折線圖形式的圖表。而定性分析如技術(shù)路線圖,對非結(jié)構(gòu)化項目的利用主要通過人工分析,依賴于專家的主觀判斷,也并未完全利用結(jié)構(gòu)化項目,僅在結(jié)果中進(jìn)行標(biāo)注而已[2]。邱洪華等人[12]基于K-Means 聚類方法,從專利間關(guān)鍵詞的語義關(guān)聯(lián)出發(fā),提出了一種新穎的專利地圖制作方法,將專利申請時間與專利內(nèi)容結(jié)合呈現(xiàn)出來,但對非結(jié)構(gòu)化信息的利用仍依賴于人工篩選。專利文獻(xiàn)通常含有大量技術(shù)術(shù)語,人工解讀分析十分困難,因此在專利地圖的制作中對專利技術(shù)特征的智能提取與利用十分重要。
綜合以上分析發(fā)現(xiàn),我國對專利地圖的研究更多的仍是應(yīng)用方面,而對其制作的基礎(chǔ)理論研究較少,目前仍存在一定的問題:(1)專利地圖的可視化表現(xiàn)形式局限,多為簡單的圖表,表達(dá)的信息量有限;(2)專利地圖制作過程中沒有充分利用結(jié)構(gòu)化項目與非結(jié)構(gòu)化項目,只通過其中一種信息制作專利地圖,沒有使用另一種或只在完成的專利地圖上添注另一種信息;(3)對專利地圖非結(jié)構(gòu)化項目信息的利用依賴人工分析,缺少智能化分析手段。
本文提出一種新的專利地圖制作與表達(dá)方法,將采用文本挖掘的方法利用專利文本信息構(gòu)建專利向量空間模型,通過密度峰值快速搜索聚類(clustering by fast search and find of density peaks,CFSFDP)算法得到具有相似關(guān)鍵詞組成的一系列專利,并通過分析同一聚類內(nèi)的專利關(guān)鍵詞異同,結(jié)合非結(jié)構(gòu)化項目構(gòu)建以有向圖表示的專利地圖。具體制作方法流程如圖2 所示。這樣的專利地圖充分地利用了專利的多種信息,能夠清晰地表達(dá)目標(biāo)技術(shù)領(lǐng)域中的關(guān)鍵技術(shù)與創(chuàng)新方向的發(fā)展過程,同時也更具可信度。

圖2 基于密度峰值快速搜索聚類的專利地圖制作流程
2.1.1 專利文獻(xiàn)關(guān)鍵詞提取
在確定研究目標(biāo)后,即某個特定的專業(yè)領(lǐng)域,需要擬定選擇一系列關(guān)鍵詞進(jìn)行專利文獻(xiàn)的檢索。為更全面、充分地對檢索得到的專利文本進(jìn)行分析,檢索時僅使用關(guān)鍵詞是遠(yuǎn)遠(yuǎn)不夠的,需要從各文本中提取更多的關(guān)鍵字,為此通過計算TF-IDF(term frequency-inverse document frequency)提取關(guān)鍵詞。

逆文本頻率的具體計算公式為:


這樣得到的TF-IDF 值一方面考慮到了專利文本中詞匯與其主題的關(guān)聯(lián)性,亦考慮到了詞匯在整個專利文本庫中對于這一文本的代表性,能夠較為準(zhǔn)確地衡量每個詞的價值。
2.1.2 專利向量空間模型與距離定義

其次,定義兩篇專利文本間的距離為其向量表示的歐氏距離。在考慮文本間的距離關(guān)系時,只考慮文本中各關(guān)鍵詞的分布情況,因此需先將其歸一化,具體方法如下:


至此完成了專利向量空間模型與距離的定義。
2.2.1 使用CFSFDP 算法聚類
經(jīng)典的聚類方法K-Means 的核心思想是指定聚類中心,隨后每次迭代時根據(jù)現(xiàn)有的聚類中心將每個點歸類為最近的聚類中心的聚類,再根據(jù)這樣的聚類計算更合理的聚類中心。K-Means 方法思想簡單易于實現(xiàn),但對非凸的類簇效果較差。而基于密度的聚類方法如DBSCAN(density-based spatial clustering of applications with noise)相較K-means而言,雖對類簇的形狀無限制,對非凸形狀的類簇效果較好,但是需要給定一個密度閾值,且聚類結(jié)果對于這個閾值十分敏感。此外還有基于分布的聚類,則需要預(yù)先給定分布,通過參數(shù)化的方式聚類。
從技術(shù)發(fā)展的角度來看,在技術(shù)的推陳出新過程中,新技術(shù)專利文獻(xiàn)與舊技術(shù)專利文獻(xiàn)間存在若干共同的技術(shù)關(guān)鍵詞,而新專利文獻(xiàn)中必然會存在舊技術(shù)文獻(xiàn)中沒有的技術(shù)關(guān)鍵詞,而舊技術(shù)文獻(xiàn)中的舊技術(shù)或因不再使用或因成為默認(rèn)程序而不再出現(xiàn)。基于以上考慮,根據(jù)式(4)所定義的專利向量的分布通常是不規(guī)則的,呈現(xiàn)出類樹狀的聚類分布結(jié)構(gòu),真實的聚類結(jié)果通常不會是球面甚至是非凸的,亦難以找到合適的分布模型或其他密度聚類算法中的閾值。聚類算法CFSFDP 對任意形狀的類簇均可達(dá)到聚類目的,算法中的閾值可根據(jù)數(shù)據(jù)自動指定,且對此閾值不敏感[13]。
本文根據(jù)CFSFDP 算法以及式(7)中所定義的距離,對于每個專利文本向量計算其兩個數(shù)值特征:局部密度和到最近的更高局部密度的點的距離構(gòu)建專利地圖所使用的專利文本數(shù)量巨大,因此通過高斯核函數(shù)將專利文本向量映射至高維空間。給定距離閾值的兩個特征計算分別如下:


使用CFSFDP 算法進(jìn)行聚類后,所有專利文本被分為若干類則每類內(nèi)的專利文本具有相似的關(guān)鍵詞,即相似的專利技術(shù)、創(chuàng)新方向等等,結(jié)合專利資料的其他信息,能夠進(jìn)一步挖掘各專利間的關(guān)聯(lián)。
2.2.2 構(gòu)建以有向圖表示的專利地圖
根據(jù)各個聚類內(nèi)的關(guān)鍵詞信息的異同,構(gòu)建初始語義網(wǎng)絡(luò),以有向圖表示專利地圖。初始的專利地圖包括n個節(jié)點,即提取的關(guān)鍵詞兩個節(jié)點間存在邊當(dāng)且僅當(dāng):


即當(dāng)同一聚類中的兩篇專利文獻(xiàn)具有至少K個相同關(guān)鍵詞且其中1 篇專利文獻(xiàn)中存在獨有的關(guān)鍵詞那么可以認(rèn)為從關(guān)鍵技術(shù)t發(fā)展出了關(guān)鍵技術(shù)即由引一有向邊。
2.2.3 結(jié)構(gòu)化信息的結(jié)合
上述步驟根據(jù)專利文本間的語義關(guān)聯(lián)構(gòu)建了初始的專利地圖,在語義網(wǎng)絡(luò)的基礎(chǔ)上,利用結(jié)構(gòu)化項目能夠生成更為準(zhǔn)確、含有更多信息量的專利地圖。同樣的n個節(jié)點,兩個節(jié)點間存在邊當(dāng)且僅當(dāng):


圖3 根據(jù)同一聚類中的專利文本建立有向邊
至此,專利地圖的構(gòu)建充分利用了結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息,并通過有向圖中的點與邊結(jié)合表達(dá)了兩方面的信息。
本文提出了一種新穎的專利地圖制作與表達(dá)方法,其主要特點包括:(1)使用文本挖掘方法智能化地從非結(jié)構(gòu)化的專利文本中提取關(guān)鍵詞信息;(2)針對專利文本在所構(gòu)建向量空間中的分布特點,選取了適合的CFSFDP 聚類算法進(jìn)行聚類;(3)制作過程中同時利用了專利文本間的語義關(guān)聯(lián)與結(jié)構(gòu)化信息;(4)對專利地圖表達(dá)方式進(jìn)行了創(chuàng)新,以不同于傳統(tǒng)圖表的,更為自由、包含更多信息的形式呈現(xiàn)。
本文主要利用的是專利文本與專利申請日信息進(jìn)行專利地圖的構(gòu)建,得到的專利地圖以關(guān)鍵技術(shù)或創(chuàng)新方向為節(jié)點,能夠展現(xiàn)目標(biāo)領(lǐng)域?qū)@夹g(shù)的發(fā)展過程。未來對于專利地圖制作的基礎(chǔ)研究在以下兩個方面仍需深入:一是在不依賴專家分析的智能化專利地圖制作過程中,如何充分考慮更多方面的專利信息以提高專利地圖的準(zhǔn)確度和可信度;二是針對傳統(tǒng)專利地圖表達(dá)信息單一的問題,如何在專利地圖中以直觀的方式呈現(xiàn)出更多有價值的信息。