基于密度峰值聚類的專利地圖制作方法

2020-06-15 10:16:48黃柏如周志平趙衛(wèi)東

科技管理研究 2020年10期

關(guān)鍵詞：文本信息

黃柏如，周志平，王利，趙衛(wèi)東

（同濟大學(xué)電子與信息工程學(xué)院,上海 201804）

1 研究綜述

1.1 專利地圖簡介

國際上尚未對專利地圖的概念進(jìn)行統(tǒng)一、標(biāo)準(zhǔn)的定義。通常專利地圖泛指利用可視化方法對搜集到的專利信息進(jìn)行整理歸納，以直觀的圖表形式呈現(xiàn)的方法。通過對專利資料以及與專利資料相關(guān)的其他資料的統(tǒng)計分析，得到專利某些屬性的分布情況或?qū)＠g的關(guān)聯(lián)信息，以圖表的方式呈現(xiàn)，從而直觀地反映出搜集到的大量專利資料中的信息，使得文本數(shù)量多、篇幅長、內(nèi)容復(fù)雜的專利資料以更明晰的形式呈現(xiàn)，為企業(yè)或國家的專利戰(zhàn)略決策提供支持［1］。

專利地圖的概念十分寬泛，視專利地圖分析者與使用者的目的和使用的技術(shù)不同，專利地圖的表現(xiàn)形式和內(nèi)容多變。根據(jù)分析對象與分析方法的不同，專利地圖一般可分為3 類：定量專利地圖、定性專利地圖、定性定量結(jié)合專利地圖［2］。專利地圖功能主要包括行業(yè)技術(shù)分析管理、技術(shù)預(yù)見、企業(yè)技術(shù)預(yù)警、競爭情報挖掘、企業(yè)戰(zhàn)略制定等方面［3］。

1.2 專利地圖研究現(xiàn)狀

最早的專利地圖在20 世紀(jì)60 年代誕生于日本，彼時日本由于戰(zhàn)爭原因，科技水平十分落后，而同時期歐美許多國家已經(jīng)積累了大量的先進(jìn)技術(shù)，因此，日本需要大量引進(jìn)國外的先進(jìn)技術(shù)，同時又需要注重自身的科技發(fā)展。在這樣的情況下，專利地圖作為一種實用的專利分析工具逐漸在工業(yè)界得到了應(yīng)用，幫助日本企業(yè)突破了歐美國家的技術(shù)壟斷，乃至如今使日本成為世界上最大的技術(shù)輸出國之一。

目前專利地圖在國外已經(jīng)得到了廣泛的應(yīng)用，除日本外，韓國與美國在專利地圖的研究方面也有所發(fā)展，制作了很多不同領(lǐng)域的專利地圖。與此同時，對于專利地圖制作方法的基礎(chǔ)研究亦在不斷地更迭，如日本特許廳提出的FI 分類方法以及更為精細(xì)的F-term 分類方法能夠更高效地根據(jù)專利文獻(xiàn)內(nèi)容對專利文獻(xiàn)進(jìn)行分類［4］。

此外，隨著專利數(shù)據(jù)的迅速膨脹，仍采用人工抽取信息、整理信息、繪制專利地圖的方式過于費時費力甚至于無法完成，而隨著機器學(xué)習(xí)技術(shù)的興起，對于專利數(shù)據(jù)的智能化分析也隨之開始發(fā)展，如Lamirel 等人［5］使用MultiSOM 算法，根據(jù)專利文獻(xiàn)材料自動化地生成了多種不同專利地圖；Chang等人［6］提取了專利文獻(xiàn)中的關(guān)鍵詞與關(guān)鍵短語來構(gòu)建專利地圖，以此監(jiān)測碳納米管場發(fā)射顯示器的技術(shù)趨勢。

我國目前對專利地圖的研究仍較少，在中國知網(wǎng)數(shù)據(jù)庫中檢索“專利地圖”關(guān)鍵詞，統(tǒng)計2003—2018 年間專利地圖相關(guān)中文文獻(xiàn)數(shù)量，結(jié)果如圖1所示。國內(nèi)最早對專利地圖進(jìn)行研究的是吳新銀等人［7-9］，他們通過研究國外的專利地圖文獻(xiàn)及具體的應(yīng)用實例，引入了專利地圖的基本概念，并整理了其分類與功能等，探討了專利地圖的制作方法。自2009 年以來，國內(nèi)關(guān)于專利地圖的文獻(xiàn)發(fā)表量相較之前大幅增加，國內(nèi)學(xué)者對于專利地圖的研究重視有所提升；然而就絕對值而言，有關(guān)專利地圖的中文文獻(xiàn)數(shù)量仍處于較低的水平，與此同時，其中大部分文獻(xiàn)注重的是專利地圖的應(yīng)用或基于專利地圖對某一領(lǐng)域的研究［10-11］，而針對專利地圖制作方法、表示方式等基礎(chǔ)理論的研究較少。

圖1 國內(nèi)專利地圖相關(guān)研究的文獻(xiàn)量與增長率年度分布

1.3 目前研究存在的問題

制作專利地圖的基礎(chǔ)是數(shù)據(jù)，即大量的專利文獻(xiàn)。專利文獻(xiàn)包含結(jié)構(gòu)化項目，即語義格式統(tǒng)一的項目，如專利申請?zhí)?、申請日期等，以及非結(jié)構(gòu)化項目，即無固定格式的項目，如權(quán)利要求、摘要、發(fā)明的說明書等。通常定量分析專利地圖只利用結(jié)構(gòu)化項目，而對非結(jié)構(gòu)化項目利用較少，得到一系列諸如柱狀圖、折線圖形式的圖表。而定性分析如技術(shù)路線圖，對非結(jié)構(gòu)化項目的利用主要通過人工分析，依賴于專家的主觀判斷，也并未完全利用結(jié)構(gòu)化項目，僅在結(jié)果中進(jìn)行標(biāo)注而已［2］。邱洪華等人［12］基于K-Means 聚類方法，從專利間關(guān)鍵詞的語義關(guān)聯(lián)出發(fā)，提出了一種新穎的專利地圖制作方法，將專利申請時間與專利內(nèi)容結(jié)合呈現(xiàn)出來，但對非結(jié)構(gòu)化信息的利用仍依賴于人工篩選。專利文獻(xiàn)通常含有大量技術(shù)術(shù)語，人工解讀分析十分困難，因此在專利地圖的制作中對專利技術(shù)特征的智能提取與利用十分重要。

綜合以上分析發(fā)現(xiàn)，我國對專利地圖的研究更多的仍是應(yīng)用方面，而對其制作的基礎(chǔ)理論研究較少，目前仍存在一定的問題：（1）專利地圖的可視化表現(xiàn)形式局限，多為簡單的圖表，表達(dá)的信息量有限；（2）專利地圖制作過程中沒有充分利用結(jié)構(gòu)化項目與非結(jié)構(gòu)化項目，只通過其中一種信息制作專利地圖，沒有使用另一種或只在完成的專利地圖上添注另一種信息；（3）對專利地圖非結(jié)構(gòu)化項目信息的利用依賴人工分析，缺少智能化分析手段。

2 研究方法

本文提出一種新的專利地圖制作與表達(dá)方法，將采用文本挖掘的方法利用專利文本信息構(gòu)建專利向量空間模型，通過密度峰值快速搜索聚類(clustering by fast search and find of density peaks，CFSFDP)算法得到具有相似關(guān)鍵詞組成的一系列專利，并通過分析同一聚類內(nèi)的專利關(guān)鍵詞異同，結(jié)合非結(jié)構(gòu)化項目構(gòu)建以有向圖表示的專利地圖。具體制作方法流程如圖2 所示。這樣的專利地圖充分地利用了專利的多種信息，能夠清晰地表達(dá)目標(biāo)技術(shù)領(lǐng)域中的關(guān)鍵技術(shù)與創(chuàng)新方向的發(fā)展過程，同時也更具可信度。

圖2 基于密度峰值快速搜索聚類的專利地圖制作流程

2.1 專利文獻(xiàn)特征提取與距離定義

2.1.1 專利文獻(xiàn)關(guān)鍵詞提取

在確定研究目標(biāo)后，即某個特定的專業(yè)領(lǐng)域，需要擬定選擇一系列關(guān)鍵詞進(jìn)行專利文獻(xiàn)的檢索。為更全面、充分地對檢索得到的專利文本進(jìn)行分析，檢索時僅使用關(guān)鍵詞是遠(yuǎn)遠(yuǎn)不夠的，需要從各文本中提取更多的關(guān)鍵字，為此通過計算TF-IDF（term frequency-inverse document frequency）提取關(guān)鍵詞。

逆文本頻率的具體計算公式為：

這樣得到的TF-IDF 值一方面考慮到了專利文本中詞匯與其主題的關(guān)聯(lián)性，亦考慮到了詞匯在整個專利文本庫中對于這一文本的代表性，能夠較為準(zhǔn)確地衡量每個詞的價值。

2.1.2 專利向量空間模型與距離定義

其次，定義兩篇專利文本間的距離為其向量表示的歐氏距離。在考慮文本間的距離關(guān)系時，只考慮文本中各關(guān)鍵詞的分布情況，因此需先將其歸一化，具體方法如下：

至此完成了專利向量空間模型與距離的定義。

2.2 基于聚類的專利地圖制作

2.2.1 使用CFSFDP 算法聚類

經(jīng)典的聚類方法K-Means 的核心思想是指定聚類中心，隨后每次迭代時根據(jù)現(xiàn)有的聚類中心將每個點歸類為最近的聚類中心的聚類，再根據(jù)這樣的聚類計算更合理的聚類中心。K-Means 方法思想簡單易于實現(xiàn)，但對非凸的類簇效果較差。而基于密度的聚類方法如DBSCAN(density-based spatial clustering of applications with noise)相較K-means而言，雖對類簇的形狀無限制，對非凸形狀的類簇效果較好，但是需要給定一個密度閾值，且聚類結(jié)果對于這個閾值十分敏感。此外還有基于分布的聚類，則需要預(yù)先給定分布，通過參數(shù)化的方式聚類。

從技術(shù)發(fā)展的角度來看，在技術(shù)的推陳出新過程中，新技術(shù)專利文獻(xiàn)與舊技術(shù)專利文獻(xiàn)間存在若干共同的技術(shù)關(guān)鍵詞，而新專利文獻(xiàn)中必然會存在舊技術(shù)文獻(xiàn)中沒有的技術(shù)關(guān)鍵詞，而舊技術(shù)文獻(xiàn)中的舊技術(shù)或因不再使用或因成為默認(rèn)程序而不再出現(xiàn)。基于以上考慮，根據(jù)式（4）所定義的專利向量的分布通常是不規(guī)則的，呈現(xiàn)出類樹狀的聚類分布結(jié)構(gòu)，真實的聚類結(jié)果通常不會是球面甚至是非凸的，亦難以找到合適的分布模型或其他密度聚類算法中的閾值。聚類算法CFSFDP 對任意形狀的類簇均可達(dá)到聚類目的，算法中的閾值可根據(jù)數(shù)據(jù)自動指定，且對此閾值不敏感［13］。

本文根據(jù)CFSFDP 算法以及式（7）中所定義的距離，對于每個專利文本向量計算其兩個數(shù)值特征：局部密度和到最近的更高局部密度的點的距離構(gòu)建專利地圖所使用的專利文本數(shù)量巨大，因此通過高斯核函數(shù)將專利文本向量映射至高維空間。給定距離閾值的兩個特征計算分別如下：

使用CFSFDP 算法進(jìn)行聚類后，所有專利文本被分為若干類則每類內(nèi)的專利文本具有相似的關(guān)鍵詞，即相似的專利技術(shù)、創(chuàng)新方向等等，結(jié)合專利資料的其他信息，能夠進(jìn)一步挖掘各專利間的關(guān)聯(lián)。

2.2.2 構(gòu)建以有向圖表示的專利地圖

根據(jù)各個聚類內(nèi)的關(guān)鍵詞信息的異同，構(gòu)建初始語義網(wǎng)絡(luò)，以有向圖表示專利地圖。初始的專利地圖包括n個節(jié)點，即提取的關(guān)鍵詞兩個節(jié)點間存在邊當(dāng)且僅當(dāng)：

即當(dāng)同一聚類中的兩篇專利文獻(xiàn)具有至少K個相同關(guān)鍵詞且其中1 篇專利文獻(xiàn)中存在獨有的關(guān)鍵詞那么可以認(rèn)為從關(guān)鍵技術(shù)t發(fā)展出了關(guān)鍵技術(shù)即由引一有向邊。

2.2.3 結(jié)構(gòu)化信息的結(jié)合

上述步驟根據(jù)專利文本間的語義關(guān)聯(lián)構(gòu)建了初始的專利地圖，在語義網(wǎng)絡(luò)的基礎(chǔ)上，利用結(jié)構(gòu)化項目能夠生成更為準(zhǔn)確、含有更多信息量的專利地圖。同樣的n個節(jié)點，兩個節(jié)點間存在邊當(dāng)且僅當(dāng)：

圖3 根據(jù)同一聚類中的專利文本建立有向邊

至此，專利地圖的構(gòu)建充分利用了結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息，并通過有向圖中的點與邊結(jié)合表達(dá)了兩方面的信息。

3 結(jié)論與展望

本文提出了一種新穎的專利地圖制作與表達(dá)方法，其主要特點包括：（1）使用文本挖掘方法智能化地從非結(jié)構(gòu)化的專利文本中提取關(guān)鍵詞信息；（2）針對專利文本在所構(gòu)建向量空間中的分布特點，選取了適合的CFSFDP 聚類算法進(jìn)行聚類；（3）制作過程中同時利用了專利文本間的語義關(guān)聯(lián)與結(jié)構(gòu)化信息；（4）對專利地圖表達(dá)方式進(jìn)行了創(chuàng)新，以不同于傳統(tǒng)圖表的，更為自由、包含更多信息的形式呈現(xiàn)。

本文主要利用的是專利文本與專利申請日信息進(jìn)行專利地圖的構(gòu)建，得到的專利地圖以關(guān)鍵技術(shù)或創(chuàng)新方向為節(jié)點，能夠展現(xiàn)目標(biāo)領(lǐng)域?qū)＠夹g(shù)的發(fā)展過程。未來對于專利地圖制作的基礎(chǔ)研究在以下兩個方面仍需深入：一是在不依賴專家分析的智能化專利地圖制作過程中，如何充分考慮更多方面的專利信息以提高專利地圖的準(zhǔn)確度和可信度；二是針對傳統(tǒng)專利地圖表達(dá)信息單一的問題，如何在專利地圖中以直觀的方式呈現(xiàn)出更多有價值的信息。