基于機器學習的專利質量評估研究?

2019-07-31 09:54:56楊美妮張建軍

計算機與數字工程 2019年7期

楊美妮沈靜張建軍

（海軍工程大學理學院武漢 430033）

1 引言

專利作為無形資產的重要組成部分，在國民經濟中發揮著重要的作用。專利價值的評估，一方面可以使得企業對其所擁有的專利有一個全面的認識，便于對這些專利進行有效保護；另一方面可以為專利轉讓，專利購買等無形資產運營行為提供重要的價值參考。專利價值的主要影響因素包括專利質量、市場價值、技術可替代性和專利保護強度四個方面，在這四個要素中，專利質量是基礎［1］。因此，對專利質量進行科學合理的評估具有重要的意義。

專利數據中蘊含著豐富的計量指標，這些計量指標和專利質量之間存在著密切的聯系。例如，專利的引用、專利的科學關聯度以及專利的技術周期可以用來描述專利所代表技術的先進性程度［2］；專利的學科覆蓋程度同專利的訴訟之間存在著一定的聯系，贏得訴訟的專利通常具有較高的質量［3］；在本國以外地區申請的專利質量一定程度上優于只在本國申請的專利［4］等。在對專利質量進行分析時，經常需要分析處理大量的專利，完全手工分析費時費力。在這樣的情況下，可以將專利的計量指標作為輸入特征，建立機器學習的模型對專利質量進行自動評估，從而減少專利分析的投入并且加快分析的過程［5～7］。本文分別使用邏輯回歸，支持向量機，神經網絡三種機器學習的方法建立了專利質量評估的模型，并將其運用于3D 打印相關專利的質量評估之中。

不同于以往的工作，首先，本研究所采用的數據規模相對比較龐大，一共采用了上萬條專利六千多個專利族作為機器學習模型的樣本，樣本中的測試集規模有兩百多個專利族，研究結果相對較為可靠；其次，利用邏輯回歸模型在輸出上的概率解釋特性，對輸出結果的準確率和召回率進行了單邊控制，從而使得專利評估模型能夠滿足某些特定應用場合的需求；最后，本文的方法選取了引用專利質量評價指標、權利保護范圍專利質量評價指標和區域保護范圍專利質量評價指標，一共三類指標11組計量特征作為模型估計專利質量的依據，計量特征的選取相對比較全面。

2 模型構建

2.1 機器學習過程

對已標注數據自動分析獲得規律，并利用規律對未知數據的標注進行預測是機器學習的一個重要的研究方向。具體過程可以參見圖1，其中f 是未知的理想目標函數，X 為函數輸入，Y 為函數輸出，這個函數是所有現實標注數據產生的依據，機器學習的目標就是為了找到一個能夠近似于f的函數；訓練集是一些已經被標注的數據，用于給機器學習的算法提供相應的支持，其中xi是數據特征，yi是該輸入特征所對應的標注；學習算法A是機器學習的核心，用于從訓練集中總結出相關的規律，從假設空間H 中選取最優的假設函數g 作為目標函數f 的近似［8］。在對專利質量進行評估的過程中，目標函數f 是理想的專利質量評估公式，使用這個公式能夠準確的計算出專利的質量，訓練集是已經標注好專利質量的歷史專利質量記錄，假設空間H是可能的專利質量估算公式集合，假設函數g 則是學習算法A 從訓練集中學習到的可以用于對未知質量的專利進行評估的公式，該公式近似等于f。

圖1 機器學習過程

本研究將專利質量的評估抽象為一個機器學習的二分類問題，所有待判斷質量的專利都將被自動劃分為兩類中的一類，如果某個專利質量可能比較高，那么模型將該專利劃歸為一類，否則該專利被劃歸為另一類。

2.2 輸入特征與輸出

在機器學習建模時，模型的輸入特征必須體現出與模型輸出相關的信息，輸出表現的是機器學習的目標，兩者的建立必須和機器學習所要解決的具體問題相對應。

在本文中，所建立的機器學習模型是為了對專利的質量進行評估，參照之前的工作［9］，選取了包含引用指標、權利保護范圍指標和區域保護范圍指標一共三類指標11 組計量信息作為模型的輸入特征，這些計量信息和專利的質量都存在著某種聯系。具體如表1 所示，表中的專利族列代表這些指標來自于專利族還是單條專利。

表1 模型輸入特征列表

專利質量是個比較抽象的概念，在不同的情況中常常表現為不同的形式［6］，比如說曾被轉讓的專利質量通常較高，贏得訴訟的專利質量通常較高等等。本文從專利轉讓這一角度描述專利質量，也就是說，機器學習模型的輸出是專利可能被轉讓的情況。

2.3 三種機器學習模型

在該研究中，我們分別采用了邏輯回歸模型，支撐向量機模型，神經網絡模型作為專利質量評估的模型。邏輯回歸模型結構簡單，輸出具備概率特性，利用這一特點，能夠單方面地對研究結果的準確率或者召回率進行控制，以滿足特殊的需求。支撐向量機模型是優秀的分類器，參數數量少，通常能夠相對比較容易得到可以接受的結果。神經網絡模型結構復雜，參數數量多，模型功能非常強大，通常能夠得到優秀的實驗結果，但同時該模型的操控空間也比較大，容易發生過擬合，從而影響研究結果。之所以選取這三個模型，一方面是想利用邏輯回歸模型輸出的概率特性，另一方面邏輯回歸模型較為簡單，對復雜些的數據分布無法進行有效的分類，所以引入能夠處理復雜數據分布的支撐向量機模型和神經網絡模型，用支撐向量機模型作為神經網絡模型的一個比對。

2.3.1 邏輯回歸模型

邏輯回歸模型是機器學習中的一種監督式的分類模型，算法相對簡單和高效，在實際應用中非常廣泛［10］。在本文的邏輯回歸模型中，輸出變量是一個介于0 和1 之間的實數，代表某一專利具備較高質量的概率。影響第i 個專利質量的11 個輸入變量分別為xi1，xi2，…xi11，對應表1中的11組輸入數值特征，邏輯回歸的模型可表示為

式（1）中，a0,a1,…,a11是模型的系數，可以依據訓練集計算出來。式（2）中，Pi代表第i 個專利具備較高質量的概率。

2.3.2 支撐向量機模型

支撐向量機模型能夠在高維或者無限維空間中尋找出用于分類的間隔最大的超平面，然后使用超平面對數據點進行分類。由于能夠將低維空間線性不可分的數據映射到高維空間從而使其變成線性可分，所以這種機器學習算法可以處理線性不可分數據［11-13］。

具體來說，支撐向量機就是求解如式（3）所示的約束最優化問題:

其中(xi,yi)是訓練樣本，w,w0是超平面的相應參數，C 是懲罰因子，δi是用來允許一定分類錯誤的松弛變量。 K(xi,xj)≡φ(xi)Tφ(xj)T是選取的核函數，在本文中，選用的是徑向基核。

2.3.3 神經網絡模型

神經網絡是一種模擬生物神經網絡結構和功能的機器學習模型，由大量的節點和相互之間的連接構成。每個節點代表某個特定的激活函數，節點之間的連接代表節點間相應的權重。神經網絡模型通過調整這些節點之間的權重以達到學習數據規律的目的［14］。本文中所使用的前饋神經網絡模型如圖2 所示。由于輸入所對應的是11 個專利質量指標，所以輸入層一共是12個節點，包括11個特征輸入節點和1 個偏置節點。輸出層是2 個節點，如果第一個節點的輸出值較高代表專利質量較高，否則代表專利質量沒有那么高。通過比較研究，神經網絡的中間層被設置為6 個節點，包括5 個普通節點和1個偏置節點。

圖2 神經網絡模型

3 數據與分析

3.1 數據來源

從Thomson Innovation 中檢索了與3D 打印技術相關的一共14840條專利，7452個專利族。由于小部分導出的專利數據缺少權利要求字段與專利族字段，這種類型的專利無法提取出機器學習模型的輸入特征，所以被移除，最后參與實驗的是一共6148 個專利族。從這些專利族中隨機抽取60%作為訓練數據，20%作為驗證數據，最后余下的20%作為測試數據。訓練數據和驗證數據主要用于訓練機器學習模型，確定模型的各種參數，測試數據不參與模型的訓練，用于對訓練好的模型進行評估以確定其性能。三個機器學習模型均采用相同的實驗數據切分，以便于進行比較。

3.2 評估指標

本文將專利質量的評估抽象為機器學習中的二分類問題，所以采用機器學習中常被用于評價分類效果的準確率（Precision），召回率（Recall）和F1值作為實驗的評估指標［15］。準確率是被分類器判斷為具有較高質量的專利中正確的比例，召回率是模型判斷為具有較高質量的專利中正確的占全部測試集具有較高質量專利的比例。F1 值則是平等考慮準確率和召回率，將兩者結合在一起所產生的綜合指標。

假設有 m 個專利 patent1，patent2，…patentm，對應的標簽為 label1，label2，…labelm，標簽代表該專利是否曾被轉讓，那么準確率，召回率，F1 值的計算方法如式（4）、（5）所示:

其中，Nc是m 個專利中曾經發生過轉讓的數量；Np是m 個專利中機器學習方法預測可能發生轉讓的專利數量；Ncp是曾發生轉讓的專利中被機器學習方法預測正確的數量。

3.3 研究結果分析

三種機器學習模型的研究結果如表2 所示，從結果中可以看出邏輯回歸模型的準確率最高，神經網絡模型的召回率最高，如果同時考慮準確率和召回率的綜合指標F1 的話，神經網絡模型的效果較好。

表2 三種機器學習模型結果比較

在使用機器學習的分類問題中，準確率和召回率兩者通常是相互影響的。理想的情況是兩者都能取到比較高的值。但是一般情況下，如果準確率較高的話，召回率就可能較低，召回率較高的話，準確率就可能較低。在這樣的情況下，我們可以對模型進行一定的設置，對準確率或召回率進行單邊控制，使得結果的準確率較高或者召回率較高。也就是說，可以讓模型輸出少數幾個結果，從而使得結果中絕大多數的專利都確實是高質量的專利，也可以讓模型多輸出一些結果，從而使得所有高質量的專利幾乎都在輸出的結果中。

邏輯回歸模型的輸出為某專利是否具備較高質量的概率，利用模型的這一特性可以設置一定的閾值，只有模型輸出的概率值大于指定的閾值，模型才判定該專利具備較高的質量。通過這樣的方式，就能夠對實驗的準確率與召回率進行單邊控制。在研究過程中，不同閾值所對應的準確率和召回率如圖3 所示，縱坐標代表召回率，橫坐標代表準確率，圖中點上的數值代表設置的閾值。從圖中可以看出隨著閾值的增大，準確率的整體趨勢是逐步上升的，召回率的整體趨勢在逐步下降。比如說，最左側點設置的閾值為0.1，代表邏輯回歸的輸出大于0.1 就判定專利質量比較高，由于設置的閾值很低，所以召回率達到了0.95 的高值，但是相應的準確率只有0.29。再比如說最右側點設置的閾值為0.9，代表邏輯回歸的輸出大于0.9就判定為該專利質量較高，由于設置的閾值很高，所以準確率達到了0.88 的高值，但是相應的召回率也下降至0.03。這樣就可以通過控制閾值以獲得較高準確率的輸出或者較高召回率的輸出。

圖3 不同閾值下的準確率和召回率

4 結語

本文選取了覆蓋引用專利質量指標、權利保護范圍專利質量指標和區域保護范圍專利指標，一共11 組專利計量特征作為機器學習模型的輸入，分別構建了邏輯回歸、支撐向量機以及神經網絡三種機器學習模型對專利質量進行評估。在與3D打印相關的六千多個專利族所構成的數據分析上，神經網絡的綜合性能最優，邏輯回歸模型由于其概率輸出特性，可以用來對實驗結果的準確率和召回率進行單邊控制，以滿足某些特定的需求。

分析中將專利被轉讓的可能性作為模型的輸出，對專利的質量進行判斷是不夠完善的，因為通常情況下專利被轉讓只是專利具備較高質量的充分條件，而不是必要條件。在未來的工作中，我們將構建更為完整的對專利質量的描述作為機器學習模型的輸出，從而提高專利質量判斷的準確程度。