李 欣,范明姐,黃魯成
(北京工業大學 經濟與管理學院,北京100124)
專利集技術、經濟、法律信息于一體,記載了世界各國的新方法、新技術[1],代表一國或某一企業的技術發展水平和市場競爭力[2]。專利質量是出臺專利維持、轉化等經濟決策的重要依據[3]。從眾多專利中甄選出高質量專利,可有效促進專利轉移轉化,同時有利于企業明確自身發展現狀、制定研發戰略、開發強競爭力產品[4],也有利于國家或企業準確識別競爭對手并尋找合作伙伴[1]。在專利大數據背景下,提出行之有效的專利質量評價方法,高效篩選出高質量專利,值得學者深思。
專利質量評價的前提是明確專利質量內涵,確定有效的專利質量評價標準(谷麗等,2018),構建科學的專利質量評價方法。目前,國內外學者對專利質量概念尚未達成共識,多數學者從專利創新性、新穎性和實用性,抑或是專利技術質量、經濟質量和法律質量等維度對專利質量及其內涵進行闡述,認為專利質量是衡量授權專利能否滿足可專利性的標準,尤其是符合創新性、新穎性和實用性的充分描述[5-10]。本文中的專利質量指專利創新性、新穎性、創造性和實用性等程度,以反映專利的技術經濟質量。
目前學者在構建專利質量評價指標體系時大都只考慮專利技術、法律和經濟性指標,很少有學者從專利主體實力出發,將專利開發主體因素納入專利質量評價指標體系[11-13]。而已有研究表明,專利權人開發能力和努力程度對專利質量有直接影響[14],專利質量在一定程度上取決于發明人的技術水平[15];競爭實力強的企業比較注重自身技術研發,其專利引用率較高,專利質量也較好[16];也有學者指出專利質量包含專利申請人因素、專利審查因素及專利內在屬性3個方面指標[17]。因此,應將專利開發主體因素納入專利質量評價指標體系,以實現對專利質量的全面性和客觀性評價。
在專利質量評價方法方面,由于一些專利質量評價指標數據難以獲取,學者大都采用統計分析法和專家主觀判斷法對專利質量進行評價[12-13],導致專利質量評價結果可信度較差。而機器學習方法無需專家參與,算法能夠學習不同數據的特征,還可將其成功應用于新輸入數據[3,14]。將機器學習方法應用于專利質量評價,只需要確定專利質量評價指標,運用已有專利質量評價指標數據完成模型構建,當輸入新專利數據時,即可完成對新輸入專利質量的準確評價和分類。而且,已有學者利用機器學習對專利質量進行評價,并已證明該方法的可行性。張杰等[3]運用AdaBoost算法評價訴訟專利的專利質量;Lee等[14]利用人工神經網絡方法對制藥技術領域專利進行分類,并識別了高質量專利。
綜上所述,本文結合現有專利質量評價指標體系,將專利開發主體納入專利質量評價指標體系,從專利技術性、法定性、經濟性和主體實力4個維度構建專利質量評價指標;利用機器學習方法,構建基于機器學習的專利質量評價模型,并以人工智能技術專利為例進行實證研究,以驗證專利質量評價指標體系和模型的可行性與有效性。
本文從專利質量內涵出發,構建基于機器學習的專利質量評價模型,并遵循以下原則:①指標體系應涵蓋專利質量技術、經濟、法律和主體四大維度,以全面衡量專利質量;②為便于對高質量專利進行早期評價和識別,指標應滿足專利一經申請即可獲得的要求;③考慮到運用機器學習方法對專利質量進行評價,應選取可量化、易獲取指標。因此,本文選取包含技術、經濟、法律和主體四大維度的19個指標,以對專利質量進行全面和準確評價。
技術性指標主要從技術自身角度出發衡量專利質量。
(1)技術原創性。專利原創性是指一條專利的被引專利的技術覆蓋范圍,專利原創性越高,專利質量越好[18]。本文中的技術原創性是指專利i每條被引專利IPC-子類與其所有被引專利IPC-子類總量之比的平方和與1的差值,計算公式如下:


(2)專利引證數。專利引證數是指目標專利引用的專利數量,用于反映該專利技術基礎[19]。專利引證數與專利技術基礎正相關[12],其值越高,表明專利質量也越好。
(3)文獻引證數。文獻引證數是指專利引用科學文獻的數量[20]。一些學者指出可用非專利文獻數量衡量專利與科學知識的接近程度[14];文獻引證數越多,表明專利與科學的關聯程度越高[12],反映專利質量越好。
(4)技術生命周期。技術生命周期是指專利引證中所有專利年齡的中位數或平均數[21],反映技術創新或科技發展速度,其值越小,表明技術越新且創新速度越快[4]。技術生命周期是CHI Research提出的最早的7個專利質量評價指標之一[11],可見該指標的重要性。該指標具有較強的產業依存性,不同產業間差距較大[1]。本文中的技術生命周期是指目標專利所有引用專利年齡的平均數。
(5)技術覆蓋范圍。技術覆蓋范圍是指專利的四位IPC子類數量。研究顯示,專利被引次數與IPC子類數量高度正相關[22]。技術覆蓋范圍越大,專利被引次數越高,專利質量也越好。吳菲菲等[21]發現,在中英文文獻中頻次排名前10位的專利質量指標中,技術覆蓋范圍排名第三,可見該指標的重要性。由于IPC子類可能存在信息不全或分類錯誤的現象,本文中的技術覆蓋范圍指IPC-DWPI子類數量。
(6)專利被引次數。專利被引次數是指專利公開后被其它專利引用的次數,用于反映專利質量[23]。被引次數越高,表明技術影響力和重要性越高[24],專利質量也越好。本文中的專利被引次數包括3年內被引次數、5年內被引次數、10年內被引次數。
法定性指標主要從專利申請流程、申請成本、維護成本及保護范圍等角度衡量專利的法定質量。
(1)申請時程。申請時程是指專利授權年份與專利申請年份的差值[3],反映技術本身先進程度和專利重要程度,申請時程越長,表明技術先進性越強[3,4],專利質量越高。本文中的申請時程是指專利公開時間與申請時間的間隔。
(2)權利要求數。權利要求數是指一件專利中權利要求的數量[3],反映專利保護范圍,且與專利有用性及其價值正相關[25-26]。權利要求數越多,表明專利質量越高[26],越有可能被侵權,屬于法定性指標[3]。
(3)獨立權利要求數。獨立權利要求數是指一件專利中獨立權利要求的數量,反映了專利解決技術難題的技術創新性和實用性(谷麗等,2018),是權利要求數的補充性指標,以更加準確地了解專利保護范圍。
經濟性指標主要從專利保護范圍和專利實施情況兩個方面衡量專利經濟質量。
(1)專利族大小。專利族大小是指某一發明在不同國家或地區發布的數量,反映專利保護地域范圍(谷麗等,2018)。專利同族數越大,代表專利權人對該專利投入的成本越高,以完成專利發布與維護,同時在多國或地區帶來的經濟效益也越高[12]。已有研究表明,專利同族規模與專利經濟質量顯著正相關[27]。
(2)專利轉讓次數。專利轉讓是技術發明商業化的重要形式[28]以及專利技術轉移手段[29]。專利轉讓反映專利經濟質量[30],轉讓數量則反映專利技術市場需求[29]。專利轉讓次數指專利權人發生變更的次數。轉讓次數越多,表明專利經濟質量越好,專利質量也就越高。
主體性指標主要從專利發明主體角度衡量專利發明人的技術實力,進而間接判定專利質量。
(1)專利權人數。專利權人數是指一件專利的專利權所有人數量[3],反映專利研發資源投入程度及技術實用性[12]。專利權人數與專利質量顯著正相關[31],專利權人數越多,專利質量越高,同時也越有利于專利維護[3]。可見,專利權人數在一定程度上既能反映專利主體性又能反映專利法定性,可綜合反映專利質量。
(2)發明人數。發明人數是指一件專利發明人的數量,用于反映專利合作情況。發明人數量越多,不同發明人貢獻的知識和經驗越多,知識基礎越堅實,專利質量提升的可能性越大[3,32]。
(3)科學關聯度。科學關聯度是指專利引用非專利參考文獻的平均數量,用以反映該專利與科技前沿的關聯度[24],其值越大,表明企業與科技前沿的聯系越密切[1]。本文中的科學關聯度是指專利第一發明人所有專利引用科技文獻的平均數量,用以反映該發明人與最新科技的關聯程度。
(4)總體技術。總體技術是指專利權人發布的所有專利數,反映專利權人開發專利的努力程度[14]。專利權人的專有技術越多,專利權人技術實力越強,相應專利質量也就越高。專利權人包括企業、高校、個人和研發機構等。本文中的總體技術是指專利第一發明人發明的所有專利數,以衡量該發明人的總體技術實力。
(5)核心技術。核心技術是指專利權人發布的該領域的專利數,反映專利權人的核心領域知識[14]。專利權人的核心技術實力越強,專利質量也越高。本文中的核心技術是指專利第一發明人發明的該領域的專利數,以了解該發明人在某特定領域的技術地位。
(6)總體技術實力。本文中的總體技術實力與總體技術相對應,是指專利第一發明人發布的所有專利的總被引次數[14]。專利權人總體技術實力越強,專利質量越高。
(7)核心技術實力。本文中的核心技術實力與核心技術相對應,是指專利第一發明人發布的該領域專利的總被引次數[14]。專利權人核心技術實力越強,專利質量也就越高。
(8)他引率。他引率是指某專利被他人引用的次數在該專利總被引次數的占比,反映該專利的后續影響力。研究表明,總被引頻次與他引率指標之間存在一定的正相關關系[33],他引率越高,該技術對后續專利的影響越大,專利質量也就越高。
為全面客觀進行專利質量評價,本文在構建專利質量評價指標體系的基礎上,提出一種基于機器學習的專利質量評價方法。該方法的主要思路是:首先,從Derwent Innovation (DI) 數據庫中檢索專利質量評價相關數據,完成數據獲取與預處理;其次,提取專利質量評價指標及相關數據,構建適用于機器學習模型的專利質量評價指標體系;再次,通過訓練和測試完成機器學習分類器構建;最后,運用分類器性能指標對分類結果進行評價,并根據分類效果不斷改進機器學習模型,選出最優的專利質量評價模型。本文構建的基于機器學習的專利質量評價模型如圖1所示,具體分析步驟如下:

圖1 基于機器學習的專利質量評價模型
以研究的技術領域為例,確定該領域檢索表達式,在DI數據庫檢索并獲取該領域專利,并以專利質量評價指標為依據,在專利數據庫中下載專利指標相關數據,對獲取的專利數據進行預處理。
專利質量具有不可觀察、無法直接度量以及難以獲取等特點,實際應用中可用專利質量的代理變量表征專利質量[3]。專利被引次數與專利質量之間存在顯著正相關關系[22]。研究表明,該指標是最有代表性的專利質量表征指標之一,其一方面反映了該專利的技術貢獻程度,另一方面表明其余學者對該專利技術的贊同程度,與專利質量高度相關[1,4,12-14,19,23-24]。因此,本文選用專利被引次數表征專利質量,并將專利自公開后3年內被引次數、5年內被引次數和10年內被引次數分別衡量專利短期、中期和長期技術影響力。
專利轉讓是技術發明商業化的重要形式[28]以及專利技術轉移手段[29]。專利轉讓反映專利經濟質量[30],轉讓次數越多,表明專利質量越好[28]。一些學者利用專利轉讓指標評價專利質量,并對其有效性和可行性進行了驗證[3,34]。因此,本文將專利轉讓次數作為表征專利質量的另一指標。
本文根據已構建的專利質量評價指標體系,將專利被引次數和專利轉讓次數作為基于機器學習的專利質量評價模型的輸出指標,用以表征專利質量;其余指標則作為機器學習模型的輸入指標。本文構建的適用于機器學習模型的專利質量評價指標體系如表1所示,并根據該指標體系與各指標計算方法獲得相應指標數據。

表1 專利質量評價指標體系
本文利用機器學習分類算法,根據專利被引和轉讓次數對專利進行分類,以對專利質量進行準確的分類評價。考慮到機器學習算法與研究問題的相關性,以及各算法對數據量的要求、數據敏感性、模型結果可解釋性、模型準確性及各算法優劣勢等方面,本文選擇已成功運用到制藥技術領域專利分類[14]、訴訟專利質量評價[3]及農作物分類[35]等支持向量機、人工神經網絡、隨機森林及自適應增強4種機器學習分類方法,以完成專利質量評價模型構建。
2.3.1 支持向量機
支持向量機(Support Vector Machine,SVM)的基本思路是尋找一個最優分類超平面,使兩類間相鄰最近樣本點間的邊緣最大化[36]。SVM具有簡單易實現、理論完善、準確性高、小樣本可行等優點,目前已得到廣泛應用[37]。本文選用一對一類法(OvO)實現SVM的多分類,對于包含k類的訓練樣本,每個分類器僅涉及兩類訓練樣本,共需構造k(k-1)/2個分類器實現多分類[36]。
2.3.2 人工神經網絡
人工神經網絡(Artificial Neural Networks,ANN)是基于生物神經網絡結構的非線性統計數據建模工具,由一組相互關聯的神經元組成[38-39]。其基本思路是在訓練階段,由網絡輸入節點接收特征值,信號通過層與層間的激活函數不斷迭代調整輸入與輸出間的連接權重矩陣,輸出節點產生類別值;測試階段則根據訓練階段的權重矩陣,得到待分類數據的所屬類別[40]。人工神經網絡因在處理大數據與構建復雜模型時準確性高而被廣泛應用。本文中的ANN指常見前饋神經網絡中的多層感知機網絡,其主要是對輸入層、隱藏層和輸出層網絡結構進行設計。
2.3.3 隨機森林
隨機森林(Random Forest,RF)是一種以決策樹為基分類器的集成學習算法,運用Bagging抽樣技術, 可避免過擬合, 且能夠在訓練過程中對變量重要性進行評估, 具有很強的抗噪聲和泛化能力[41],結果對缺失數據較穩健。其主要思路為:基于Bagging抽樣技術構建k個決策樹基分類器,并采用等權投票法應用k個決策樹進行分類,選擇分類器投票結果最多的類別作為最后的分類結果[41]。本文中的隨機森林基分類器是CART決策樹。
2.3.4 自適應增強
自適應增強(Adaptive Boosting,AdaBoost)是目前Boosting算法中最常用的方法[42],其基本思路是選擇包含決策樹、SVM等在內的任何一種弱分類器,采用自適應樣本訓練策略,通過不斷更新權重訓練k個并行的弱分類器,最后通過加權將弱分類器組合為一個強分類器[43]。自適應增強具有泛化能力強、無參數調整、可用于大部分分類器等優勢。本文中的AdaBoost的弱分類器為單層決策樹,并運用OvO方法實現AdaBoost多分類。
為評價不同分類算法的性能,本文選用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1四個指標對各分類算法分類結果進行評價[35]。其中,對于某個特定類別,準確率是指分類正確的專利數與測試集總專利數的比率,計算公式如下:

精確率是指被正確分類的專利數與實際被分為該類別的專利數的比率,計算公式如下:

召回率是指被正確分類的專利量與該類別專利量的比率,計算公式如下:

在實際應用時,需要平衡精度和召回率,通常使用兩者的調和平均數作為一個綜合評價指標,稱為F1,計算公式如下:

在式(2)~式(5)中,TPi是指被正確分為i類的數量,TNi是指被正確分類為非i類的數量,FPi是指將非i類分為i類的數量,FNi是指將i類分為非i類的數量。
模型評選包括各模型內部最優參數調整及模型間性能對比兩部分內容。以支持向量機為例,模型內部最優參數調整主要根據模型準確率、精確率、召回率及F1值對核函數等參數進行調整,從中選取結果最好的參數作為最優參數,進而得到SVM最優模型,其它模型不予詳述。模型間性能對比主要是對SVM、ANN、RF及AdaBoost最優模型進行準確率、精確率、召回率及F1值的比較,并從中選出最優模型作為專利質量評價模型。
當前,人工智能技術已成為第四次產業革命的重要驅動力及國際競爭的新焦點,世界各國正在加速對其進行布局,而有關人工智能技術的專利近幾年增長迅猛。因此,面對快速增長的人工智能技術專利,如何構建有效的專利質量評價方法,實現對人工智能專利質量的準確評價和分類,識別出高質量和核心專利,對我國企業技術創新決策及政府專利管理決策具有重要意義。
本文以“ABD=("Artificial Intelligence*" or "AI*")AND (PY>=(1997) AND PY<=(2007))”為檢索式,在德溫特專利數據庫中進行人工智能技術專利檢索,共檢索到2 397條專利數據。下載檢索到的專利數據,并清洗一些噪音數據,共獲取2 157條人工智能技術專利,記為數據集1。此外,本文還對該領域所有專利(數據集2)、數據集1引用的專利(數據集3)、引用數據集1的專利(數據集4)、數據集1專利第一發明人發明的專利(數據集5)等進行收集、清洗和規范化存儲,共獲取791 831條數據。數據獲取情況如表2所示。

表2 數據獲取情況
以專利質量指標體系為依據,從5個數據集中提取并計算相應指標數據,以獲得與專利質量指標體系相對應的符合機器學習模型的專利數據。由于基于機器學習的專利質量評價涉及分類,因此需要對專利3年內被引次數、5年內被引次數、10年內被引次數及專利轉讓次數4個輸出指標進行類別劃分,并獲取相應數據。考慮到數據可獲取性,本文以3年內被引次數為依據設立分類標準。高被引專利是專利質量重要的測度手段。本文視專利3年內被引次數的Top2%為高被引專利[44],即專利被引次數大于15為高被引專利,類別記為C3。考慮到數據均衡性,將專利分為4類,分類標準如表3所示。

表3 數據分類標準
依據表3中的分類標準,對獲得的2 157條人工智能技術專利按3年被引次數、5年被引次數、10年被引次數及轉讓次數進行類別劃分,結果如表4所示。

表4 專利分類情況
在完成專利數據分類后,根據已獲得的專利質量評價指標數據,得到一個關于人工智能技術專利質量評價的2 157×22矩陣,其中第1列為專利號,第2~18列為輸入指標,后4列為輸出指標,由于篇幅有限,僅列舉此矩陣前20行數據,如表5所示。

表5 人工智能技術專利質量評價指標體系數據示例
由表3可知,專利被引次數和轉讓次數兩個專利質量表征指標均被分為4類,因此本文采用的4種機器學習模型均需構建4個模型,并分別記為3年模型、5年模型、10年模型和轉讓模型,共需構建16個模型。
3.3.1 基于SVM的專利質量評價模型
本文主要通過Python3.6的Sklearn庫實現基于SVM的專利質量評價模型構建。首先,采用20折分層抽樣交叉切分法進行試驗;其次,對訓練和測試數據進行相同縮放數據預處理;再次,選用線性核和徑向基核函數進行性能對比,并對各核函數調參;最后,選擇最優參數,完成基于SVM的專利質量評價模型構建。
3.3.2 基于ANN的專利質量評價模型
本文主要通過Python3.6的Keras庫實現基于ANN的專利質量評價模型構建。首先,對數據零均值和單位方差進行歸一化處理,并運用10折分層抽樣交叉切分法進行試驗;其次,確定網絡結構,輸入層為17個輸入變量,輸出層為4類指標,2個隱藏層;再次,選用ReLU、Softmax為激活函數,選用SGD為模型優化器,學習率為0.01,衰減系數為1e-6;最后,觀察模型訓練過程的Acc_loss曲線,選擇其中訓練和測試結果達到平穩狀態的模型為最優模型。
3.3.3 基于RF的專利質量評價模型
本文主要通過Python3.6的Sklearn庫實現基于RF的專利質量評價模型構建。其中,數據集的80%作為訓練集,20%為測試集。模型調試主要是對隨機森林中樹的數量、最大樹深及特征數量進行調整。本文用網格搜索尋找模型最優參數。
3.3.4 基于AdaBoost的專利質量評價模型
本文主要通過Python3.6開發實現基于AdaBoost的專利質量評價模型構建。首先,采用20折分層抽樣交叉切分法進行試驗;其次,對單層決策樹弱分類器進行分類;再次,運用OvO構造k(k-1)/2個分類器對弱分類結果進行重新分類;最后,通過投票法匯總各分類器分類結果,實現AdaBoost多分類。
為評選出最優的基于機器學習的人工智能技術專利質量評價模型,本文選取準確率、精確率、召回率和F1值對模型進行性能對比。SVM、RF、ANN和AdaBoost四種模型測試集整體性能結果對比如表6所示。

表6 4種機器學習模型測試集性能指標對比
在機器學習四分類分析中,唯一一個準確率大于0.25的類別為分析對象所屬類別,即四分類問題的基準確率為0.25[42]。從表6中4種模型的整體性能指標看,各模型的準確率、精確率及召回率結果均大于0.7,因此本文構建的16個模型結果均可接受,其中SVM的3年模型、5年模型、10年模型和轉讓模型中有3個模型的性能均優于ANN、RF和AdaBoost,僅10年模型性能略低于RF和ANN,因此SVM為4種機器學習模型中的最優模型,其次是RF和ANN,最后為AdaBoost,其性能有待提高。
本文利用人工智能領域1997-2007年的歷史專利數據構建專利質量評價模型,且本文所構建模型的輸入指標一經專利公開即可獲取,因此當新專利(如2020年公開的專利)數據輸入模型時,模型可對輸入專利的質量進行評價和預測。因此,該模型不僅為人工智能領域專利質量評估提供了可行和有效的方法,也為識別和預測人工智能領域潛在的高質量及核心專利提供了可能,進而可為企業技術創新決策和政府專利管理決策提供參考。
面對海量專利數據,如何構建有效的專利質量評價方法,實現對專利質量的準確評價和分類,對于政府和企業專利管理決策與技術創新方向選擇至關重要。針對目前專利質量評價研究存在的不足,本文首先提出一種新型專利質量評價指標體系,將專利開發主體評價指標納入專利質量評價指標體系中,從專利技術性、法定性、經濟性和主體實力4個維度構建較完善的專利質量評價指標體系;其次,根據新型專利質量評價指標體系,構建一種基于機器學習的專利質量評價方法,通過利用包含高質量專利的歷史數據,完成基于機器學習的專利質量評價模型構建,根據已有學習規則快速對新輸入專利的質量進行分類評價,并以人工智能技術專利為例進行實證研究,驗證提出的專利質量評價指標體系和基于機器學習的專利質量評價模型的可行性及有效性。
基于機器學習的專利質量評價方法具有可量化、準確性高、易于管理等優勢,有利于大規模專利質量分類評價智能化以及專利管理部門構建智能專利評價體系,在節約人力、物力的同時還能提高專利評價的準確性。因此,該方法有利于政府、企業專利管理決策和管理實踐發展。