劉子辰,李小娟,韋 偉
(中國科學院計算技術研究所,北京 100190)
(*通信作者電子郵箱lixiaojuan@ict.ac.cn)
知識產權保護在我國經濟發展過程中的地位不斷提高。圍繞知識產權的交易已經成為知識產權保護與服務的重要組成部分。而作為知識產權的交易核心,專利交易在知識產權保護的大背景下,它對經濟活動的作用也必將更加突出。但是,專利交易過程中的一個突出的核心矛盾是如何保證專利的交易價格能夠實際地反映專利的價值。這其中要解決的首要難點問題是專利交易價格的評估問題。
使用計算技術對專利價格進行自動評估被認為是解決上述問題的可行路徑之一,在近年來獲得了大量關注。Lanjouw等[1]使用七個技術領域的專利詳細信息來開發專利質量指數,基于四個專利特征構建最小方差指數,結果表明使用多個指標可以大大降低質量的測量差異。龔婭等[2]基于對專利權價值影響因素的分析,指出了目前專利權價值評估方法存在一定的局限性,構建了專利權價值評價指標體系,在此基礎上運用層次分析法(Analytic Hierarchy Process,AHP)和模糊綜合評價法建立了專利權價值評估模型,用于對傳統評估方法所得的評估結果進行糾偏。Danish 等[3]通過經驗模型分析了555 項專利,將專利權人的續約決定模型化為有序的概率,使用變量(例如專利家族規模、技術范圍、發明人數量和授予滯后)在相應回歸中用作解釋變量,將專利權人的續約決定以及專利的特征和續約成本表結合在一起,以估算專利價值分配。Gu等[4]基于專利技術的視角,將專利分為三種類型:基本型專利、技術專利和實用型專利,根據三種專利的特點,進一步分析不同的專利質量評價標準,從實證研究的角度出發,構建科學合理的評價指標體系。李玉等[5]針對專利價值的不確定性和影響因素的復雜性,以及評估工作中缺乏可操作性等問題,對價值評估指標體系進行分析,使用隨機森林算法選擇最有效的指標集,同時基于具有噪聲的基于密度的聚類(Densitybased Spatial Clustering of Applications with Noise,DBSCAN)方法選擇高精度且一致性低的決策樹子森林,改進傳統隨機森林算法,實現專利價值評估。謝文靜等[6]在對影響專利價值評估因素進行分析基礎上,加入了發明人特征指標建立專利價值評估指標體系,運用粗糙集理論構建專利價值評估模型。Liu 等[7]旨在解決使用迄今收到的被引用信息進行專利估價的局限性,通過設計基于點過程的專利引用類型感知(自引用和非自引用)預測模型,該模型結合了專利的各種信息,為進行預測性專利評估提供了可能性。資智洪等[8]根據專利價值分布特點,分析專利價值的影響因素和專利價值評估的關鍵指標,提出了一種“二級分類評估”的專利評估方法,該方法結合了定量指標和專家評估,用該方法分別計算出專利的定量指標(Ps)值和定性指標(Qs)值,然后將Ps和Qs相加得出專利值(Patent Value,PV),并反映專利價值。Liu 等[9]假設專利估價的實現始于專利的價值路徑:辯護、實施或轉讓,探索基于貝葉斯神經網絡的模型,以預測實現專利估價的途徑,并提出了一種基于功能效果的專利表示,并從中提取了一些技術特征,給定專利特征,使用貝葉斯神經網絡進行專利估價。Ma 等[10]針對特定領域的技術特點,建立了一套包括指標體系、指標權重計算、評分標準確定、專家評分計算在內的專利價值評價體系,基于價值獲取理論模型有效地將成本法和收益法結合了傳統的評估方法,避免了獲取市場法所需的專利交易數據的問題。
由于人工智能相關技術的不斷成熟,其在工程領域的應用更加廣泛,也有研究者采用人工智能的相關技術實現專利價格的自動評估。壽向晨[11]基于專利價值評估時的影響因素、參考文獻和專家意見,設計了比較合理的專利價值評估的指標體系,并對指標體系進行計量經濟學量化,同時針對專利數據屬性的特點,對深度置信網絡算法進行多角度優化,設計出了適用于專利價值評估的改進的深度置信網絡算法模型。呂霽[12]針對專利技術產業化過程中的價值評估問題,構建專利價值評估指標體系和樣本體系,結合專利價值理論及逆向傳播(Back Propagation,BP)神經網絡理論,構建了專利價值評估神經網絡模型,完成專利價值評估。Trappey等[13]開發了用于物聯網專利質量評估的機器學習實施方案,在開發深度神經網絡模型進行專利質量評估之前,采用主成分分析來簡化專利指標,實現工業物聯網專利申請過程中的專利價值發現。趙蘊華等[14]從機器學習技術的角度出發,首先對專利價值評估指標進行分析和選擇,其次采用機器學習方法中決策樹、支持向量機和神經網絡三種算法對樣本進行訓練并測試,最后對測試結果進行了分析。Lin 等[15]提出了一種基于深度學習的專利質量評估模型,該模型可以整合專利文本材料和許多其他有用的屬性信息來評估專利質量,模型包括屬性網絡嵌入和基于注意力的卷積神經網絡,分別實現從引用網絡和屬性中學習專利嵌入和從專利文本材料中提取語義表示,然后將它們的輸出連接起來,以預測新專利的質量。林弘杰[16]設計了一種利用專利多項信息的基于深度學習的專利價值評估模型,該模型可以充分利用上述專利信息來預測評估專利的價值,模型由基于專利引用網絡的屬性網絡表征模型和基于注意力機制的卷積神經網絡模型組成,將兩種模型的輸出表征向量連接起來預測評估專利的價值。Hasan 等[17-18]提出了一種利用文本抽取的,基于關鍵字進行價值專利評估的方法,該方法針對專利的核心關鍵詞與其價值建立關聯關系,形成針對關鍵詞的專利價值數據庫,用來對之后的專利進行評估。Hu等[19]在進一步在關鍵字抽取的基礎上,通過對專利涉及主題進行了建模,構建了以主題為基準的專利技術強度評估方法。Hido 等[20]則提出了基于專利審查結果作為訓練集對專利進行創新性價值評估的方法,采用類似的思路,Jin等[21]則采用了專利維護數據,即專利是否及時繳納了維護費用等,作為數據來源建立專利評估的模型;Liu 等[22]則基于法庭判決結果為數據集,采用圖數據結構構建了針對不同專利的評估模型,判斷不同專利在進行法律訴訟時勝訴的可能性。
上述文獻在進行專利價格評估時均采用了自動化的處理方法,但是,在實際操作中,專利的實際價格評估過程還包含市場、法律、技術等多方面的多個維度。不同的評價方法對不同維度的考量也不盡相同。但是上述文獻評估專利價格時均沒有考慮專利的市場、法律、技術維度對專利價格的影響,而專利的市場因素對專利價格評估起到關鍵作用。專利價格評估的市場法指利用市場上同樣或類似知識產權的近期交易價格,經過直接比較或類比分析(包括對交易時間、交易因素、交易目的、資金成本、經濟壽命等因素的分析、修正)來估測專利資產價格的評估方法。市場法進行價格評估的流程與機器學習的流程非常類似,即通過已有的經驗數據訓練評估模型。同時,人工智能的深度學習技術在各個工程領域已經得到廣泛的應用,尤其是針對普遍評估方面的應用也取得了較好的效果。為此,本文提出了基于循環神經網絡(Recurrent Neural Network,RNN)的專利價格自動評估方法,該方法以市場法為基礎,通過對其他各種因素的綜合考慮,利用門控循環單元(Gated Recurrent Unit,GRU)構建RNN的方法,實現對專利價格的自動評估。
本文所提出的專利價格評估模型如圖1 所示,模型包含四大部分:市場要素、專利組合要素、法律要素與技術要素,分別記為M、G、L、T。首先,由市場要素經神經網絡評估出基礎價格,此基礎價格用于后期修正;然后使用專利組合要素、法律要素、技術要素分別經GRU 神經網絡得到相應的評估值;最后,使用將所有的評估值經過GRU 神經網絡得到修正后的專利價格。

圖1 本文專利價格評估模型Fig.1 Patent price evaluation model in the paper
對于任意專利p,上述各要素的組成包括市場要素評估、專利組合要素評估、專利法律因素評估、專利技術要素評估。
對于市場要素的評估,主要考慮的因素為:專利p所對應領域近5 年來的專利交易數量nt、申請數量na、交易價格Vx。交易價格是一個專利在本領域的綜合交易價格加權平均,如式(1)所示:

其中:si代表專利p所在領域中的除專利p外的其他專利(以下簡稱其他專利)與專利p的相似性。相似性計算采用基于領域關鍵詞的文本相似性給出,文本相似性計算可用現有文本相似性方法進行計算,具體為采用WMD(Word Mover’s Distance)算法[23]。D(p)代表專利p所在領域的其他所有專利所構成的集合。對于D(p)的求解可以根據p的國際專利分類表(International Patent Classification,IPC)三級分類號獲得。進一步對專利交易數量與專利申請數量進行歸一化處理,處理方法如式(2)~(3)所示:

其中:Nt和Na為近5 年內所有專利的總交易數量和總申請數量。對于上述因素,綜合為基礎價格因素M,計算公式如式(4)所示:

式(4)的計算過程為計算神經網絡內部參數值的過程,需要計算的參數在1.6 節進行詳細說明,參數的初始值為隨機值,采用神經網絡遞歸訓練不斷更新參數值,直到使專利評估結果的相對準確度(Relative Accuracy,RA)值最大時停止更新參數值。
對于專利組合要素考慮以下兩方面因素:第一個因素為專利p申請者(或申請單位)在專利p領域所擁有專利的數量在該領域中所占比例Bpa,定義為式(5):

其中:Npa代表專利p的申請者(或申請單位)在專利p所在領域中持有的專利的數量。專利組合因素考慮的第二個方面為專利p的依賴關系含義為依賴于專利p的其他專利的數量。該數量關系可以通過專利申請時的前置專利信息獲取。綜合以上,專利組合要素G表述為式(6):

其中:G2 為循環神經網絡,其輸入數據分別為Bpa、Dp,最原始數據為團隊積累的科技成果轉化情況組建的專利庫數據和參考國家知識產權局得到的相關數據。式(6)的計算過程同式(4),不同點在于計算得到的神經網絡參數不同。
專利法律因素考慮以下幾個方面的因素:1)專利剩余有效期Yp。2)專利授權國家數量Cp。3)專利訴訟情況。對于專利訴訟情況,考慮以下幾個方面:a)專利p申請者(或申請單位)作為原告涉及訴訟數量La;b)專利p申請者(或申請單位)作為被告設計訴訟數量Lb。對于法律因素L表述為式(7):

其中:G3為循環神經網絡,其輸入數據分別為Yp、Cp、La、Lb,最原始數據為團隊積累的科技成果轉化情況組建的專利庫數據和參考國家知識產權局得到的相關數據。式(7)的計算過程同式(4)。
專利技術評估方法的具體步驟如下:
1)對于專利p獲得相關的論文集合,獲取方法為:首先搜索與目標專利具有相同作者或者是同一單位的論文,獲得集合Pa;其次,根據專利p對應的關鍵字集合Kt,對任意k∈Kt,獲得非目標專利作者的其他論文,所得到的論文集合為Pna。

其中:Si表示第i篇論文得分分數,若該篇論文為成功發表的論文,則得分分數為1;否則得分分數為0。式(8)的實際意義表示作者已成功發表論文的數量的總和。同時,對于,計算與p之間的相似性,得到。由此,得到論文的表征向量
4)針對步驟1)中獲得的論文集合Pa和Pna。對于∈Pa,采用式(9)所示的循環神經網絡進行計算:

式(9)代表論文與p之間的評價關系,反映的是利用論文來對p進行質量評估時的計算結果。其中:G4 表示循環神經網絡,其輸入分別為t、r、a、,其含義與步驟2)中的含義相同。Ma(p,)的值域為(0,100],取值越高代表專利技術質量評價越高。

G4 和G5 這兩個神經網絡結構與式(4)相同,即每個輸入輸入至一個GRU 入口,形成循環神經網絡,具體闡述詳見1.6節。
5)利用如下模型計算專利的技術質量因子:

綜合上述因素,最終對于專利p的價格評估模型為:

G6為循環神經網絡,其輸入分別為M、G、L、T,式(12)的計算過程同式(4)。
對于1.2~1.5節模型的訓練,本文采用如圖2所示的神經網絡進行訓練。本文所用的專利價格評估共使用6個GRU循環神經網絡,每個神經網絡評估的值如1.2~1.5 節所述,所有GRU 循環神經網絡的結構相同,但是內部參數不同,GRU 循環神經網絡的結構如圖3所示。

圖2 專利價格評估模型的訓練網絡Fig.2 Training network for patent price evaluation model

圖3 GRU循環神經網絡Fig.3 GRU recurrent neural network
GRU內部的前向轉播過程如式(13)~(16)所示。


經過神經網絡訓練后得到6 個神經網絡的網絡參數,網絡參數的具體計算過程是由神經網絡訓練過程中不斷調節得到,每個神經網絡的輸入數據如1.2~1.5 節所述,由于每個神經網絡的參數不同,因此本節需要構建6個GRU神經網絡。
以團隊積累的科技成果轉化情況組建專利庫,專利庫中共2 022條專利數據,同時參考國家知識產權局檢索到的專利數據和中國知網檢索到的論文數據,專利庫中每條專利數據包含的數據內容如表1所示,同時表1中列出了相應數據內容的數據說明,專利數據用于本文所提專利價格評估模型的訓練,其中,60%的專利數據用于模型的訓練,20%的專利數據用于訓練時的模型驗證,20%的數據用于專利價格評估模型的測試,使用專家定性評估的方法得到專利的真實價格評估值。

表1 專利數據Tab.1 Patent data
6 個GRU 循環神經網絡采用相同的網絡結構,每個GRU循環神經網絡由4 層GRU 層組成,每個GRU 層由32 個GRU組成。模型訓練時的初始學習率為0.1,學習率的遞減率為0.99,用于在模型訓練時不斷調整學習率。使用Tensorflow實現模型。模型訓練時的損失函數使用均方誤差損失函數,即均方誤差(Mean Square Error,MSE)值。使用相對準確度體現專利價格評估模型的性能,定義如式(17)所示:

為了驗證所提專利價格評估方法的有效性,將404 個測試專利隨機分成4 組對本文方法進行測試,專利價格評估結果如表2 和圖4 所示。圖4 中的相對準確度(RA)是本文方法的評估結果與專家定性評估結果進行比較的數值。
從表2 和圖4 可以看出,與專家定性評估結果相比,所提出的專利價格評估方法評估結果的RA 值基本維持在0.85,說明本文所提專利價格自動評估方法具有一定的自學習能力,所提方法是有效的。本文方法的評估結果與專家定性評估結果最相近的是測試組3 中的一篇專利,RA 值為0.93;評估結果與專家定性評估結果相差較遠的是測試組2 中的一篇專利,RA 值僅為0.77。對相應的專利進行查看,訓練專利中存在多篇與測試組3 中RA 值最高專利的專利內容同類的專利,而訓練專利中與測試組2中RA 較低專利的專利內容同類的專利較少,導致出現上述現象。因此,為了能夠有效避免上述現象的發生,在設置模型訓練庫時需要保證具有大量同類型專利數,而本文使用專利數量有限,并不能有效避免這個問題。

表2 專利價格評估結果Tab.2 Patent price evaluation results

圖4 專利價格評估結果值Fig.4 Patent price evaluation value
進一步,分別采用測試組1~4 中的專利,使用本文方法與采用基于AHP、粗糙集理論方法和BP神經網絡方法的評估結果進行比較,所得到的RA均值分別0.85、0.82、0.81和0.83,與對比方法相比,本文方法RA 值分別提升了3.66%、4.94%和2.41%。從如圖5 所示的對比結果中可看出:本文方法使用本文所用數據集能夠取得優于對比方法的性能。此外,相對與其他方法,雖然粗糙集理論方法的總體性能相對較差,但是對于測試組2 的專利的評估性能是所有方法中最優的,但在其他測試組的評估性能則表現不佳。AHP 和BP 神經網絡方法在測試過程中,性能表現則基本一致。

圖5 專利價格評估方法的相對準確度對比Fig.5 Comparison of relative accuracy of different patent price evaluation methods
為了進一步驗證本文所提基于循環神經網絡的專利價格自動評估方法的實際應用效果,對國內某高技術企業的所有芯片相關專利價格進行評估,待評估的專利數量為15,同時也對待評估的專利進行專家價格評估,評估結果如表3所示。
本文方法以市場法為基礎,通過對其他各種因素的綜合考慮,利用GRU 神經網絡的方法實現對專利價格的自動評估,從表3 可以看出,與專家評估結果相比,本文方法能夠得到較一致的結果,最低RA 值為0.74,最高RA 值為0.90,平均RA 值為0.84。使用本文方法最終為客戶進行了特定領域的專利價格評估,且評估結果在一定程度上得到客戶認可。

表3 本文方法在應用案例中專利價格評估結果Tab.3 Patent price evaluation results of application cases with proposed method
本文通過研究國內外先進專利價格評估方法,分析現有評估方法的優勢及缺點,現有方法在進行專利價格評估時沒有有效地考慮專利的市場、法律、技術維度對專利價格的影響,而專利的市場因素對專利價格評估起到關鍵作用,同時,人工智能、深度學習技術在工程領域不斷成熟,使用深度學習技術可實現專利價格的自動評估,即提出了基于循環神經網絡的專利價格自動評估方法。該方法以市場法為基礎,通過對其他各種因素的綜合考慮,利用GRU 神經網絡的方法實現對專利價格的自動評估,并通過對比實驗驗證本文所設計方法的有效性。
由于本文所用專利數據集的有限,并不能發揮出所提模型的最佳性能,因此,隨著后續專利數量和類型的不斷積累,將進一步優化所提專利價值自動評估模型,設計更優的評估模型。