馮 嶺 謝世博 劉 斌
(1.華北水利水電大學信息工程學院 鄭州 450046)
(2.武漢大學計算機學院 武漢 430072)
科技創新是引領國家發展的第一動力。通過科技創新,不僅可以推動國家經濟的快速發展,還可以幫助國家和企業在優勝劣汰的市場競爭大潮中立于不敗之地。黨的十九大報告中明確提出,“創新是引領發展的第一動力,是建設現代化經濟體系的戰略支撐”[1]。科技創新離不開技術創新人才的建設。技術創新人才是科技創新的主體,是國家和企業科技創新活動的積極實踐者,是推動企業科技創新的關鍵。一個企業科技隊伍的規模和質量,技術創新人才的數量和水準,在很大程度上影響和決定著它在同類企業中的地位和作用[2]。世界500 強的企業中,高新技術產業研究開發的科技創新人員數量是傳統產業的5 倍;世界化學業巨頭巴斯夫公司(BASF),僅從事高新技術研究與開發的專業人員就超過1萬人,其中有1700人曾獲得自然科學高級學位。
鑒于發現技術創新人才的重要性,學術界、企業界紛紛建立了指標體系來評價和發現技術創新人才。在各類指標體系中,人才的基礎素質、學習能力、實踐能力、心理素質能力、生理素質、知識結構、邏輯思維、合作意識、創新能力和想象力等特征都被用來評價技術創新人才的能力[3~5]。然而,盡管這些指標體系囊括了豐富的特征,但其中的特征大多需要專家的測評,因此需要耗費大量的時間。此外,由于測評專家在評價技術創新人才時具有很強的主觀性,因此很難準確地評價和發現技術創新人才。
作為一種重要的科技信息載體,專利數據包含了豐富的技術信息。根據世界知識產權組織的統計,專利數據中包含了世界上90%~95%的研發成果[6]。從專利數據中不僅可以檢索最新的科技信息,更能通過專利分析和挖掘來發現當前各個領域的技術人才,是評價和發現技術創新人才的重要依據之一。當前已經存在了一些基于專利指標的技術創新人才評價方法,根據專利發明人所申請的專利的申請數量、專利質量、引證關系、授權狀態、有效性、許可和轉讓信息等來評價和發現技術創新人才[7~8]。然而,這些方法往往孤立地對各個專利特征進行分析,而忽略了特征之間的關聯性,如技術創新人才所在的企業與發明人之間的關聯(即在技術創新能力強的企業任職的科技人才往往其創新能力也較強)、發明人之間的關聯(如果一個發明人的技術創新能力較強,則與之合作的發明人的創新能力一般也較強)等,導致不能準確地評價和發現技術創新的人才。
針對以上問題,本文以專利分析與挖掘方法為基礎,提出了一種基于專利異構網絡的技術創新人才發現方法,該方法首先通過構建多維專利特征的異構網絡,將多種特征地關聯起來;之后,采用異構網絡下的技術創新人才發現算法,從而在專利數據集合中準確地發現技術創新人才。
鑒于技術創新人才的重要性,學術界、企業界紛紛建立了指標體系來評價和發現技術創新人才。例如,呂欽等[5]提出了在就業人群和組織內部發現技術創新人才的方法,從人才的基礎素質、知識技能、創新表現等三個層面來分析人才的技術創新能力,通過人才的情商、智商、科學知識、人文知識、專業知識、工作經驗、技術指標、管理創新、思想創新、行為創新等10 個具體指標來發現技術創新人才。劉慧等[9]建立了一套簡潔、科學的指標體系,通過分析人才的創新知識、創新人格、思想品德、學術水平和科研項目等多個指標來評價人才的創新能力。張體勤等[10]利用文獻聚合的方法,通過從區域創新能力、地區競爭力、人才競爭力等12 個方面的文獻研究發現,對高層次創新人才隊伍的考察應該從人才資源、人才效能以及人才環境3 個一級、18 個二級指標進行評價。張海燕等[11]運用主成分分析法對徐州市及江蘇省其他12 個主要城市的創新人才成長環境進行了綜合評價,并運用比較分析法、象限圖法對徐州市在江蘇省13 個主要城市創新人才成長環境中的地位、優勢和劣勢進行了深入分析。趙偉等[12]在對科技人才進行科學分類的基礎上,分析了基礎研究與應用基礎研究、技術開發與應用、創新創業等不同類型科技人才的特征,提出通過學習能力、創新能力、實踐能力、協調能力、工作效益等多個特征來評價技術創新人才的創新能力。桂昭明等[13]基于2011—2012 年世界經濟論壇(WEF)發表的《全球競爭力報告》(GCR)評估數據,對包括中國在內的35 個國家和地區人才創新創業的可能性和可行性進行了評價和比較研究,提出通過人才的創新能力、知識基礎、物質基礎、等因素來評價人才創新的可能性和可行性。然而,盡管這些方法采用的指標體系囊括了豐富的特征,但其中的特征大多需要專家的測評,需要耗費大量的時間。此外,由于測評專家在評價技術創新人才時具有很強的主觀性,因此很難準確的評價和發現技術創新人才。
作為一種重要的科技信息載體,專利數據包含了豐富的技術信息。從專利數據中不僅可以檢索最新的科技信息[14~15],更能通過專利分析和挖掘來發現當前各個領域的技術人才。然而,當前基于專利指標的技術創新人才評價方法很少。僅有的幾個用來評價技術人才的方法中,涂湘波等[7]分析了專利的學術價值和學術地位,提出把專利納入高校人才學術評價的指標體系,并針對當前高校在知識產權保護和專利申請方面存在的問題,具體分析了專利作為學術評價的指標的選取,提出將專利的質量、授權狀態、有效性以及許可和轉讓情況等作為評價技術創新人才的指標。貢金濤[8]等以丹麥維斯塔斯風電技術集團公司專利數據為研究樣本,構建企業科技人才評價指標體系,通過專利申請數量、專利被引次數、平均專利被引次數、著者總數、著者平均專利數等多個因素來評價技術創新人才。
然而,這些方法往往孤立地對專利中的同種類型的特征進行分析,而忽略了一些特征之間的關聯性,如技術創新人才所在的企業與發明人之間的關聯(在技術創新能力強的企業工作的科技人才往往創新能力也很強)、發明人之間的合作關聯(如果一個發明人的技術創新能力較強,則與之合作的發明人的創新能力一般也較強)等,導致不能準確地評價和發現技術創新人才。
針對當前大多數方法在評價科技創新人才時往往孤立地對各個特征進行分析,而忽略了考慮專利中各個特征之間的關聯的缺陷,本文以專利分析與挖掘方法為基礎,提出一種專利異構網絡的技術創新人才發現方法,首先度量發明人、專利文檔、以及申請人三者之間的關聯,然后基于關聯構建多維特征的異構網絡,將多種特征關聯起來;最后,研究在異構網絡下的技術創新人才發現算法,從而在專利數據集合中準確地發現技術創新人才。
專利中包含了多種不同的特征信息。圖1 給出了一個專利的部分結構化特征的示例。可以看到,專利中不僅包含專利號、申請日、標題、申請人、發明人等信息,還包含了專利之間的引用信息。其中,發明人為撰寫該專利的作者,一篇專利文檔通常有多個發明人共同撰寫;申請人通常為一個企業或組織;引用信息則記錄了該專利所引用的所有專利的集合。此外,一些申請人之間也會存在合作關聯。

圖1 一個專利的部分結構化特征示例
為了構建包含具有多維度特征的專利異構網絡,首先需要度量各個特征之間的關聯。在本文中,我們主要基于發明人、專利文檔、申請人三個特征來構建多維度的專利異構網絡,具體的關聯包括專利之間的引用關聯、發明人與所申請專利之間的關聯、申請人與所維持專利之間的關聯,發明人之間的合作關聯以及申請人之間的合作關系等。
表1 給出了構建多維度特征的專利異構網絡所需的各種關聯的度量方法。

表1 專利特征的關聯度量方法
通過對以上關聯的度量,我們可以把專利文檔、發明人以及申請人等專利特征有效地結合起來,從而形成具有多維特征的專利異構網絡。
基于上述的特征之間的關聯度量方法,我們擬構建包含多維特征的專利異構網絡。在該異構網絡中,包含三種類型的節點:申請人、發明人以及專利文檔;包含五種類型的邊:專利與專利之間的邊,表示專利之間的引用關聯;發明人與發明人之間的邊,表示發明人之間的共著關聯;發明人與專利之間的邊,表示發明人與專利之間的申請關聯;申請人與專利之間的邊,表示申請人與專利之間的維持關聯;申請人之間的邊,表示申請人之間的合作關聯等。其中,邊上的權重為專利異構網絡中兩個節點之間的關聯強度。
圖2 給出了一個我們構建的多維度的專利異構網絡的例子。在該專利異構網絡中,包含4 個申請人節點、5個專利文檔節點以及4個發明人節點,并包含了專利與專利,發明人與發明人、發明人與專利、申請人與專利之間的邊、申請人與申請人等五種類型的邊,邊上的權重為兩個節點之間的關聯強度。例如,邊<I1,I2>表示發明人I1和發明人I2共同申請了專利,且他們之間的共著關聯強度為0.5;邊<I4,P2>表示發明人申請了專利P2,且它們之間的關聯強度為0.3。邊<P2,P1>表示專利P2引用專利P1,且P2到P1的引用關聯的強度為0.5。可以看到,基于構建專利異構網絡,我們可以得到申請人、發明人、專利等三種類型節點之間的關聯。

圖2 一個專利異構網絡的例子
基于構建好的專利異構網絡,我們擬提出異構網絡下技術創新人才發現算法,即通過發明人與發明人、發明人與專利文檔、專利文檔與專利文檔、申請人與申請人以及申請人與專利文檔之間的相互關聯來度量各個發明人的技術創新能力,并找出技術創新能力最強的前k 個發明人。該算法基于以下假設:
1)一個專利文檔被其他專利文檔引用的專利數量越多,且施引的專利的質量越高,則該專利的質量越高;
2)技術創新能力較強的發明人申請的專利通常會是高質量的專利;
3)申請人的創新能力越強,則申請人維持的專利的質量通常越高;
4)發表許多高質量專利的發明人通常技術創新能力較強;
5)技術創新能力較強的發明人的共著發明人通常會也具有較強的技術創新能力;
6)維持許多高質量專利的申請人通常具有較強的技術創新實力;
7)技術創新實力較強的申請人所合作的申請人通常也具有較強的技術創新實力。
根據1)、2)、3)可得,決定一篇專利是否為高質量的專利文檔的因素有由三部分組成:引用該專利的專利數量和質量、發明人的技術創新能力以及申請人的技術創新能力。因此,對于異構網絡中的任意專利Pi,其專利質量Q(Pi)為

其中Q(Pj),Q(Ij),Q(Cj)分別為專利Pj、發明人Ij和申請人Cj在異構網絡中的權重;和分別為專利Pi與發明人Ij和申請人Cj的關聯強度,其定義如3.1 節所示;|P(Pi)|為引用專利Pi的專利的數目,|I(Pi)|和|C(Pi)|為專利Pi中的發明人和申請人的數目;α1,α2,α3分別為各個部分所占的權重比例,且α1+α2+α3=1。
根據4)、5)可得,決定發明人的是否為技術創新能力較強的發明人的因素有兩項:他發表的專利的質量和數量以及與他存在共著關聯的發明人的技術創新能力。因此,對于異構網絡中的任意發明人Ii,其技術創新能力Q(Ii)為

其中,|P(Ii)|為發明人申請的專利數量,|I(Ii)|為與Ii存在共著關系的發明人的數量;為發明人Ii與發明人Ij之間的合作關聯強度,其定義如3.1 節所示;β1,β2為各個部分所占的權重比例,且β1+β2=1。
根據6)、7)可得,決定申請人的是否為技術創新實力較強的申請人的因素由兩部分組成:該申請人所維持的專利的質量和數量以及與其所合作的申請人的技術創新實力。因此對于異構網絡中的任意申請人Ci,其技術創新能力Q(Ci)為

其中,|P(Ci)|為申請人維持的專利的數量,|C(Ci)|為與申請人Ci存在合作關系的申請人的數量;為申請人Ci與申請人Cj之間的關聯,其定義如3.1 節所示;γ1,γ2為各個部分所占的權重比例,且γ1+γ2=1。
根據式(1)、(2)、(3)可知,發明人的技術創新能力Q(Ii)、專利的質量Q(Pi)以及申請人的技術創新實力Q(Ci)三者互相影響。因此,我們用迭代的方法來評估專利異構網絡中各個發明人的技術創新能力。首先初始化各個專利文檔、發明人和申請人節點在異構網絡上的權重為1/N,1/M,1/L,其中N,M,L分別為異構網絡中專利文檔、發明人和申請人的數量。然后,對于每一輪迭代,根據式(1)、(2)、(3)分別計算出專利文檔的質量、發明人的技術創新能力以及申請人的技術創新實力。經過有限次迭代(迭代次數e 通常為一個較大的數值,如e≥100)后,就可得到發明人最終的權重,即發明人的技術創新能力權重。根據各個發明人的技術創新能力權重進行排名,權重最高的前k 個發明人即為我們需要發現的技術創新人才。
為了驗證文中所提出方法的有效性,我們將提出的基于專利異構網絡的技術人才發現方法與基于專利特征的監督學習方法進行了對比。實驗中采用的專利數據集為從歐洲專利局Espacenet系統下載的“電動汽車”領域的專利數據。該數據集包含1998 年~2017 年之間“電動汽車”相關的58139條專利數據,其中發明人的數量為43047 個,申請人的數量為16154個。
由于當前缺少標注好的技術創新人才數據,我們將發明人所在企業或組織的技術創新實力和發表專利的數目作為評估各個發明人技術創新能力的指標,即如果一個專利發明人發表的專利數量較多,且該發明人就職于一個技術創新實力較強的企業或組織,則該發明人為一個技術創新能力較強的發明人。
基于該假設,在進行實驗時,我們將專利數據集分為訓練集和測試集兩個部分,其中訓練集為1998年~2007年發表的專利數據,測試集為2008年~2017 年發表的專利數據。對于訓練集,我們首先找出申請專利的數量在前20 的申請人(企業或組織),然后統計以上申請人中所包含的各個發明人發表專利的數目,并按照其發表的專利數目進行排序,最后將排序列表中的前k 個發明人標記為技術創新人才。基于標記的技術創新人才,我們采用文中提出基于專利異構網絡的人才發現方法對模型中的參數進行學習,以得到技術創新人才的判定模型。
對于測試集,我們按照同樣的方法對技術創新人才進行標記,然后采用基于訓練集得到的技術創新人才判定模型來計算各個發明人技術創新實力的權重,并按該權重從大到小對發明人進行排序。我們將得到的發明人技術創新實力的排序列表與標記的k 個技術創新人才進行對比,以評估所提出的方法的有效性。
我們用文中方法計算所得的前k 個權重最大的發明人中被標記為技術創新人才的比例AUC(k)來度量文中所提出方法的準確率。AUC(k)可以用公式表示為

其中,label(Ii)表示發明人Ii是否被標記為技術創新人才。如果Ii被標記為技術創新人才,則label(Ii)=1;否則,label(Ii)=0。
在圖3 中,我們比較了提出的基于異構網絡的人才發現方法(Heterogeneous-Network-based Talents Discovery,HNTD)和基于特征的監督學習方法(Feature-based Supervised Talents Discovery,FSTD)在“電動汽車”領域的專利數據集上的效果,以此來驗證我們提出的方法的有效性。

圖3 不同k值下技術創新人才發現的有效性對比
在該專利數據集上,我們比較了在不同的k 值下基于專利特征的監督學習(FSTD)方法和基于專利異構網絡技術創新人才發現(HNTD)方法的有效性。可以看到,當k=20,40,80,100,120 時,采用FSTD 方法計算得到的技術創新人才的準確率均低于采用HNTD 方法上的平均準確率,而當k=60 時,FSTD 方法和HNTD 方法的準確率基本相等。即在不同的k 值下,采用HNTD 方法獲得技術創新人才的準確率均不低于FSTD 方法,HNTD 方法比FSTD方法具有更好的效果。這可能是由于盡管FSTD方法考慮了專利的特征來評估發明人的技術創新能力,但忽略了專利特征之間的關聯性對發明人技術創新實力的影響,如技術創新人才所在的企業與發明人之間的關聯、發明人之間的關聯等等,導致FSTD 方法很難達到一個精確地預測結果。而在我們提出的HNTD 方法中,我們不僅使用這些專利特征來評估各個發明人的技術創新能力,還考慮了專利、企業、發明人之間的相互關聯,并設計了合理的迭代方法來度量各個特征之間的相互影響,可以取得一個更為準確的結果。綜上所述,在技術創新人才發現的問題上,基于專利異構網絡技術創新人才發現方法具有比基于專利特征的監督學習方法更好的判別效果。
本文提出了一種基于專利異構網絡的技術創新人才發現方法,不僅考慮多個特征來評價專利數據中發明人的創新能力,而且通過構建多維特征的異構網絡將多維度特征關聯起來,從而在專利數據集合中準確地發現了技術創新人才。