余博文,劉向
(華中師范大學信息管理學院,武漢 430079)
在科技經濟全球化環境下,為了提高競爭力,越來越多的組織或個人在發明創新上選擇合作[1],合作創新被實踐證明是提高創新效率的重要途徑之一[2]。一直以來,專利合作是科技創新與社會關系網絡領域關注的重要話題,尤其是產學研之間合作情況和創新績效的關系[3]、專利發明人合作網絡的網絡特征[4]等。大量研究表明,具有相同屬性的創新個體傾向于相互合作,合作網絡具有同配性[5-7]。現有關于合作網絡的研究通常關注對特定網絡的特征進行揭示,如網絡的同配性[8]、度相關性[9]等,結合創新個體自身的屬性的研究較少,如對突破式創新發明人的合作傾向的研究。突破式創新發明人具有產出突破式科技成果的能力,培養突破式創新發明人是實施人才強國的全方位戰略[10]。對這一類型發明人的合作傾向進行研究,既有助于揭示這一群體的合作特點,也有助于突破式創新發明人的發現和培養。
基于上述原因,首先,本文基于專利數據,劃分科技發明人的創新類型;其次,根據網絡科學理論構建科技發明人合作網絡,分析突破式創新發明人在科研過程中的合作傾向;最后,采用隨機圖理論構建合作網絡的零模型,并對突破式創新發明人的合作傾向進行分析和檢驗。
“突破式技術創新”概念最早由Christensen[11]提出。突破式技術創新是指對原有技術的重大革新,產生了技術和發展路線的顛覆效應[12-13]?!俺掷m式技術創新”是相對的概念,指的是對現有技術漸進式、增量式的改進,是在現有需求的基礎上對現有產品或技術進行的微小改進或過程創新[14-15]。對發明人類型的研究主要是依據發明人影響力的不同將其分為不同的類型,針對“明星發明人”(star in‐ventors)的定義與特征挖掘已有大量研究[16-17]。Schiffauerova等[18]綜合考慮發明人公開的專利數量和專利的平均權利要求數量,將發明人劃分為不同等級。劉向等[19]依據發明人的突破式與持續式創新值,將高被引發明人進一步劃分為“復合型”“鞏固型”“突破型”和“發展型”四種類型。
研發合作是創新的重要途徑,學者們對高影響力研究開發群體的合作情況頗有研究。Almeida等[20]發現高影響力發明人在合作時研究領域上具有差異性,且高影響力發明人組成的團隊存在更大的研究領域差異性,表明高影響力發明人傾向于研究多種學科領域。Beaudry等[21]研究了加拿大納米技術領域的發明人合作對專利質量的影響,發現擁有更多核心發明者的研究團隊能夠生產更高質量的專利。Wu等[22]研究發現,小規模團隊傾向于產出突破式創新成果。
關于發明人的合作傾向問題。王宇開等[23]對專利發明人合作中的性別偏好問題進行分析,發現發明人團隊中廣泛存在“同質性”合作偏好的現象,即男性更愿意與男性合作,而女性則被動地只能更多地與女性合作。Azagra-Caro[24]對科研人員與企業的特征分析,發現科研人員的工作經驗與學科背景會影響其參加科研工作的熱情。D'Este等[25]對英國企業進行了實證研究,發現低質量大學更傾向于在應用型研究上與企業進行合作。Wang等[8]發現科研年齡較長的科研人員傾向于有更多合作者,并且這一類人群傾向于相互合作。
突破式創新發明人有沒有合作傾向呢?他們更愿意與突破式創新發明人合作,還是與持續式創新發明人合作?針對上述問題,本文嘗試從技術創新類型的度量方法出發,定義突破式創新發明人與持續式創新發明人的度量方法,基于發明人合作網絡分析和揭示突破式創新發明人的合作傾向。
專利之間的引用關系既體現了知識的流動方向,也體現了一項技術對更早的一項或多項技術的繼承和發展。專利的被引情況則能體現一項技術的重要性和創新程度。Funk等[26]提出CD指數用于測量一項技術的變革程度;Chen等[27]將該指數拆成D指數和C指數兩個指標,分別用于度量一項技術的突破式與持續式創新性;Wu等[22]將CD指數進行了簡化,計算方法為
圖1為一件專利v在專利引用網絡中的引用與被引情況,菱形表示目標專利v,圓形表示專利v的參考專利q。一件專利引用專利v和q存在三種情況:第一,僅引用專利v,記作專利i;第二,僅引用專利q,記作專利k;第三,既引用專利v也引用專利q,記作專利j。將專利i、j、k的數目分別記為ni、nj、nk。

圖1 專利CD指數的計算方式
CD指數的思路:當一件突破式技術創新專利P公開后,后續專利對這件專利P的前代專利的引用會大幅減少,即專利P代表的技術相對于老技術具有完全替代性和突破性。由公式(1)可知,CD指數的范圍是-1~1。突破式技術創新專利的CD指數大于0,持續式技術創新專利的CD指數小于0[26]。CD指數的絕對值越大,表明專利具有越強的突破性或持續性。Wu等[22]通過CD指數來衡量科研團隊產出成果的突破性,發現大團隊與小團隊在產出成果突破性上存在差異。Park等[28]通過CD指數探究了不同時段的專利的突破性,發現隨著時間推移專利的突破性逐漸降低。
發明人的創新類型與該發明人所持有專利的創新類型有關。由于一位發明人公開的專利數量可能有多件,并且多件專利的技術創新類型可能不同,因此,需要通過發明人的專利來定義發明人創新類型。例如,劉向等[19]取一位發明人所有專利創新值的中位數作為發明人創新類型的評估指標??紤]到在不同領域內突破式創新技術的占比不同,本文將一位發明人公開的所有專利的CD指數的最大值的符號作為該發明人創新類型的度量指標,記作MaxCD,則第i位發明人的創新類型計算過程為
其中,Ni表示第i位發明人公開的專利數量;CDij表示第i位發明人公開的第j件專利的CD值;sign(x)表示符號函數。該指標值的正負分別將發明人劃分為突破式與持續式創新發明人。
一件專利在公開之后,其CD指數的符號一般不會發生改變。例如,1980年公開的一件專利P1在5年內表現為突破式技術創新,其CD指數為正。隨著時間推移,1990年公開的專利P2在5年內取代了P1成為新的突破式技術創新專利,此時P1的引用量減少,但對其CD指數的正負影響不大[29]。因此,用CD指數在1995年對比P1和P2的創新性的意義不大,甚至P1的技術創新類型可能因太長的統計周期而發生了變化。Yayavaram等[30]認為,評價專利的創新性需要用該專利公開后5年(或10年)的CD指數??紤]這種情況,本文在后續度量發明人的創新類型時,選取一段時間內(如1年或5年)公開的所有專利,計算每一件專利在相同時間(如5年或10年)內的CD指數。
3.1.1 數據集選擇
研究數據來源于美國專利和商標局(United States Patent and Trademark Office,USPTO),選自美國專利分類號435*(分子生物學與微生物學,Chemistry: Molecular Biology and Microbiology)下1979—2014年的授權專利數據,共66875條。本文使用該數據構建專利引用網絡與發明人合作網絡,使用的字段包括專利號、專利公開日期、發明人、參考專利號、參考專利公開日期。選取該專利數據的原因有:①分類號435*的數據完整性較好,對應學科的引用較為集中;②專利間引用較頻繁,在短時間內能產生足量的引證關系,用于構建專利引用網絡與計算CD指數;③分類號435*對應學科具有較高的影響力,作為科研前沿領域的發展較快,具有較高的研究價值。
3.1.2 數據預處理
(1)專利引用網絡構建
科技發明人創新類型的確定首先要計算發明人在一段時間內公開專利的CD指數。根據專利間引用關系可以構建專利引用網絡,進而可以計算出一件專利的CD指數。本文采取直接引用方式來構造專利引用網絡,專利可以被視為網絡中的節點,而專利之間的引用和被引用關系可以作為節點之間的連邊。
本文選擇的數據集中,一件專利的部分參考專利可能并不在435*分類號下,屬于其他學科或更早期的專利,而這部分專利在一些發明人特征的計算中是必需的。因此,構建的專利引用網絡的節點數要大于435*分類號及其子類下的所有專利數據。構建的專利引用網絡需要使用1979—2014年的全量數據,網絡包含專利共354422件,引用1156504次。
(2)發明人合作網絡構建
合作網絡是以創新主體為節點,創新主體通過專利合作建立聯系,本文根據此關系和專利文獻題錄數據構建發明人的合作網絡。
實驗中選取存在于該數據集的發明人作為研究對象。在構建合作網絡時,一件專利的所有發明人間形成兩兩合作關系,在其之間添加連邊。許多發明人之間有過不止一次合作,該現象在全局發明人合作網絡更顯著。因此,發明人合作網絡是一個無向有權網絡。首先,選取全量專利數據集,構建1979—2014年的發明人合作網絡,該網絡包括98075個節點和231919條邊。其中,有62362對作者(即合作網絡中的62362條邊)之間合作次數超過一次,占總邊數的26.9%。全局發明人合作網絡的平均度是4.73,一位發明人公開專利的平均數量為2.17。其次,構建以5年為時間段的合作網絡,并計算網絡的基本拓撲結構特征,結果如表1所示??紤]到部分發明人存在科研生涯終止的情況,在計算各合作網絡的平均度和平均聚類系數指標時,發明人總數選擇的是該時間段公開了專利的發明人,即發明人合作網絡的節點數。合作網絡的平均度隨時間推移呈上升趨勢。網絡的平均聚類系數整體上也在增加,表明發明人之間的合作者之間互相合作的概率增加,但網絡的密度隨時間變化在降低,表明從整體上看網絡仍然是稀疏的。

表1 發明人合作網絡基本特征(以5年為時間段統計)
(3)發明人創新類型的計算
圖2統計了MaxCD度量方式下兩種創新類型發明人的數量情況。其中,CD指數的計算取5年為計算周期[30],圖中D和C分別表示突破式創新發明人和持續式創新發明人,節點對應的橫坐標,如1983,代表的是1979—1983年的統計數據。分類號435*(分子生物學與微生物學)領域突破式創新發明人數量隨時間推移呈現先增加后減少的趨勢,在2009—2013年時間段要少于持續式創新發明人的數量。進一步測量發現,在2003年之后出現了大量專利未被引用的發明人。

圖2 兩種創新類型發明人數量隨時間變化情況
對于發明人的創新類型,本文計算了max{CDij|j∈Ni},記作CDmax,并統計了該值的分布情況,如圖3所示。結果表明,兩種創新發明人的CDmax分布類似,并且該結論與文獻[19] 中“明星發明人”的突破式和持續式指標的分布情況吻合。

圖3 發明人所有專利CD指數的最大值分布
發明人合作網絡是不斷發展的,復雜的機制驅動著網絡的演變。在某一時期觀察到的網絡在長期內可能表現出不同的度分布特征。一種簡潔的判斷度相關性的方法是計算度為k的節點的鄰居節點的平均度,即余平均度(excess average degree)[31]。假設節點i的ki個鄰居節點的度為kij,j=1,2,3,…,ki,計算節點i的ki個鄰居節點的平均度,即
假設網絡中度為k的節點為v1,v2,…,vik,則度為k的節點的余平均度為

圖4 歷年發明人合作網絡(k)和k的關系
同配系數是刻畫網絡是同配還是異配的指標,計算方法為
其中,σ2為余度分布的方差;ejk表示在網絡中隨機選取的一條邊的兩個端點的度分別為j和k的概率,即聯合概率分布;qj表示網絡中度為k的節點數所占比例,即網絡的度分布;qk表示網絡中隨機選取的一個節點隨機選取的一個鄰居節點的度為k的概率,即余度分布。顯然,同配系數r∈[-1, 1] 。如果r>0,那么網絡是同配的;如果r<0,那么網絡是異配的。
為了進一步驗證發明人合作網絡的同配性質,本文計算了1979—2014年每年的同配系數及其變化情況,如圖5所示,橫坐標是年份,縱坐標是每年發明人合作網絡的同配系數。結果顯示,1979—2014年每年發明人合作網絡的同配系數均大于0,表明發明人合作網絡是同配的;并且同配系數的絕對值均大于0.5,反映了合作網絡較強的同配程度。網絡的同配性質也反映了具有相同屬性的發明人傾向于相互連接。

圖5 發明人合作網絡同配系數
3.3.1 合作傾向測度
本節探究突破式創新發明人在合作時是否存在傾向性。Wu等[22]的研究表明,合作團體的規模會影響突破式創新成果。Gong等[32]對一個社會群體中的每個人進行反應力測試,指出評分高的個體會收到更多的合作邀請。因此,本節重點研究發明人參與合作的團體規模以及合作對象創新類型。其中,前者是指發明人參與科研工作的研究團隊規模,后者是指發明人在合作對象的選擇上的特點。
發明人合作網絡圖譜如圖6所示,顯示了不同創新類型發明人的合作關系情況以及其隨時間的變化。兩種創新類型的發明人分別用不同的形狀表示,連邊的線型代表不同創新類型發明人之間的合作關系。在圖6中,D和C分別表示突破式和持續式創新發明人,D_C表示突破式創新發明人與持續式創新發明人合作。隨著時間推移,突破式創新發明人占比降低,這與圖2和圖3的結論吻合。圖6還表明,突破式創新發明人傾向于與突破式創新發明人合作。

圖6 發明人合作網絡圖譜
進一步測量科技發明人選擇的合作對象類型。合作雙方的創新類型是由他們建立合作關系這一時間點之前的專利被引情況確定的。該測量方法避免將兩位發明人合作開發的專利納入其自身創新類型計算的范疇,消除了“內生性”,也更符合現實中發明人選擇合作對象的流程。假設發明人A和B在2010年5月20日公開了一件專利,在測量二者創新類型時,將不包含這一件專利,而是分別選取A和B在這一時間點之前公開的專利來確定他們的創新類型。
由表1可以看出,以5年為時間段構造發明人合作網絡的平均度比以1年為時間段的合作網絡更穩定,且考慮到發明人的合作傾向可能會隨著時間演化而改變,因此,本節選取以5年為時間段來構造發明人合作網絡,統計不同時間段的指標。
探究突破式創新發明人合作對象的類型時,考慮到一位發明人可能與其他突破式和持續式創新發明人均有合作關系,本文通過兩種指標來測量發明人的合作對象選擇傾向,這兩種指標分別記作Metric-1和Metric-2。
第一,測量不同創新類型的發明人產生了哪幾種合作關系,分別占比是多少,即測量發明人合作網絡的連邊的兩端點的創新類型。假設突破式創新發明人A與B在合作網絡中存在連邊(不考慮重復合作),則認為A傾向于和B合作,B也傾向于和A合作,即計算了2次合作關系。
第二,考慮一位發明人所有合作對象的創新類型,統計不同選擇的發明人數量占比。以突破式創新發明人為例,假設突破式創新發明人A在某一時間段只公開了一件專利,其合作者B和C也是突破式創新發明人,則認為發明人A在該時間段只與突破式創新發明人合作;如果合作者B和C分別為突破式和持續式發明人,則認為發明人A在該時間段與兩種類型均合作過。
3.3.2 合作傾向分析
本節以5年為時間段計算Metric-1和Metric-2兩種指標下的合作傾向,統計了該領域發明人在不同時間段的兩種指標下的實際占比數值,結果如表2~表4所示。由3.1節可知,兩種創新類型發明人數量存在不均衡的情況,本文在統計Metric-1指標時進行了數據平衡,表中是平衡之后的相對值,可以直接比較數值的大小。在表2~表4中,D和C分別代表突破式與持續式創新發明人;且存在合作關系數目隨時間變化減少的情況,其原因是有大量“新秀發明人”參與研發合作,表中并未展示。我們發現,對比不同時間段的發明人合作網絡,相同創新類型的發明人之間合作更加頻繁。以2009—2013年為例,突破式創新發明人數量是持續式創新發明人數量的1.89倍,而突破式創新發明人之間合作頻次是兩種創新類型發明人之間合作頻次的5.39倍。表3的結果表明,更多突破式創新發明人只選擇了與同類型發明人合作,極少數突破式創新發明人只與持續式創新發明人合作。上述現象進一步說明,具有相同屬性的發明人之間會建立合作關系。但隨著時間推移,從絕對數據上看,這一現象逐漸減弱。因此,本文將通過構建零模型來檢驗突破式創新發明人的合作傾向。

表2 不同創新類型發明人之間合作情況(合作關系數占比,Metric-1)

表3 突破式創新發明人的不同合作選擇(Metric-2)占比

表4 持續式創新發明人的不同合作選擇(Metric-2)占比
3.4.1 科技發明人合作網絡零模型構造
一個與實際網絡具有相同節點數和相同的某些性質A的隨機網絡稱為該實際網絡的隨機化網絡(randomized network)。從統計學的角度看,“具有性質A的網絡G也具有某一性質P”是一個零假設(null hypothesis),要驗證這一假設,需要與原網絡G具有相同規模和相同性質A的隨機化網絡作為參照系,以判別性質P是否為這類隨機化網絡的典型特征。這一類隨機化網絡在統計學上稱為零模型(null model)[31]。
根據不同的“某種性質A”對零模型的約束,可以將零模型劃分為不同的階數。按照約束條件從少到多,主要包括:零階零模型,只需要與原始網絡具有相同的節點數和平均度;一階零模型,與原始網絡具有相同的節點數N和度分布p(k)的隨機化網絡;二階零模型,與原始網絡具有相同節點數N和二階度相關性特征(聯合度分布)p(k,k′)的隨機化網絡。
本文構造的零模型針對的是發明人合作網絡和發明人引用網絡,需要對網絡進行的約束是發明人的合作次數,即保持零模型的度分布或度序列(一階特征)不變。因此,本文構建的是一階零模型,構造方法是使每個節點的度值保持不變,即度序列保持不變。一階零模型的構造方法如圖7所示。假設網絡中有節點A與B相連、節點C與D相連,且節點A與D不相連、節點B與C不相連,具體情況如圖7a所示;先將連邊AB和CD切斷,再使節點A與D相連、節點B與C相連,最終生成圖7b。

圖7 原始網絡和使用隨機斷邊重連方法構造的一階零模型網絡
3.4.2 實際網絡與零模型
表5與表6選取了3.3.1節測度的發明人的合作關系與合作對象選擇情況,對比了這些指標在實際網絡和零模型中的區別。在表5與表6中,D和C分別代表突破式與持續式創新發明人。零模型統計的各項數據取自零模型的平均值。

表5 突破式創新發明人(D)合作情況(實際合作網絡與零模型)

表6 突破式創新發明人(D)合作對象選擇占比情況(實際合作網絡與零模型)
如表5所示,相比于零模型,在實際合作網絡中,突破式創新發明人與同類型發明人的合作更多。在零模型中,突破式創新發明人與二者合作的比例接近兩種創新發明人數量的比例。由表6可以發現,發明人在合作對象的選擇上也表現出與零模型明顯的差異。
3.4.3 突破式創新發明人合作傾向檢驗
基于零模型研究網絡特征時,要把實際網絡特征與相應零模型的特征做恰當的比較。本文參考文獻[33] ,選擇了統計學中的Z檢驗方法。Z檢驗方法(平均值差異檢驗方法)是用標準正態分布的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否明顯。具體來說,特征j的統計重要性可用Z值來刻畫,即
其中,N(j)表示某種特征在一個實際網絡中出現的次數,在相應的隨機化網絡(零模型)中出現次數的平均值為σr(j)為隨機化網絡中特征j出現次數Nr(j)的標準差。Z值的絕對值越大,表示實際網絡和隨機化網絡的差異越顯著。
為了探討突破式創新發明人合作傾向,本文測量了突破式創新發明人的合作對象中突破式創新發明人占比,記作fd。假設突破式創新發明人A在某一時間段只公開了一件專利,其合作者B和C均是突破式創新發明人,則認為fd=1;若B和C分別為突破式和持續式發明人,則fd=0.5。類似地,將持續式創新發明人的合作對象中持續式創新發明人的占比記作fc。
在檢驗突破式創新發明人合作傾向時,將合作網絡中fd與fc兩個特征的均值作為N(j),并且將由零模型計算得到的Z值分別記作Zfd和Zfc。表7展示了不同時間段的Z值??梢园l現,不論是突破式創新發明人還是持續式創新發明人,Z值均是隨時間演化越來越大,表明實際網絡在合作對象選擇這一特征上相比于零模型是顯著的,且差異性隨時間變化越來越強。上述現象進一步說明,從絕對數據上來看,隨著時間推移,突破式創新發明人與同類型發明人合作次數的占比降低,這可能是因為持續創新發明人逐漸增多,越來越多的發明人從事科研工作,也表明合作對象選擇對專利的技術創新性有著非常重要的作用。

表7 發明人特征fd與fc的差異性統計量
總結全文的分析結果,可以得出以下結論。
(1)科技發明人合作網絡具有度相關性與同配性。從發明人合作網絡的度值和對應余平均度的關系來看,發明人合作網絡具有度相關性,表明度大的節點之間傾向于相互連接。在合作網絡中,度大的節點一般是專利公開數量較多的發明人,這說明高產發明人之間傾向于相互合作。同時,合作網絡的同配系數為正,進一步證明了合作網絡具有度相關性,也表明相互合作的發明人之間具有相同的屬性。
(2)突破式創新發明人傾向于和突破式創新發明人合作。僅從發明人的合作關系來看(合作網絡中的連邊),突破式創新發明人之間相互合作的占比明顯高于不同創新類型的發明人合作。從發明人合作對象的選擇情況來看,與兩種創新類型發明人均合作過的突破式創新發明人占比較少,更多發明人的合作對象只有同類型發明人。通過構建零模型計算得到Z值,結果表明,實際網絡在合作對象選擇這一特征上相比于零模型是顯著的,并且隨著時間推移差異性越來越強。
(3)持續式創新發明人數量逐漸增多,但突破式創新發明人之間合作趨勢更加明顯。雖然不同類型發明人在合作對象選擇上具有傾向性,導致兩個群體產出的科研成果具有創新類型上的差異,但不能否認持續式創新成果的價值與持續式創新發明人在復合型團隊中的作用。隨著時間推移,持續式創新發明人占比逐漸增多,但是基于零模型的檢驗結果表明突破式創新發明人在研究對象選擇上越來越專一。
本文的創新和貢獻體現為兩點:其一,本文為發明人創新類型的劃分提供了一種新的度量方法,且該方法不局限于研究高產、高影響力發明人;其二,本文通過數據描述與基于零模型的檢驗方法,分析和驗證了突破式創新發明人在研發合作時傾向于選擇突破式創新發明人。
此外,本文還存在一些不足:在探究發明人合作對象的選擇問題時,需要度量發明人的創新類型,這是由他們在當前時間點之前的研究成果而確定的;在統計過程中出現了“零被引發明人”與“新秀發明人”,這兩類發明人的特征較少,對突破式創新發明人的合作傾向可能有影響,后續將對這兩類發明人的科研特征做進一步研究。