董玨+楊眉+郭晶+宋海艷



摘要通過對科學研究和技術應用的產出關聯性和引用關聯性分析,可以反映科學研究與技術應用間的相互擴散、轉移及貢獻程度,從而為合理地指導科學研究與技術應用資源配置和績效評價提供依據。選取教育部自然科學類高校排名前3的國內理工類高校近30年(1985-2014年)的論文和專利產出、專利引用關系等7個數據變量共21種組合關系,采用關聯性分析對現有的分析方法和指標進行修正,有效反映科學一技術在時間維度上的關聯性。結果表明,關聯性分析在實證研究中具有較好的適應性,其分析結果具有統計意義,能夠消除突變噪聲,為管理決策提供合理依據。
關鍵詞學科一技術關系 關聯性分析 轉化效率
1.引言
“科學一技術”關系的實踐研究發展于上世紀90年代,弗朗西斯·納林(Francis Narin)通過專利對論文引用在來源和時間方面的關聯性,證明在高科技領域,科學與技術之間有著緊密的相互作用。利用論文和專利數據可以衡量國家、地區或機構的創新能力測度以及相互間知識轉移、技術轉移途徑的研究,主要是基于宏觀數據進行統計分析。基于專利的科學一技術關系的研究,主要包括定量指標方法、數理模型方法、科學一技術映射模型及社會網絡分析方法。指標方面主要有科學聯系度(Science Linkage)及其標準化后的產業標準化指數、當前影響指數(Current Impact Indicator)及衍生的科學強度、技術循環時間(Technology CycleTime)、技術擴散系數、相對強弱指數(RSI)等。數理模型方面,有基于熵值算法學校一產業一政府的三螺旋模型與算法(已由Mode-1進化到Mode一2),技術成長曲線及其修正,以及用于科研投入與產出績效間的灰色關聯分析;科學一技術映射模型方面,國內學者嘗試建立科學學科分類與專利IPC分類的映射模型等;社會網絡分析方法,如高繼平提出的專利/論文的混合共被引網絡分析、聚類分析和聚類自動標引,基于社會網絡分析工具的研究等。定量指標方法難以避免突發因素造成的數據噪音,例如論文或專利的數量的突發性增長或引用;模型研究和社會網絡分析其關注的指標較為局限,例如模型研究主要是宏觀的規模性產出數據;社會網絡分析則要求變量數據間有共現關系。文章涉及7個論文和專利的數據變量,得到21種關系組合,擴展了定量指標體系,同時發現了一些原本弱相關或無關的數據變量去除時滯影響后呈現出較強或極強的相關性。
“科學一技術”相互作用分析能體現出科學研究與技術應用間的協同發展、擴散轉化和相互貢獻程度,從而為支持科技領域布局、制定技術創新策略、合理配置科研資源等提供決策依據。文章以國內高等學校“科學一技術”發展現狀為研究對象,通過高校的專利數據和論文數據關聯性分析,挖掘影響科學和技術發展的關聯性因素,探討科學與技術相互轉化、擴散、相互促進的時間效率。一項研究,或某一領域的研究,在研究發表后需要多長時間能被關注(被引)、被傳播、以及促進技術應用的出現,通過時間度量來揭示該問題,能夠為高校科技管理部門開展科技資源布局提供有效的決策支持的定量分析方法體系和策略。
2.研究方法
關聯性分析方法在很多學科領域得到了應用,在挖掘“科學一技術”關聯性分析方面,可以分析研究經費的投入產出,但其涉及的變量局限于產出數據,而忽略了引文關系,即科學與技術間的轉化和擴散效率;可以分析科研項目與專利產出間的關聯性,但其忽略了科研與技術之間的時間轉化差異,其相關性系數均低于0.9。
對于科學與技術的關系,通常認為:先有科學研究再有專利產出,即研究總是走在應用的前面;成果公開之后會經過一段時間得到關注、擴散、被利用。那么一個機構、一個學科、一個技術領域甚至單個的研究內容發表之后,究竟要多長時間才能爆發出大量的技術應用成果?文章擴展了“科學一技術”常用的分析指標涉及的數據變量(見表1),考量了科學與技術發展的時間差異性,一方面挖掘了更多的可用指標;一方面將原本弱相關的關聯性通過時間關系處理得到了較強或極強的關聯性,并分析該時間差異對科技轉化效率的影響。
從表1看出現有文獻的研究方法主要有兩種:一是考察單一變量的變化趨勢或者分布情況;二是對技術相關變量(如專利被引次數與專利公開量、引用論文文獻和專利公開量或論文發表量)間通過邏輯運算得到的數值進行分析,形成衡量科學一技術關聯性、活躍度和影響力的常見指標體系,運算方法主要包括平均數值、標準化數值、引用關系時間間隔等。但其存在的共性問題是:變量關系單一,且依賴于指標的建立來對數據進行處理,無法消除由突發因素引起的數據噪音。
2.1關聯性分析方法
在不同的變量間可能存在著線性相關或曲線相關關系,可以是正相關也可以是負相關,不同類的相關又可分為強相關、中等相關、弱相關或者無關等幾種關聯程度。而曲線相關大多可以轉換線性相關進行研究,衡量變量間的線性關系常用的系數為皮爾森(Pearson)相關系數。假設:變量A(專利申請)與變量B(專利被引)之間存在潛在的關聯性,當N=30(1985-2014年),A與B兩個變量曲線走勢見圖1,但兩條曲線并不完全重合,可以首先計算得到一個皮爾森相關系數:
對于同一年份的數據來說,專利被引相對于專利申請有所滯后。這一規律在圖1中表現為變量B的峰值在時間上較變量A提前出現。因此,在計算相同年份的變量A和B的相關性之后,嘗試尋找變量B的峰值相對變量A峰值前移的一般規律,計算不同年份的變量A和B之間的相關性;當Pn達到最大值時,n即為變量B相對于變量A的峰值前移時間差,也可以理解為變量B相對于變量A的時滯。新的線性相關系數計算公式如下:
當Pn達到最大值時,n即為A變量對B變量產生作用的時滯度量。
關聯性分析主要解決兩個問題:(1)對于相互之間沒有直接關聯性的變量,通過考察其時間序列變化情況,挖掘其在時滯效應和轉化速度方面的關聯性,以考察其預測性。(2)消除單個數據帶來的噪音影響,使分析結果具有較好的穩定性和合理性。
2.2方法驗證
通過曲線擬合,比較A和B,以及A和B兩組曲線的皮爾森系數和R方值,若皮爾森系數R方值得到改善或有明顯提高,且通過SPSS分析軟件得到的置信區間均在95%及以上,則說明該方法對于該變量組合具有統計意義。
文章通過列舉兩個例子來進行驗證說明:(1)選擇機構G的30年間(1985-2014年)論文發表(A1)和專利申請量(B1),并假設論文研究能帶動專利的申請,分析在當前的發展趨勢下,預測專利申請要經過時間n才能達到當前科學研究水平帶來的相應技術應用規模;(2)選擇機構G的30年(1985-2014年)專利申請量(A2)和專利被引量(B2)進行關聯性分析,與現有的“技術擴散速度”指標進行參照分析。兩組變量30年時間序列數據的趨勢分布與關聯性見表2和圖2。
經公式(2)計算得到表3。可見,G單位專利申請與論文發表間的關聯性,在時間差值n1=2年時達到最強,預測2年后在當前的總體研究態勢下,會引發技術引用的大量出現;專利申請與專利引用之間原本呈現的弱關聯性,在時差n2=3年時獲得較強的關聯性,且推測得出G單位的技術擴散速度為3年。
經過該處理后,通過SPSS以A為自變量,B為因變量進行曲線擬合,R方值都得到了明顯改善(見表4)。證明該關聯性方法具有統計意義,能夠表征兩個變量間的關聯程度。
同樣,通過數據驗證,關聯性分析7個變量(論文發表、論文被引、專利申請、專利授權、專利被引、引用專利、引用論文)的21類組合關系都呈現出較好的應用可行性。
3.評價體系的構建
文章的數據包括專利和論文兩部分。專利數據來源于TI數據庫,以專利權人代碼為檢索條件,獲得1985-2014年國內排名前3的理工科高校(高校S、高校Q、高校Z)的專利公開和引用情況;論文數據來源于InCites平臺中3所高校1985-2014年的論文發表和被引情況。
3.1評價指標的確立
從論文和專利數據中提取出7類變量,通過前期的關聯性分析后,得到21個組合形式并確定變量A對變量B具有促進或推動作用(表5)。
根據主/客體(論文與專利)與行為(引用與被引)之間的時間維度關聯性(圖3),15對變量組合可以大致劃分為四個類別:
(1)表征產出規模驅動的時間效應,體現在不同主體具有同樣的行為:論文發表一專利申請,即科學研究產出對技術應用產出的推動作用。
(2)表征擴散時間效應,體現為不同主體的產出與被引行為的時間維度關聯性,又可以細分為兩類:一類包含論文發表一論文被引、論文發表一專利被引、論文被引一專利被引,即科學研究的擴散對科學研究和技術引用產出的時間影響;一類包含專利申請一專利被引、專利申請一論文被引,即技術應用的擴散對新技術應用和科學研究擴散的時間影響。
(3)表征轉化時間效應,體現為不同主體的產出與其引用行為的時間維度關聯性,分為兩類:一類包含專利申請一引用論文、專利申請一引用專利、引用專利一引用論文,即技術轉化對科學研究和新技術應用產出的作用;一類包含論文發表一引用專利、論文發表一引用論文,即科學研究轉化對新的研究內容、技術應用和技術應用轉化的影響。
(4)表征貢獻程度,體現為引用行為與被引行為的時間維度關聯性,也可分為兩類:一類是科學研究對新的科學研究轉化和技術應用轉化的貢獻度,包括引用論文一論文被引、引用論文一專利被引;一類是技術應用對新的科學研究轉化和技術應用轉化的貢獻度,包括引用專利一專利被引、引用專利一論文被引。
3.2機構數據對比
通過公式(3)的計算處理后,我們得到以下結果(表6)。比對國內3所水平較高的理工類院校的論文和專利的產出及引用關系數據,其論文數量與專利信息的產出規模、擴散效應、轉化效應和相互貢獻程度都具有極高的關聯性。對比變量A對變量B的推動或促進作用在時間維度的間隔大小,可以挖掘各高校間的“科學一技術”間擴散、轉化速度的快慢,以及相互貢獻程度的時滯效應。
從關聯性來看,高校Q除了專利申請與專利被引、專利授權與論文發表、論文發表與專利被引、論文發表與專利引用專利文獻、論文發表與專利引用論文文獻和專利被引與專利引用專利文獻6種組合呈現出中等相關外,其他變量間都呈現出較強相關;高校S和高校Z在專利被引與專利引用專利文獻、專利被引與專利引用論文文獻2組變量無關聯性。
從時間關系上來看,專利授權與其他變量的關系,和專利申請與其他變量的關系差值在0-2之間,整體抵消了我國專利申請到授權的18個月審核周期的時間,因此兩者可按需選擇,文章以專利申請為主要變量開展分析。另論文被引和專利被引(2,2,1)在時間關系上同步于論文發表和專利申請(2,2,1),即一項/篇專利和論文被引用的同時,意味著另一項/篇專利和論文公開發表。因此兩組變量具有相互驗證的效果(表6中灰色部分為文章未選取的變量組合)。
(1)從產出規模來看:高校Z對科學一技術的產出發展較快,其變量間的時間間隔均小于高校S和高校Q。
(2)從擴散效應來看:高校S與高校Q技術擴散對科學的影響時效長于高校Z(論文被引一專利被引、論文發表一專利被引、專利申請一專利被引),而科學研究擴散對新的科學研究的促進(專利申請一論文被引)高校S要遲于高校Q和高校Z,科學研究擴散對新的技術應用的促進(論文發表一論文被引)三所高校時效相同。
(3)從轉化效應來看:在技術轉化方面(專利申請一引用專利),三所高校的效率相似;但高校Q的科學研究轉化效率(論文發表一引用論文、論文發表一引用專利)略低于其他兩所高校。
(4)從貢獻程度來看:高校Z的科學貢獻度較差(引用論文一論文被引),高校Q的科學貢獻度和技術貢獻度(引用論文一專利被引、引用專利一專利被引)較好,高校S的技術貢獻度和科學貢獻度(引用論文一專利被引、引用專利一專利被引)都略低于高校Q。
總體來看,高校Z近年來的產出發展較快,其科學研究向技術應用方面的轉化速度較快,但是技術與科學的關聯度較低,科學貢獻度較低,但技術影響力較高。高校Q近年來科技產出變緩,科學研究向技術應用擴散速度較快,高校Q的科學研究轉化效率較高,科學與技術的關聯度居中,技術循環時間變長,但其技術貢獻度和影響力仍較高。高校S在產出發展速度上略緩于其他兩所高校,其技術擴散效率不高,科學貢獻度和技術貢獻度的水平居中。
3.5與傳統指標的對比檢驗
傳統指標受到時間變化以及突現的大數值個例影響,會導致指標結果具有數據樣本的依賴性。通過分別比較擴散效應與“技術擴散速度”指標,轉化效應關聯性分析與“學科關聯度”和“技術循環時間”指標(見表1)的數據值,對關聯性方法的可行性進行檢驗。
(1)擴散效應關聯性與“技術擴散速度”指標。
在已有的科學一技術分析中,計量擴散效應的是(專利申請)與(專利被引)的平均時間間隔,即“技術擴散速度”這個指標來度量的,用這個辦法得出來的一個高校的技術擴散速度,選取的時間范圍距離現在越遠則值越大,選取的時間范圍距今越近值越小。例如:圖4中,選取30年的數據時,校S、高校Q和高校Z的均值分別為9.1、8.2和9.9年,中值為8.7、6.2和8.3年;選取近十年的數據時,三者的技術擴散速度分別為2.3、1.8和2.4年,中值為2.2、1.6和2.2年。
關聯性的分析則是對兩個變量的總體趨勢進行對比,根據表6的結果,在30年的數據范圍內,科學研究的擴散對科學研究和技術引用產出的時間影響(論文發表和論文被引:4、3、3,專利申請和專利被引:4,3,3),以及技術應用的擴散對新技術應用、科學研究和科學研究擴散的時間影響(論文發表和專利被引:5,5,4)的時間效應更加的均衡和穩定。
(2)轉化效應關聯性與“科學關聯度”和“技術循環時間”指標。
傳統指標中評價科研轉化和技術轉化的指標有科學關聯度和技術循環時間兩個指標。通過計算學科關聯度得到圖5,得到的2014年累積值分別為1.10、0.70、0.59,高校S的科學關聯度較高,高校Q科學關聯度居中,高校Z的科學關聯度較低。該結果與三者的科學研究轉化對新的研究內容、技術應用和技術應用轉化關聯分析結果(1,1,1)近似。
近五年(2010-2014年)技術循環時間方面的高校S的技術循環時間(4、5、3、3、3年)與高校Z(5、4、4、3、2年)近似,較高校Q(8、7、4、3、4年)略快,且年代越近,其技術循環時間越小。通過關聯性分析,技術轉化對科學研究和新技術應用產出的作用(2,3,2),高校Q略緩于高校S和高校Z,與傳統指標的結果相近,但受數據集合時間范圍的影響更小。
4結論
在現有的科研產出績效評價體系中,對于產出規模的考量遠多于對于“科學一技術”。即重視“論文發表一專利申請”的數量發展,但是對于一個機構、一個學科的“科學一技術”發展狀態的衡量,還要綜合考慮科學研究與技術應用的擴散效應、轉化效應和貢獻度,從多種角度考察發展現狀,選擇有效的評價因子,制訂合理的評價機制。文章提出的關聯性方法,將現有指標化評價轉化為從時間維度的關聯性評估,有效地解決了突變因子的負作用,有利于更加客觀、均衡地表征“科學一技術”間的發展狀態。
關聯性分析在大樣本量的數據集合中,例如學校層面具有很好的表征作用,最大程度地挖掘了變量間的影響關系,且可以消除歷史數據或突變數據帶來的負面作用,更加合理地體現變量間相互作用的時間關系。但在高校內部學科層面的集合中,變量間的關聯程度不夠穩定,該問題主要來源于小規模數據集合的時間序列的不完整性,以及專利引用動機的復雜性。因此,可以通過兩種手段進行進一步的修正,例如:對于時間序列的缺失,可以采用累積統計的辦法消除時間序列空白,保證統計意義上的完整性和有效性;對于專利引用動機復雜性,可以通過專利信息中的引用來源標注(申請引用和審查員檢索引用)和關聯性代碼(對于引用文獻是對技術背景的描述,還是技術新穎性判斷等)進行進一步的數據清理和深層次關系的挖掘。