呂 源 劉敏榕
(福州大學圖書館,福建 福州 350100)
科學技術是推動社會進步的主導力量,科技創新既是贏得未來發展主動權的必然選擇,也是應對國際競爭新格局的內在要求。黨的十八大以來,黨中央對科技創新和成果轉化給予了高度重視,黨的十九屆六中全會通過的《中共中央關于黨的百年奮斗重大成就和歷史經驗的決議》強調,要“把科技自立自強作為國家發展的戰略支撐,健全新型舉國體制,強化國家戰略科技力量,加強基礎研究,推進關鍵核心技術攻關和自主創新”“加快建設創新型國家和世界科技強國”[1]。2016年5月,中共中央、國務院發布《國家創新驅動發展戰略綱要》提出,創新驅動發展是我國面向未來的一項重大戰略[2]。2017年9月,國務院辦公廳印發《關于推廣支持創新相關改革舉措的通知》,在深化科技體制改革、提升自主創新能力、優化創新創業環境等方面進行了探索[3]。2021年3月,《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》提出,以國家戰略性需求為導向推進創新體系優化組合,加快構建以國家實驗室為引領的戰略科技力量[4]。
當前環境下,產學合作是我國科技體制改革的核心內容。從宏觀角度上來講,產學合作模式深化了國家科技驅動發展戰略地位,推進了供給側結構改革以及培育了經濟發展的新動能;而從微觀角度上來講,產學合作模式對于高校的意義在于規避了高校成果轉化效率低、資金不足的問題,對于企業而言,產學合作則為企業研發提供了高素質的人才力量。然而,產學間的合作在現實層面往往存在突出困難。根據《2019年中國專利調查報告》數據顯示,我國國內有效專利實施率為55.4%,高校和科研院所的有效專利實施率明顯低于企業,分別為13.8%和38.0%,大量專利未能得到充分實施;而與此同時,我國企業普遍存在原始創新不足,關鍵技術受限等問題,在技術創新層面存在緊迫需求。顯然,通過產學合作優化社會總體創新環境已成為提升國家科技強國戰略的關鍵。然而,由于協同性不足[5]、激勵機制缺位[6]、供需對接不暢[7]等原因,根據《中國科技成果轉化2019年度報告(高等院校與科研院所篇)》,3 200家高校和科研院所中設立技術轉移機構的單位僅有688家(21.5%),只有307家單位認為技術轉移機構在成果轉化中發揮重要作用[8]。
專利文本作為一種科技寫作與法律寫作的結合體,本身具有專業性、技術性與新穎性的特點,同時又包含了豐富的信息,如IPC分類號、關鍵詞、引文關系等。對此,本文基于專利文本分析,設計產學合作推薦模型,并將現有的合作案例進行處理并用以驗證模型的可行性,通過對專利文本語料信息的深層分析,發掘研究者與企業之間存在學術合作的可能,達到促成合作、提高科技成果轉化率以及提升市場競爭力和生產力的目的。
作為科技創新體系的重要組成部分,高校和企業扮演著不同的角色。高校作為學術性研究機構,其研發活動的主要目的在于發現新知識、新規律,進而提升自身學術影響力。由于不受營利性要求約束,因此研發成果更加偏重學術性,對于現實生產力的轉化能力要求不高;而企業由于盈利性質,其研發活動具有很強的實用性和商業性導向,整個研發過程都是為提高生產力而服務的。總而言之,高校在創新體系中的優勢在于雄厚的研發力量、系統的研發模式以及豐富的研發資源;企業的優勢在于高效的成果轉化體系,穩定的資金支持以及對于市場信息的掌握。產學合作是科技政策與科技情報研究的熱點課題,國內外對此開展了一系列研究。總體而言,相關研究可以分為3個方面展開:
1)產學合作體系建設。產學合作體系研究目前分為理論研究以及實例研究兩種:在理論研究方面,國外學者Natália D L F等提出,“三螺旋模型”探究在產學合作體系建設過程中政府支持所起到的作用[9];國內相關的理論研究則包括對國家政策[10]、法律制度[11]以及高校內部科技轉化服務體系構建[12]的相關研究;而實例研究則包括對國內現有產學合作體系的研究[13]和參考國外發達國家知識產權體系建設的研究[14],從實證的角度吸取相關經驗,完善體系建設。
2)產學合作策略完善。當前我國的科技技術轉移轉化存在動力不足、效率低等問題,學術界針對此類問題從產學合作策略的改進與完善的角度進行回答。當前研究根據不同視角,可分為以下三類:一是國家政府主導產學合作及科技成果轉化體系完善[15];二是以市場或企業等需求方為視角探討校企合作方案[16];三是從高校視角出發探討產學合作對學術創新績效的影響[17]。
3)產學合作實證研究。此類研究主要包括國際經驗借鑒和國內實踐案例研究。國際經驗借鑒是通過對美國[18]、日本[19]、英國[20]等知識產權強國所開展的促進科技成果轉化的實踐進行分析,為我國提供相關的經驗;國內實踐案例是通過對典型的成果轉化案例進行分析,探究影響科技成果轉化的因素[21-23]。
現有的關于產學合作的研究成果主要是分析產學合作所需的相關要素,構建較為完整的產學合作體系,從不同的角度闡述我國產學合作目前存在的問題和改善的策略,并充分借鑒國外產學合作較為成功的經驗。但是目前關于產學合作相關研究存在兩點不足:第一,當前的研究注重概念性和理論性的研究,缺乏方法論的相關研究;第二,當前的研究主要偏向于定性研究,研究成果缺乏可重復性,具有主觀性。因此,本文擬通過基于專利文本分析的方法,探討如何進一步有效提高產學合作概率和高校與企業相關信息的對接方法,最終幫助提高高校科技成果的轉化率。
正如上文所述,供需對接不暢是影響產學合作的重要因素之一。目前企業缺乏信息交流平臺,難以與高校對接,找到合適的投資項目或可以快速投入生產的科技成果;對于大部分高校而言,專利信息服務尚處于起步階段,難以找到合適的方法協助研發團隊尋找合作伙伴,降低研發成本,避免科研資源浪費。而本文提出的基于專利文本的產學合作推薦模型,通過量化分析的手段,幫助企業尋找潛在的合作伙伴,也為高校的專利信息服務帶來了新的參考方法,提高了科技成果轉化的效率。
具體而言,本研究模型構建包含3個步驟:第一步,首先統計高校專利數據庫和企業專利池中所擁有的專利,對這些專利進行結構化處理,如文本聚類分析,在Python中利用自編程序正則表達式提取待培育專利中的標題、摘要、分類號、申請年份等關鍵信息等;其次對所提取的信息進行篩選,選取技術相關的關鍵詞,并生成相應的結構化數據;第二步,將結構化數據利用專利地圖繪制的相關軟件制成專利地圖。然后根據專利地圖,識別企業專利池中的技術空白點,將企業專利空白點與高校現有技術相聯系,尋找校企之間存在的潛在合作區域,提取出專利地圖中潛在合作區域的相關數據;第三步,根據專利地圖中校企合作的潛在區域,反向確定具有合作可能的高校數據庫中的專利信息。將校企雙方的專利文本利用余弦相似度法進行運算,將運算結果由高到低進行排列,所得排名第一的專利即為存在最大合作潛能的高校專利。推薦模型構建如圖1所示。

圖1 基于專利文本的產學合作推薦模型
目前,專利地圖在國際上還沒有標準、統一的定義。國外學者認為,專利地圖由各種與專利相關的資料信息,以統計分析方法加以整理制成的各種圖表信息,使其具有類似地圖的指向功能[24],其中日本的研究程度最深,應用范圍也最廣,日本于20世紀60年代就開始了專利地圖的研究。而國內學者普遍認為專利地圖是一種分析專利情報的方法,通過統計和加工的處理手段,使得原本復雜的專利情報,用各種可視化的圖表顯示出來,便于理解[25]。專利地圖在專利信息分析中起到了承上啟下的作用,承上是指專利地圖是將檢索到的專利信息歸納匯總,并以可視化的形式表現出來,以供后續定性分析和定量分析所用;而啟下是指通過對專利地圖的分析和研究,獲得相關信息,如技術水平、發展動態等,依照該信息可以為企業制定相應的戰略規劃和專利布局。在本文中,專利地圖的主要功能在于以下幾點:首先是通過可視化識別出企業可以對現有技術進行改進的領域;其次是通過研究發現企業技術相對密集的領域所存在的空白技術點,最后是根據專利地圖的空白點反向識別出周邊可能存在的合作伙伴。
專利文本相似度計算是本研究的核心任務。當前,有關文本相似度計算的主流方法主要有基于統計、基于句法結構、基于編輯距離、基于語義信息4種。其中,余弦相似度法是基于語義信息的文本相似度計算方法之一,該方法由于擺脫了知識庫的構建過程,直接通過文本內所包含的語料進行對比,因此具有較高的準確率和較低的計算成本,能夠有效應用于大規模文本分析任務中。因此,本文選擇余弦相似度計算專利文本的相似程度。
余弦相似度的原理是將準備進行比對的兩份文本轉化為空間內的兩個特征向量,通過測量兩個特征向量之間的夾角,計算出其余弦值,來判斷兩個特征向量的相似度。本研究將產學合作雙方的相關專利轉化為空間向量a和at,Ai和At分別表示雙方專利在同一IPC分類號下的權重,可根據TF-IDF方法計算得到。根據上文所述,余弦相似度基本公式在本文中的衍生的公式為:
在文本分析的情況下,由于某個詞的詞頻不可能為負數,所以在本文中,兩個特征向量的余弦值取值范圍為(0,1)。如果兩個向量之間的夾角θ為0,則意味著兩個向量完全重合,此時夾角的余弦值為1,即為兩份文本的特征向量完全吻合,所以在本文中,余弦相似度的值越接近于1,則證明兩份文本之間的相似度越高,產學合作雙方存在合作的潛力就越大。
通過網絡調研,本文選取L公司作為分析案例,有以下幾點原因:①L公司始建于1971年,是我國環境保護除塵行業的首家上市公司,是中國環保產業的領軍企業,也是位居國際前列的大氣環保裝備制造企業,40余年來專業致力于大氣污染控制領域環保產品的研發、設計、制造、安裝、調試、運營,其規模大,涉及產業廣,在一眾企業中具有代表性;②根據網絡調研可知,L公司與高校存在過合作的歷史,可以用于驗證合作預測模型的準確性,提高可信度;③L公司擁有公司專屬的研發團隊,是全國環保產業骨干龍頭企業和我國最大的專業從事煙氣除塵、脫硫脫硝裝置等大氣污染治理設備機電一體化的研發制造基地,具有與高校合作的研發潛力。
根據企查查提供的數據可知,L公司2018年、2019年、2020年以及2021年在研發上投入的研發資金分別為4.363億、4.621億、4.822億和3.219億,并主要運用于環境保護專用設備制造、大氣污染治理的技術研發。但是據分析,自2018年后,雖然L公司在研發上的投入有所增加,但L公司的專利授權通過率明顯下降。在技術研發方面,L公司現面臨研發動力不足、投入成本高等問題。因此,對于高校的科研成果存在迫切需求,有強烈的合作動機。
本文中的專利數據來源于國家知識產權局專利檢索及分析數據庫,經篩選后,共獲得1 199篇專利,將專利相關信息導出。然后,利用Python的自編程序正則表達式提取每一篇專利文獻中的標題、摘要、分類號、公開年份、關鍵詞字段,生成結構化數據。
在進行專利樣本選擇時,考慮到較早申請的專利技術L公司已經較為成熟地運用于投入生產與占領市場,因此合作潛力較小,所以篩選了近3年內L公司所申請的專利技術作為實驗樣本,共計174篇。部分處理后的信息如表1所示。

表1 部分已處理專利信息
根據處理好的數據繪制專利地圖,如圖3所示。由專利地圖可以看出,L公司目前研究的核心方向共有3個,分別是脫硝、煙氣處理系統等,吸收塔、廢水脫硫等,以及熱管、煙氣轉換器等。其他較為完善的研究方向多為核心研究方向的上下游產業鏈相關方向,如清灰裝置、濾袋除塵、電源控制、檢測裝置、造粒塔、廢氣處理、脫附、液冷板等,這些專利共同構成了L公司完整的產業鏈。其核心技術部分存在合作的可能性較小,相關研究取得突破性進展的難度較大,因此,核心技術上下游產業鏈中研究較為薄弱的部分,即為合作潛力較大的技術空白點。

圖2 L公司2013—2021年專利申請趨勢

圖3 L公司2019—2021年專利地圖
對上述專利進行聚類分析,共得到8個聚類,如圖4所示。根據該圖可以看出,技術空白點主要集中于清灰裝置、濾袋除塵等區域,檢測裝置、輸送機、法蘭管等區域,造粒塔、廢氣處理等區域以及電源柜、電爐、脫附等區域。

圖4 專利聚類分析
提取識別出的空白點周圍的專利關鍵詞并按照關鍵詞詞頻進行加權處理,得到如圖5所示的專利關鍵詞詞云。從圖中可以看出,L公司的空白點周邊技術主要集中于除塵器及其相關技術。以圖5中的主要關鍵詞作為檢索詞,在高校專利庫內進行檢索,經過清洗掉失效專利數據后,共得到4 766條相關記錄,共有38所高校與L企業產生技術關聯。將上述4 766條記錄同樣進行結構化處理和聚類分析,并與L公司的相關技術主題進行匹配對應。

圖5 專利關鍵詞云圖
以煙氣凈化與除塵裝置兩個主題為例,將高校專利庫與企業技術空白點按照IPC分類號進行分類,如表2所示,反映了高校專利數據庫中專利文獻與這兩個專利主題的匹配情況。按照上文所示余弦相似度公式,計算各個專利文本之間的相似度,可以為企業挖掘潛在合作伙伴,如圖6所示,L企業在煙氣凈化領域的潛在合作伙伴有山東大學、浙江大學、清華大學等,合作可能分別是22.52%、23.81%、23.60%。

表2 高校匹配專利主題情況

圖6 企業合作對象推薦圖
圖6展示了L企業在煙氣凈化領域的潛在合作伙伴。如上海交通大學,在本次調研的高校中合作潛力位列第二,并且根據文獻調研的結果得知,L企業曾成功與上海交通大學達成合作,目前共有兩項專利已獲得授權,也正是煙氣凈化領域的相關專
利。除此之外,例如山東大學,共有3項專利聚類到煙氣凈化主題,專利組的IPC號為B01D53,其主要研究方向為氣體處理的工藝、裝置或方法;而L企業在此分類號下的專利共有10項,主要集中于煙氣凈化系統的研究。煙氣處理工藝、裝置或方法正是煙氣處理系統中重要的一環,因此,L公司在此領域與山東大學具有較高的合作潛力。此外,安徽工業大學、華北電力大學等其他高校科研院所也具有較強的技術實力和合作可能,在一些特定的技術分支方向具有較高價值的專利,可作為某些技術方向技術合作的參考合作對象。
本文提出了一種基于專利文本分析的產學合作推薦模型,該模型基于專利地圖識別企業技術空白點,并通過計算余弦相似度從高校專利庫中匹配潛在的技術合作對象。通過L公司的實證分析,發現L公司在煙氣凈化、除塵裝置等方面存在技術缺口,對此分別識別出上海交通大學、華北電力大學、安徽工業大學、山東大學等潛在合作對象。本文主要研究結論如下:
1)本研究基于專利文本的量化分析,可以為大規模的產學合作預測任務提供可行的方法,能夠避免專家咨詢等傳統質性方法在客觀性方面的不足。并且當前研究大多數聚焦于定性研究,本文從定量分析的角度出發,有助于完善產學合作相關的研究體系。
2)本文采取信息可視化與文本分析相結合的方法,在一定程度上更為有效地幫助企業尋找出潛在的合作伙伴。先利用專利信息可視化技術圈定潛在合作伙伴范圍,再使用文本分析的方法對圈定范圍內的潛在合作伙伴進行相似度排序,甄別出合作可能最大的潛在合作伙伴,比起單純的文本分析方法更加快捷高效,節省人力和相關資源,符合當前產學合作環境中專利數量多而服務人員少的需求。
3)本文實證研究是以企業為視角尋找潛在合作伙伴,但是本模型也可以以高校為視角查找相關企業進行合作伙伴預測,但需要提前調查企業的相關資料,例如核心技術、產業鏈相關技術等,具有一定的難度,可以作為本研究未來的研究方向進行深入探索。
需要指出的是,本研究主要聚焦于特定企業,從國家宏觀科技戰略的角度看,未來對于大規模校企合作自動匹配的方法上仍有繼續探索的空間。除此之外,本研究僅涉及高校層面,如果利用研究中相應的專利信息,再深入探索高校專利申請人和企業專利申請人之間點對點的精確合作,則更有可能提升產學合作的效率。