冉從敬,宋 凱,趙倩蓉,王 義
在經濟全球化時代,技術創新對推動經濟發展具有重要意義,尤其在高新技術產業中,企業之間競爭激烈,對企業技術創造力提出更高挑戰。隨著新技術復雜度提高,單一企業完成技術創新的難度愈發增加。因此,自20世紀80年代以來,高校和企業之間的產學研合作行為大量涌現,已逐漸成為世界各國技術創新的主流模式。校企之間充分發揮彼此優勢,鼎力合作,實現技術突破。1992年,由國家經貿委、國家教委和中國科學院聯合組織實施“產學研聯合開發工程”,這一工程對促進我國產學研合作、推動我國科技與經濟的發展發揮了重要作用。2015年3月,《中共中央 國務院關于深化體制機制改革加快實施創新驅動發展戰略的若干意見》發布,要求緊扣經濟社會發展重大需求,著力打通科技成果向現實生產力轉化的通道,把創新成果變成實實在在的產業活動[1]。2018年4月,《國務院關于落實<政府工作報告>重點工作部門分工的意見》發布,要求提供全方位創新創業服務,鼓勵企業、高校和科研院所等開放創新資源,形成線上線下結合、產學研用協同、大中小企業融合的創新創業格局[2]。2019年1月,印發《國務院辦公廳關于抓好賦予科研機構和人員更大自主權有關文件貫徹落實工作的通知》,要求各單位與企業通過股權合作、共同研發、互派人員、成果應用等多種方式建立緊密的合作關系,支持科研人員深入企業進行成果轉化[3]。一系列政策的頒布表明,企業通過與高校展開合作,對推進資源的區域整合與共享,促進高校科技成果轉移轉化,推動企業科技創新和經濟社會發展深度融合具有重要意義。高校在技術研發、人才資源、實驗條件方面具有相對優勢,而企業在技術轉化、就業崗位、資金支持上具有獨特優勢,兩者合作能實現優勢互補,為推進科技創新發展提供了實踐路徑。
學者從多個角度對校企合作展開探討。在研究校企合作影響因素方面,Rybnicek等系統論述影響校企合作的重要因素,如制度因素、關系因素、產出因素、框架因素[4]。Sjoo等采用系統性的文獻綜述和內容分析法總結了校企合作創新的影響因素,包含文化、合作經驗、資源等[5]。劉桂鋒等運用社會網絡分析法繪制“211工程”高校與企業之間的產學研專利合作網絡,并重點探討了技術領域和地理距離對校企合作的影響[6]。劉繼紅等從高校科研人員角度,對校企知識轉移途徑及其影響因素進行了系統研究[7]。在研究校企合作的促進作用方面,Han等運用負二項回歸法分析韓國135所高校技術轉移的影響因素,提出高校應積極開展與民營企業的合作,以提升技術轉移效率[8]。Nave等從企業家視角出發,借助于半結構化訪談法探討校企合作對企業可持續發展的影響[9]。孫玉濤等以社會網絡理論與資源基礎觀為基礎,認為在高校與其他機構的研發合作過程中校企研發合作及其規模有利于高校技術轉移[10]。王曉紅等利用2007-2014年88所高校面板數據,采用Sys-GMM模型,實證研究校企合作對我國高??蒲锌冃У挠绊慬11]。在研究校企合作演進態勢方面,Lyu等基于社會網絡分析法和空間分析法,探索我國中關村企業、高校和科研機構的合作創新發展趨勢[12]。張珩等基于國家知識產權局公開的1985-2015年江蘇省校企合作發明專利申請數據,運用社會網絡分析法,分析專利合作網絡結構及空間分布演化路徑[13]。陸亦愷等以中國C9聯盟高校為研究對象,運用社會網絡分析法,探討了我國高校專利合作的主要特征與模式[14]。許敏等基于71所高校與企業合作申請的發明專利數據,運用社會網絡分析法,分析了專利合作網絡空間分布特點與網絡結構特征[15]。
綜上可見,目前已有研究集中在校企合作影響因素探索、校企合作促進作用分析以及校企合作發展態勢揭示等方面,較少從合作對象選擇的角度出發,探討為企業提供最佳合作院校的選擇策略。校企合作是為了把市場需求和整體利益聯合起來,采取多種方法所進行的科研開發、咨詢服務等經濟合作活動,是技術創新上游、中游、下游的融合。在企業的重點研究領域,與具備較強研發能力的科研團隊展開合作,能夠進一步深化技術研究,拓展創新邊界;在企業技術薄弱領域,通過校企合作可快速提升企業技術能力,進而推動高??萍汲晒D化。因此,制定精準的合作對象選擇策略,對企業的技術創新以及高??萍汲晒D化具有重要的推動作用?;谝陨闲枨?,本文從企業視角出發,構建校企合作對象選擇模型。由于一個技術領域中會存在多個子領域,如電動汽車技術存在電池系統、發動機、運行控制、傳感器等多個子技術領域,所以,有必要從更加細粒度的層面探索校企合作對象的匹配路徑。因此,當企業鎖定一個技術領域,首先對高校專利文本進行檢索,利用LDA模型進行主題建模,并結合K-means 算法實現專利文本聚類;企業依據自身研究重點及薄弱領域選擇對應的子領域主題,以相似專利密度為指標對子領域主題下的高校進行排名,并以相似專利為媒介構建科研團隊核心合作網絡,從而確定企業在重點研究領域和薄弱領域下的最佳合作高校;在高校排名的基礎上,借助相似專利密度指標,對高校中的科研工作者進行排名,發掘科研大咖,最終為企業鎖定合作高校、建立校企產學研合作關系。在理論研究的基礎之上,以校企合作對象選擇模型為底層邏輯,構建相關的服務系統——IUC,實現將理論研究應用于產業實踐,在人工智能環境下,解決校企合作中存在的3W問題,提高校企合作效率,進而推動企業技術創新、實現高??萍汲晒D化。
考慮到一個技術領域會涵蓋多個子技術主題,在校企合作對象選擇過程中,有必要對相應技術領域中的專利文本進行主題建模,明確其涉及的子領域主題。因此,本文采用LDA模型對專利文本進行主題提取。LDA模型假設詞是由一個主題混合產生,同時每個主題是在固定詞表上的一個多項式分布,這些主題被集合中的所有文檔所共享,每個文檔有一個特定的主題比例,從Dirichlet 分布中抽樣產生。作為一種產生式模型,其結構完整清晰,采用高效的概率推斷算法處理大規模數據,是目前研究和實踐中使用非常廣泛的一種主題識別模型[16]。
在主題發現與主題演化研究中,利用LDA模型能夠展示主題抽取的結果,涵蓋文檔-主題概率矩陣、主題-詞概率矩陣、主題相關詞列表等。而應用LDA最大的問題是需要人工確定主題數目,主題數目的確定直接影響主題發現的效果。因此,本文利用主題之間的平均余弦相似度來度量主題結構的穩定性:調整主題數目、alpha值和beta值,令主題間平均相似度最小,對應模型最優。計算過程如下:

在(1)式中,Sim(PA,PB)表示專利文本A 和專利文本B之間的余弦相似度,利用LDA模型能夠提取文檔-主題概率矩陣。某個主題在一篇文章中的概率分布,可視為該主題對當前文獻的支持度,支持度越大,表示該文獻內容越趨向于該主題,因此一篇文章可表示成多個主題的概率分布P=(T1,T2,…,Tn)。Si表示每個主題T對文獻P的 支 持 度,則P=(T1,S1;T2,S2;…;Tn,Sn),簡記為P=(S1;S2;…;Sn)。比如,兩篇專利文本的主題概率分布為: (0.02857,0.02857, 0.171428, 0.02857, 0.02857,0.02857, 0.02857, 0.02857, 0.457142,0.171428) 和 (0.0125, 0.0125, 0.0125,0.0125,0.0125,0.0125,0.0125,0.0125,0.8875,0.0125),則依據(1)式計算主題相似度結果為0.888。avg_Sim(structure)表示所有專利文獻的平均相似度,K表示文獻數量,平均余弦值在0和1之間,值越小,表明主題結構最優。
在明確技術領域涵蓋的主題后,需要將專利文本劃歸到子技術主題中,整個劃分過程為無監督方式。因此,本文采用聚類算法實現對專利文本的劃分。考慮到每一項專利進行技術探討時,技術主題具有專一性、深入化的特征,所以在進行聚類時將一件專利僅劃入一個主題類團中。聚類分析是知識發現中的重要研究內容,旨在將數據集合劃分為若干個類,使得類內差異小,類間差異大。本文采用的K-means 算法,是數據挖掘十大經典算法之一,由J.MacQueen于1967年提出,具有簡單、容易實施、時間復雜度接近線性的優點,且對大規模數據挖掘具有高效性和可伸縮性,被廣泛應用于文本聚類的研究中[17]。文檔-主題概率矩陣,利用K-means算法進行文本聚類,設置聚類數和初始聚類中心,設置迭代次數,實現專利文獻的聚類劃分。
在文本聚類方面,由于文本向量維度高,具有稀疏性,不同簇之間的差異性較大,因此可能導致聚成一簇的文本之間的非相似性。同時,應用K-means算法存在隨機選取初始聚類中心導致聚類結果不穩定的現象,往往容易陷入局部最優解的問題,導致較差的聚類結果。所以,如何獲得合適的初始聚類中心,并在保證算法結果穩定性的同時保持其準確性,對提升算法的聚類性能尤為重要。因此,本文將LDA 模型和Kmeans算法融合實現專利文本聚類,利用LDA提取的文檔-主題概率矩陣,將每篇專利文獻表示成各主題下的概率分布,降低文檔向量的維度;然后在K個主題所在的維度上確定初始聚類中心,理論上保證了選擇的初始聚類中心是基于概率確定的,并進一步用這K個初始聚類中心對專利數據集進行聚類。主要計算過程如下:
(1)通過設置不同的主題數目、alpha 值、beta值,經過多輪主題相似度計算迭代,確定最優主題數目K;(2)利用LDA模型對P 篇專利文獻進行主題建模,生成P*K 維的文檔-主題概率矩陣;(3)對每一個技術主題,首先計算該主題對P篇專利文獻的平均支持度Si(0
通過文本聚類,能夠實現子技術主題下的高校專利文獻聚類;劃分在同一主題類團下的專利文獻可視為相似文獻,根據相似專利密度指標可進行高校排名。而在一件專利中,通常包含多個發明人,作為專利核心技術的掌握者,這也正是校企合作中企業真正合作的對象。因此,本文通過共現分析,探尋高校中的核心研究團隊和科研大咖?!肮铂F”是指文獻中特征項描述的信息共同出現的現象,而共現分析是將各種信息載體中的共現信息定量化,以揭示信息的內容關聯和特征項所隱含的寓意。專利文獻中專利發明人之間的共現頻次體現了其關聯程度,依據發明人共現分析構建合作網絡,能夠為企業探尋高校核心研究團隊和科研大咖提供指引,從更加微觀的層面為企業明確合作對象。

圖1 校企合作對象選擇模型
在主題模型、文本聚類、共現分析等技術的支持下,本文從企業視角出發,構建了校企合作對象選擇模型(見圖1),幫助企業在明確研究重點和薄弱領域的前提下,從更加細粒度的子技術主題層面,以相似專利密度為指標,探尋最佳合作高校。并在此基礎上,進一步發掘高校核心研究團隊、科研大咖和科技成果,實現提升校企合作效率,促進企業技術創新,推動高校科研成果轉化的目標。
從圖1 可以發現,整個模型共分為4 大部分,涵蓋“數據采集及存儲→數據檢索及處理→主題建模及文本聚類→結果分析及可視化展示”的全過程。具體內容如下:
(1)數據采集及存儲。精準的校企合作匹配需要專利大數據的支持,為了能夠獲取足夠的專利數據支撐,利用爬蟲技術對SIPO專利數據庫或CNKI專利數據庫進行數據抓取,抓取的數據僅用于學術研究使用。在抓取過程中,數據緩存在Redis 數據庫中,然后循環從Redis 讀取數據,寫入到Mysql中以支持服務系統建設。
(2)數據檢索及處理。從企業視角出發,當企業檢索某一技術領域,則服務系統會從Mysql數據庫中進行檢索,對題目和摘要字段進行全詞匹配,構成匹配數據集。進而對匹配數據集進行自然語言處理,實現分詞、去停用詞以及TF*IDF詞權重計算。分詞所參照的詞典是基于專業文獻關鍵詞所構建的全學科領域詞典,以保證對不同技術領域數據集分詞的有效性。而根據TF*IDF詞權重計算的結果,采用五分位算法,去除概率在16%區間內的無效詞,以獲取更優的主題建模效果。
(3)主題建模及文本聚類。以檢索到的匹配數據集作為實驗語料,首先利用LDA模型進行主題建模。在主題建模過程中,根據以往研究中語料庫規模與設置的主題數目經驗,將主題數目設置在5-50個之間,alpha值及beta值固定為0.5和0.2。通過反復迭代計算,利用余弦相似度計算結果確定當前實驗語料的最優主題數目,生成文檔-主題概率矩陣(D-T矩陣),以及每個主題下最相關的20個詞用于解釋主題。根據初始聚類中心的計算過程,利用D-T矩陣確定初始聚類中心,進而利用K-means算法實現專利文本聚類。
(4)結果分析及可視化展示?;谥黝}展示,企業從細粒度層面確定自身研究重點和薄弱領域,并選擇子技術主題發掘最佳合作高校及高校背后的核心研究團隊。在分析過程中,以相似專利密度作為排名指標,對子技術主題下的高校相關專利進行統計。企業在選定某所高校后,將進一步對該高校的專利進行更微觀的分析:首先針對發明人進行共現分析,構建合作網絡展示核心研究團隊;進而以相似專利密度為指標,對發明人進行排名,凸顯科研大咖,并對科研大咖的個人資料、合作網絡、科技成果進行展示。需要說明的是,因為高??蒲腥藛T數據庫構建復雜度較高,本文沒有將其作為研究重點實現突破。
基于校企合作對象選擇模型,能夠為企業提供“技術主題→合作高?!蒲袌F隊→科研大咖→科技成果”五維立體的全景化分析。在明確技術領域后,依據當前高校在該技術領域各個方向上的成果形成多個子技術主題,企業根據自身研究重點和薄弱環節進行選擇,最終匹配最佳合作高校,并進一步發掘高校中的核心研究團隊及科技成果。為了驗證模型的有效性,以及模型的應用效率,本文以對象選擇模型為邏輯支撐,構建原型系統,以此提升校企合作效率。
為了驗證所提模型的有效性和合理性,本文將理論研究與產業實踐相融合,基于校企合作對象選擇模型的邏輯流程,構建校企合作對象選擇服務系統——IUC,實現了專利數據庫信息抓取,專利數據多維分析以及在人工輔助基礎上的分析報告撰寫,為推動校企合作提供系統支持。
IUC系統通過智能爬蟲跟蹤采集專利數據庫最新數據,實現數據自動獲取。字段自動識別、海量數據存儲、領域主題抽取、文本自動聚類、指標統計分析等,在技術領域細粒度層面,對高校排名、核心團隊、科研大咖、科技成果進行可視化呈現,并生成校企合作對象選擇分析報告,實現技術領域細粒化、合作高校排名化、研究團隊凸顯化的全流程式服務,解決校企合作過程中存在的“合作什么?去哪合作?與誰合作?”的3W問題,切實提升校企合作效率。IUC系統架構見圖2。

圖2 校企合作對象選擇服務系統—IUC系統架構
(1)核心支撐技術。系統涉及的核心技術貫穿從“數據采集→數據處理→數據存儲→數據分析→數據應用”的全過程,涵蓋爬蟲技術、數據庫技術、自然語言處理、主題模型、文本聚類、知識圖譜等,從細粒度層面為精準的校企合作提供技術支撐,保證系統分析結果的合理性,為企業提供全景化的分析結果。
(2)數據采集系統。目前IUC系統專利數據主要來源于CNKI 專利數據庫,采用Scrapy+Redis+MySql 分布式爬取專利數據。通過Python3.6 和Scrapy,配合自動化測試工具Selenium,構建了專利數據爬蟲。
(3)分類存儲系統。通過分布式爬蟲爬取的數據以json格式存儲在內存數據庫Redis中,通過參數設置確保專利數據緩存到內存中時實現去重;通過Mysql創建數據庫和對應的數據表,設置發明人、摘要、申請人、申請號、發表時間等字段;利用Python 中的pymysql 包將Redis 緩存數據導出至Mysql;并采用Twisted框架的連接池實現數據插入Mysql的異步化,最終實現專利數據存儲,為IUC系統提供數據支持。
(4)專利分析系統。在文本處理模塊,應用開源技術jieba-analysis(java版),自定義詞典數據來源于多學科專業文獻中的關鍵詞部分組成,通過jieba-analysis實現中文分詞、去停用詞以及TF*IDF計算的整個自然語言處理過程;在對專利數據集進行主題建模階段,應用開源技術LDA4j實現LDA主題建模;在主題建模過程中通過迭代計算平均主題相似度,確定最優主題數目,并利用KUMO開源技術實現主題詞云展示;在確定最優主題數目后,利用文檔-主題概率矩陣確定初始聚類中心,并基于開源的K-means 算法實現專利文本聚類;以相似專利密度為指標對主題類團內的高校進行排名,基于開源技術Echarts 實現高校排名、合作網絡等結果的可視化呈現。
(5)企業服務系統。IUC服務系統展示前端采用開源技術BootSrap框架,整個業務處理層的實現基于SpringBoot框架;采用Spring MVC與RESTful技術實現對外開放接口,利用AJAX異步請求技術以及JSON技術來實現前后端的數據交換;數據訪問層則采用MyBatis作為ORM框架,在內置分析算法的支撐下,實現技術領域細?;?、合作高校排名化以及研究團隊凸顯化。企業依據平臺分析結果,可通過人工輔助的方式,生成全景化、深入化的校企合作分析報告。

圖3 IUC首頁技術領域搜索
本文以“眾安信息技術服務有限公司”作為模擬企業對象,“眾安科技”作為國內首家互聯網保險公司——眾安保險的全資科技子公司,一直聚焦于人工智能、區塊鏈等領域的基礎技術研發。而“區塊鏈”被認為是繼蒸汽機、電力、互聯網之后的下一代顛覆性技術,目前是各界所關注的焦點。因此,選擇“區塊鏈”作為檢索技術領域,當“眾安科技”注冊登錄平臺后進入IUC服務系統首頁(參見圖3),在搜索框輸入“區塊鏈”進行分析。

圖4 “區塊鏈”主題抽取詞云展示(部分)
目前IUC的測試專利數據來源于CNKI專利數據庫,在數據抓取過程中,申請人限定為“大學”;學科限定為農業科技、醫藥衛生科技、信息科技、經濟與管理科學四大門類;時間為2017年1月1日至2019年9月1日,通過智能爬蟲共抓取到186,708條數據?!氨姲部萍肌陛斎爰夹g領域后,IUC以此作為關鍵詞進行檢索,為保證檢索的精準度,對專利名稱和摘要進行全詞匹配,共檢索到654 條數據,生成數據集;進而進行主題建模,通過平均余弦相似度迭代計算,當主題數為10個時,平均余弦相似度最小,主題結構最優。生成主題詞云,見圖4。
“眾安科技”可根據自身在區塊鏈領域的專利申請情況,確定重點研究領域及薄弱領域,依據主題建模結果展開進一步分析。一方面可以選擇在其重點研究領域具備同等競爭力的高校,深化重點領域的研究深度;另一方面,針對自身研究薄弱的技術領域,選擇對應合作高校加以提升,在高??蒲袌F隊的支持下,實現薄弱領域的突破,既節約了企業的研究成本、提升了企業的科技競爭力,也能夠推動高??萍汲晒霓D移轉化,實現科技成果到產業應用的跨越。“眾安科技”選擇“主題2→數據存儲”進行分析,依據文本聚類結果和相似專利密度指標,對子技術主題下的高校進行排名,結果見圖5。
分析圖5 發現,在“主題2→數據存儲”中,“廣東工業大學”“暨南大學”“浙江大學”的相似專利密度為6件、5件、5件,可作為“眾安科技”在區塊鏈數據存儲技術領域合作中重點關注的高校。在此基礎上,從更微觀的層面分析高校中的核心研究團隊,為企業提供更為細粒度的合作對象指引。例如,當“眾安科技”選擇查看“廣東工業大學”時,分析結果見圖6。

圖5 主題2-高校相似專利密度排名

圖6 廣東工業大學核心科研團隊
分析圖6可發現,依據發明人共現分析構建的合作網絡,在“主題2→數據存儲”中,“廣東工業大學”形成以“張浩川—余榮”和“何少偉—張俊”等為核心的兩支研究團隊。以“張浩川—余榮”為核心的研究團隊規模最大,科技成果最多,是“眾安科技”需要重點關注的科研團隊。依據相似專利密度指標,對發明人進行排名,其中張浩川是“廣東工業大學”在“主題2→數據存儲”中的科研大咖,在合作網絡中也占據核心位置?!氨姲部萍肌笨蛇x擇查看科研大咖的詳情,參見圖7。

圖7 廣東工業大學科研大咖簡介
科研大咖頁面(圖7)呈現張浩川的基本資料,包括教育背景、所處位置、研究重點及聯系方式。對其參與申請的專利進行詞云展示,揭示其歷年專利申請情況?!氨姲部萍肌笨筛鶕斍檫x擇關注此科研大咖,將其添加到人才庫中,以備進一步合作。選擇研究團隊可查看該科研人員與哪些人員產生過合作,見圖8。

圖8 廣東工業大學科研大咖合作網絡
從圖8中可得,張浩川與余榮、倪偉權等10位科研人員有過合作,參考發明人合作網絡,此11位成員構成了子技術領域下的核心研究團隊,而張浩川在整個團隊中處于核心位置。因此,當“眾安科技”計劃在“主題2→數據存儲”中展開校企合作,可通過張浩川發掘到以其為核心的廣東工業大學研究團隊。校企合作一方面可以促進企業技術創新,另一方面也能推動高??萍汲晒D化,所以“眾安科技”通過查看科研大咖的相關科技成果,在推動企業技術發展的同時,也對其中的高價值專利進行轉化,有利于扭轉當前高校科技成果轉化難的困境,推動高校科研團隊的技術成果轉化為產業價值。
通過以上分析可知,“眾安科技”獲取了高校在區塊鏈領域下重點研究的10個子技術主題,從細粒度層面,根據自身研究重點和薄弱領域,探尋子技術主題下的最佳合作高校,進而以相似專利為媒介,發掘了高校核心研究團隊以及科研大咖。IUC服務系統為“眾安科技”提供了“技術主題→合作高?!蒲袌F隊→科研大咖→科技成果”五維立體的全景化分析結果,解決了企業在校企合作中存在的3W問題:What(合作什么)、Where(去哪合作)、Who(與誰合作)”,提升了校企合作效率,為促進企業科技創新,推動高校科技成果轉化提供了實踐路徑。
本文從企業視角出發,以校企合作對象選擇作為研究重點,在主題模型、文本聚類、共現分析等核心技術支撐下,構建了校企合作對象選擇模型;并在此基礎上,以對象選擇模型為邏輯支撐開發IUC服務系統,以“技術主題-合作高校-科研團隊-科研大咖-科技成果”五維立體方式展示全景化的分析結果,解決了企業在開展校企合作過程中存在的3W 問題,為提升校企合作效率提供系統支持。主要研究內容如下:
(1)在核心技術研究層面,以Scrapy+Redis+MySql為技術手段實現智能爬蟲,為IUC服務系統提供數據支撐;利用主題間平均余弦相似度解決LDA最優主題數目確定問題;將LDA模型與K-means算法融合,解決文本聚類過程中存在的初始聚類中心隨機選取問題,提升了專利文本聚類效率。
(2)在對象選擇模型構建層面,構建了以“數據采集及存儲→數據檢索及處理→文本建模及文本聚類→結果分析及可視化展示”為主要內容的邏輯模型,為IUC服務系統的開發提供了邏輯流程支撐。
(3)在IUC系統開發層面,以“眾安科技”為企業對象,以區塊鏈為技術領域,展示了全景化的分析結果,為“眾安科技”在區塊鏈領域開展校企合作提供了決策支持。
需要說明的是,高??蒲腥藛T數據庫構建難度較大,需要通過高校+科研人員的方式逐一抓取數據,才能實現科研大咖基本信息展示;此外,在中文自然語言處理過程中詞典的構建以及K-means算法初始聚類中心的確定方法都有待進一步改進,以提高分析結果的準確性,這將是今后研究的重點。本研究團隊將把IUC服務系統代碼開源,提供完整的說明文檔供其他研究團隊參考利用,通過不斷完善當前平臺功能,為提升我國校企合作效率、促進我國科技創新貢獻更多力量。