楊 俊
(中國藝術科技研究所,北京 100007)
科技成果能否轉化為現實生產力已經成為衡量一個國家和地區科技發展水平的重要標志,促進科技成果轉移轉化是實施創新驅動發展戰略的重要任務,是加強科技與經濟緊密結合的關鍵環節,對于推進結構性改革尤其是供給側結構性改革、支撐經濟轉型升級和產業結構調整,打造經濟發展新引擎具有重要意義。
依據《中共中央關于制定國民經濟和社會發展第十四個五年規劃和二〇三五年遠景目標的建議》,以近年來黨中央國務院就高質量發展、供給側結構性改革、培育新業態新動能、擴內需促消費、完善要素市場、發展文化產業做出的系列部署為指導,遵循大幅提高科技成果轉移轉化成效要求,構建文化科技成果轉化的系統(即專業性網站或軟件系統),其以科研項目、學術論文、專利、科技動態、科研人員、機構等為主要數據源,進行文化科技學科分析、影響力評價、關聯挖掘等大數據加工,并利用專業應用門戶網站展示成果轉化的核心結構、發展歷史、前沿領域以及數據源的關系。通過文化科技成果轉化系統可以探索科技成果轉化路徑,激發數據資源潛力,推動文化科技產業鏈創新和應用。
目前,文化科技的創新研究主要集中在科研院所和大專院校,以及有研發能力的企事業單位,文化科技創新成果與企業相結合的路徑和模式上存在問題,從基礎研究到技術開發、從實驗室模型到企業轉化存在斷點,科技項目、科研人員、科技成果等方面有海量科研數據資源極度分散,共享程度較低,研究項目與應用需求沒有對接。如何將這些科技成果供給與文化產業需求精準對接,以達到科技創新促進經濟高質量發展,是亟待解決的問題。
為構建文化科技成果轉化系統,需要建立一套技術方案,如圖1所示。首先,通過開放API(Application Programming Interface,應用程序接口),進行公開數據、爬取數據與合作數據的采集,如通過CNKI、DBLP、CSCD、OAD等數據庫獲取論文數據,通過國內外專利網站獲取專利數據,通過合作機構獲取人才數據、科研成果數據;再進行預處理,依據統一規范的元數據描述,將采集到的數據存入數據庫或者分布式文件系統中。然后,使用基于規則和智能算法的實體識別和實體融合,抽取數據庫中的實體和關系,從而構建圖數據庫模型。同時,通過知識推理相關技術,實現學科耦合關系推理、師承關系推理、學科熱詞推理等功能,豐富和擴展數據庫;并基于此更新任務流水線,實現系統模式層和數據層的動態增量更新。
文化科技成果轉化系統的架構分為四層,分別是數據層、分析層、服務層及應用層,如圖2所示。

圖2 系統架構
2.2.1 數據層
在數據層,首先抽取、重新組織開放數據、爬取數據與合作數據,包含開源專利、公開科技文獻、科研人員、機構、項目等多種數據類型。然后,通過唯一標識、網絡關聯及結構化等方法完成對數據的預處理,構建文化科技知識網絡圖數據庫、多維數據庫等模型,進行有效的數據庫運行和維護,支持數據分布式處理,支持導出與發布,實現一體化數據存儲,形成統一的數據資源中心。
文化科技數據資源中心,通過ETL(抽取-轉換-裝載)實現對大規模多維數據及網絡數據的高效存儲,結合成熟的開源大數據平臺及大數據平臺管理工具,構成起文化科技大數據關系網絡體系,為數據存儲、管理提供基礎的大數據環境。
2.2.2 分析層
分析層是在數據層完成對數據組織與管理的基礎上,實現多維統計分析以及知識網絡檢索、分析。其中,多維統計分析服務子系統的構建包括統計維度、Top-N統計、CUBE、SQL界面,基于Kylin的多維分析功能,根據管理的需求進行自定義的開發,以實現多維分析的功能。知識網絡檢索與分析服務子系統的構建包括關聯檢索、關鍵節點發現、聚類分析、PageRank分析等,基于Titan的網絡分析功能,根據知識庫管理的需求進行自定義的開發,以實現網絡分析的功能。
在同一類數據內部及不同類數據之間,存在大量的網絡特性,利用經典的網絡分析算法,在數據層的數據處理基礎上,實現知識網絡關聯查詢、知識網絡圖分析及知識網絡圖分析挖掘算法庫,為上層應用子系統提供分析服務及算法支持。在知識網絡關聯查詢上,實現科研項目、科研人員、科研成果、依托科研單位等分布式三角形計算的關聯關系查詢、分布式連通子圖查詢,實現基于最小生成樹獲取圖的概要信息和索引結構及基于遍歷的實時查詢。在知識網絡圖分析上,實現知識網絡圖的關鍵節點發現、頻繁子圖挖掘及重疊社區發現。在知識網絡分析挖掘算法庫上,實現PageRank分析、知識網絡聚類分析、科研社區分析和抽取的知識網絡LDA(Linear Discriminant Analysis, 線性判別分析)及科研人員網絡的三角關系關聯分析。
2.2.3 服務層
在分析層完成基本的多維分析及網絡分析方法的基礎上,服務層以微服務接口的方式提供查詢服務、統計分析和智能挖掘服務。
(1)查詢服務
查詢服務指以Web交互的方式檢索存在關聯的項目、人員、成果等,為用戶與知識網絡提供關聯交互手段。例如,用戶輸入關鍵字“項目A”,應用子系統返回“項目A”的相關信息,如主要參與人員、項目成果、以及存在關聯關系的項目、成果、人員。用戶可以根據這些信息選擇進一步的檢索,以發現感興趣的研究課題和研究成果,與相關科研人員建立朋友關系以便進一步合作。
(2)統計分析
統計分析指在研究人員、單位、項目、成果等多維度組合數據查詢結果基礎上,采用可視化技術把多維數據展示出來,并提供項目、成果、詞匯的趨勢分析。
(3)智能挖掘
智能挖掘指采用混合搜索的方式,同時輸入實體和關系,以縮小檢索范圍。如果知識網絡中存在對應實體和關聯,則可視化輸出,否則輸出與之近似的檢索內容,輔助用戶做進一步的檢索決定。另外,基于知識網絡的關聯分析,支持項目、科研人員和科研成果的關聯查詢。
2.2.4 應用層
應用層提供新技術發現、科技規劃支持、交叉學科分析、專家智庫推薦、科技成果轉化等功能。通過科技大數據知識圖譜服務門戶系統,為相關人員提供一體化的大數據知識管理服務,滿足對項目、成果、人員等的交互式查詢,并實現科技規劃支持、領域技術畫像、新技術發現、交叉學科分析、專家智庫推薦、科技成果轉化等功能。
通過文化科技成果轉化系統,以開源專利、公開科技文獻、科研人員、科研機構、項目等數據源為基礎,有效呈現智能數據收集、處理,并借助多維統計分析子系統和知識網絡檢索分析子系統對其進行學科分析、影響力評價、關聯挖掘,進一步將海量數據集中進行數據展示、分析,從而提供從宏觀到微觀不同尺度的預判,洞悉科技前沿發展,提升創新能力,為文化領域的決策、布局提供依據。
(1)專家智庫對接
依據公開數據、合作數據、爬取數據,匯聚文化領域的各類專家,為專家進行大數據畫像,并實時跟蹤他們技術研究進展及可轉化的成果,挖掘科研機構之間的合作關系,發現存在合作關系的人員和單位,輔助用戶尋找頻繁合作的人員、機構等群體,然后根據產業、區域的具體需求,通過大數據和人工智能的分析,打破地域和機構邊界,進行精準匹配和推送(見圖3),可有效實現點對點解決技術難題。

圖3 匹配和推送方案
通過以上技術方案,用戶可以通過查詢相關的專家信息進行專家智庫的推薦與匹配,如圖4所示。

圖4 專家智庫的推薦與匹配
(2)科技成果轉化
利用文化科技成果轉化系統,使科技創新成果和目標企業的精準匹配(見圖5),快速落地,充分挖掘科技成果的價值,提升科技成果的轉化質量和效率。

圖5 科技成果轉化
通過文化科技成果轉化系統匯聚文化科技服務的海量數據,建立文化科技知識網絡圖數據庫、多維數據庫等模型,并借助多維統計分析以及知識網絡檢索、分析等大數據分析工具和算法,使文化科技成果在行業創新方面充分發揮其效能,引導并滿足企業技術創新需求,為文化科技創新提供專業化服務,預測未來科技創新發展趨勢,為文化科技創新提供專業化服務;挖掘文化科技創新與經濟社會發展的互動規律,推進科技鏈、產業鏈、創新鏈的有機融合,促進文化事業和文化產業的繁榮發展。