張雨 吳俊
(北京郵電大學經濟管理學院,北京 100876)
近年來國家高度重視科學技術發展,為鼓勵“政用產學研”協同創新,從中央到地方出臺了一系列科技政策。一方面,這些政策散布于政府及媒體網站,不方便用戶集中查閱和整合分析;另一方面,政策內容包羅萬象,涉及諸多行業,公文化的表達方式不利于企業或個人快速檢索,把握不同政策間的內在聯系[1]。如何準確而快速地挖掘科技政策文本的關鍵語義信息,以結構化形態展現科技政策主要條目的層級關系,以可視化方式展現多個政策主體以及政策屬性特征間的不同關系,成為學術界和企業界亟待解決的問題。這一問題的解決不僅有利于垂直領域的知識發現與利用,也有助于廣大中小企業及時跟蹤了解各級政府的科技創新政策動向。
科技政策文本的語義挖掘與知識結構化解析可以借助知識圖譜技術解決。知識圖譜旨在通過提取知識實體及實體間關系,將原始的文本數據解析為表征知識本體的語義屬性及脈絡關系,進而以圖網絡形態幫助用戶快速理解知識結構,揭示領域知識的特征和規律[2]。將知識圖譜技術應用于科技政策的知識序化,展現政策內容與政策主體間的關系,揭示不同政策之間的內在聯系,提升政策文本的使用價值,解決用戶長期以來反映的“擁而難用、匯而不慧”難題。此外,隨著深度學習技術的快速發展,通過深度神經網絡模型智能識別與提取實體間關系也為領域知識圖譜的專業化和精細化提供了新手段。
具體而言,本文以采集到的各級政府公開發布的科技政策文本為數據源,構建政策知識本體,應用Bi-LSTM模型抽取政策文本實體及屬性特征,使用Neo4j圖數據庫構建科技政策知識圖譜并實現可視化查詢,以提升科技政策的利用效率,更大程度發揮科技政策的效用。
知識圖譜較早由Google基于語義網研究提出,旨在實現語義搜索的智能化,提升用戶對知識的搜索質量與體驗[3]。知識圖譜主要由<實體,關系,實體>和<實體,屬性,屬性值>三元組構成,優點在于構建的語義知識庫以圖形化形式展示現實世界中的實體及其相互關系。
隨著知識圖譜相關技術的快速發展,在通用知識圖譜之外,眾多行業領域知識圖譜逐漸興起。一般而言,通用知識圖譜以常識性知識為對象,以大規模開源知識為支撐,構建廣域語義知識庫,主要應用在智能搜索領域,知名的通用知識圖譜開源庫有FreeBase、DBPedia、Wikidata等。行業知識圖譜則面向垂直行業,以從特定領域采集的文本信息為支撐,聚焦定域的語義知識庫,具有鮮明的行業應用特征,對專業性與準確度要求更高[4]。此外,行業知識圖譜更加強調領域知識的有序化、結構化和可視化,以提高管理決策效率為主要目標。以金融股權知識圖譜[5]為例,它從股權角度出發,通過股權穿透式查詢,可從全局實現風險識別,通過持股比例判斷機構風險水平,為企業風險識別與預測提供新方法。在圖書情報領域,白如江等[6]提出科學事件元數據模型,以文獻摘要為挖掘對象,構建科學事件知識圖譜。在醫療領域,曹明宇等[7]構建肝癌知識圖譜,并進一步設計了肝癌知識問答系統,能夠有效回答肝癌相關的疾病癥狀、治療藥物及治療手段等問題。
作為智能互聯時代知識優化和推薦的重要手段,知識圖譜技術已成為學術界和工業界研究的焦點,被廣泛應用于個性化推薦、語義搜索、智能問答、風險識別及預警等領域。
科技政策是政府為促進科學技術發展以及利用科學技術為國家目標服務而采取的集中性和協調性措施,是科學技術與國家發展的有機整合[8]。隨著各級政府科技投入的加大,科技政策引領科技發展的作用日益凸顯。相應的,科技政策的相關研究也呈現內容多元、方法多樣的特點。
已有的科技政策研究方法大致可分為3類。第一類是利用學者Rothwell等[9]提出的政策工具法進行定量研究。徐硼等[10]基于政策工具視角深入剖析了我國科技創新政策,指出3種政策工具在應用層面存在結構失衡的問題,并對未來科技政策制定提出了改進策略。針對我國科技政策間協調性差,政策體系不完善的問題,仲偉俊等[11]基于政策工具分析框架對科技政策進行具體分析,總結現有科技政策的合理性和不足,探討完善政策的路徑。第二類是利用文本挖掘方法對科技政策文本內容進行詞頻和語義分析。例如:宋偉等[12]以地方政府發布的人工智能科技政策文本為對象,通過文本語義分析,指出人工智能政策主題存在群聚化特點;祝鑫梅等[13]對1979—2017年國家層面的245篇政策文本進行分析,對政策文本的高頻主題詞進行可視化,揭示了政策主題循環往復、螺旋上升的演化過程。第三類方法是將文獻計量法應用于科技政策文獻的量化研究,識別并發現政策文獻的知識分布與演化等規律。如黃萃等[14]以1949—2010年中國科技政策數據為研究對象,繪制我國科技政策主題詞的聚類圖,展示中國科技政策的主題熱點與演化路徑,進一步總結中國政府執政理念的變化。
由于科技政策文本數量日趨龐大,語義關系日漸繁雜,將知識圖譜技術用于科技政策領域,以實現政策主體、政策屬性與關系的結構化和顯性化越來越重要。既有的研究呈現兩種特點。一是聚焦科技政策領域的文獻研究,主要是應用Citespace等可視化工具構建領域知識圖譜,展示領域研究的發展脈絡和熱點動向,用以預測前沿趨勢,推動科技政策制定過程的科學性和規范性。例如:李梅芳等[15]以Research Policy期刊1974—2016年發表的2 855篇文獻為研究對象,利用Citespace軟件繪制文獻共被引知識圖譜以揭示科技政策領域國際研究的演化情況;趙繪存等[16]在李梅芳研究的基礎上,對2007—2017年Research Policy發表的文章進行分析,通過VOSviewer軟件構建作者網絡共現關系圖譜和國家合作網絡圖譜,發現科技政策研究個人合作強度不足,但國家合作網絡聯系緊密的特點。二是利用自然語言處理開源工具從政策文本中抽取知識實體與關系。張維沖等[17]利用HanLP等工具對716篇貴州省大數據政策文本進行實體抽取,構建大數據政策圖譜;Wang等[18]利用正則表達式提取政策實體及屬性,采用規則匹配與神經網絡相結合的方法抽取關系,構建政策知識圖譜分析平臺。
既有研究至少存在兩大不足:一是基于Citespace的科技政策研究知識圖譜聚焦學術文獻而非政策文本;二是已構建的科技政策知識圖譜多采用自下而上的構建思路,關注政策實體與實體間關系,忽略了科技政策的扶持類和禁止類重要屬性信息。本文采用自上向下的構建路徑,首先考慮科技政策的新發展,構建政策知識本體,定義科技政策實體、屬性和關系;然后應用BiLSTM模型,識別并提取政策實體、屬性及關系,尤其是提取政策扶持類和禁止類實體信息;最后導入Neo4j圖數據庫完成政策實體、屬性及其關系的可視化查詢與檢索。
知識圖譜在邏輯結構上由模式層和數據層兩部分構成[19],模式層通過本體庫規范目標領域內的實體、屬性以及不同對象之間的關系,數據層則以<實體,關系,實體>或<實體,屬性,屬性值>三元組的形式表征知識結構,通過知識抽取實現模式層的實例化。本文構建的科技政策知識圖譜,首先定義模式層,明確科技政策主體、客體、政策元數據特征,借此梳理得到科技政策的實體、屬性與關系,形成科技政策本體模型;然后在數據層針對采集的科技政策文本應用知識抽取技術提取實體和屬性信息,并將三元組信息存入圖數據庫,完成知識圖譜的構建。具體可劃分為數據獲取、本體構建、知識抽取、知識存儲4個部分,具體的構建流程如下。
(1)數據獲取。科技政策文本來源主要從各級政府的網站通過爬蟲程序采集獲取,將采集的政策文本存放在數據庫中,方便后續處理。
(2)本體構建。分析科技政策知識結構,確定政策本體中的概念體系,確立類、屬性及關系,構建科技政策本體。本體中的概念主要包括政府機構、政策類別以及區域等;屬性是對政策文本知識粒度的進一步細化,包括發布時間、政策扶持條文和政策禁止條文等;關系包括政策與機構之間的發布關系,以及政策間的引用關系等。
(3)知識抽取。基于構建的政策本體模型,應用深度學習算法從政策文本中抽取實體、屬性及關系信息。實體抽取包括抽取政策標題、發布單位等;屬性抽取主要利用深度學習模型從政策全文中抽取出包含情感態度的扶持內容和禁止內容;關系抽取主要包括科技政策與政府機構之間的發布關系和政策文件之間的相互引用關系等。
(4)知識存儲。將上述處理流程中獲取的實體和關系數據轉換成數據格式并批量導入Neo4j圖數據庫中,采用圖結構存儲知識,并通過Neo4j實現可視化,直觀展示科技政策實體之間以及實體與屬性之間的關系。
為構建一個較為全面的科技政策知識圖譜,本文從多個渠道檢索科技政策文本,既包括各級政府網站等官方平臺,也包含各類政策咨詢服務平臺。通過Python爬蟲共獲取28 741條科技政策文本,經過合并、去重、刪除無效數據的整合分析后,數據量縮減到26 660條(縮減7.24%),之后將政策文本存儲在MySQL數據庫中,為后續知識三元組抽取做準備。在存儲過程中,也對政策文本數據集進行預處理,包括去除文本空格、網頁標識符等。
模式層是知識圖譜的概念模型和邏輯基礎,能夠對數據層進行規范約束,在研究中多采用本體作為知識圖譜的模式層。本體定義知識圖譜的數據模式,是對知識圖譜的抽象化表示,通過本體庫而形成的知識圖譜不僅層次結構較強,而且冗余程度較小[4]。通過研讀科技政策文本內容,對科技政策實體、屬性和關系進行定義,構建科技政策本體模型(見圖1)。

圖1 科技政策本體模型
3.2.1 實體定義
實體是知識圖譜中的重要節點,在政策本體中實體可以是政策文件、政策類別、政策發布機構等元數據,也可以是政策文件中提及的關聯政策,還可以是抽象的政策概念。本文基于科技政策數據的外部特征和內在知識元素來構建科技政策知識圖譜中所需實體,主要包括科技政策、類別、政府機構、關聯政策、地區、省份、城市七大實體類型,如表1所示。

表1 科技政策本體中的實體類型及描述
3.2.2 屬性定義
科技政策本體中的實體屬性及描述如表2所示。現有實體大多為科技政策的外部特征信息(包括發布時間),而缺乏用戶亟需的、蘊含在政策內容中的關鍵信息。本文將扶持類政策條文和禁止類政策條文歸為科技政策的實體屬性,目的是幫助廣大中小企業用好政策紅利,規避風險和政策禁區。

表2 科技政策本體中的實體屬性及描述
3.2.3 關系定義
鑒于科技政策的制訂與出臺存在時序性和關聯性,例如,A政策參考了B政策的規定、解釋、標準等,或者A政策以B政策為指導思想制定,在這些情形下A政策與B政策具有時間和語義的關聯,因此構建政策實體之間的引用關系,能夠清晰梳理政府機構政策制定思路以及政策發展脈絡,明晰政策導向[20]。此外,在科技政策的本體概念模型中,實體之間的關系還包括類別、發布、隸屬三大主要關系。據此,本文確定科技政策本體中的關系類型及描述如表3所示。

表3 科技政策本體中的關系類型及描述
數據層構建是以模式層構建的科技政策本體為基礎,從已獲取的語料中抽取結構化信息,主要包括實體抽取、屬性抽取、關系抽取三部分[21]。實體是知識圖譜的最基本元素,因此實體抽取是知識抽取中最基礎和關鍵的部分,其任務是從語料中識別出命名實體。文本語料經過實體抽取,得到的是離散的命名實體,還需要提取實體之間的關聯關系,將實體聯系起來形成網狀的知識結構。屬性抽取是從語料中抽取特定實體的屬性信息,刻畫完整的實體。關系抽取是構建知識圖譜的關鍵一步,其主要任務是從文本內容中挖掘出實體與實體之間的語義關系,構建<實體,關系,實體 >的三元組,用于后續知識圖譜的構建。
3.3.1 實體抽取
(1)提取科技政策文本中的省份、城市、區域實體。chinese_province_city_area_mapper(cpca)是一個用于識別中文字符串中省、市和區的Python開源庫。利用cpca庫從政策來源字段中提取出政策所屬省市,其提取效果如表4所示。經過數據統計發現,政策數據集中的省市信息提取率超過90%,提取效果較好。為避免空值信息對后續統計產生影響,在現有數據的基礎上,人工校對空值,使之能夠獲取每條數據政策的省市信息。然后將省、市字段按照其地理位置劃分為東部、西部、中部、東北部、中央5個類別,歸納為地區實體。

表4 省市實體提取效果
(2)提取科技政策實體。通過使用Python中內置的“re”模塊來使用正則表達式檢查政策文本是否引用某個政策,之后將同一政策文本中引用的多個政策進行合并。具體操作:首先制定過濾規則,匹配政策文本包含“《 》”“貫徹落實”“依據”“參照”等標志詞的字符串,然后從匹配成功的文本字符串中提取科技政策實體并存儲。以某政策內容為例:“各有關企業:現將《關于組織申報2018年度市級知識產權優勢企業的通知》(渝知發〔2018〕45號)印發與你們,請符合相關條件的企業自行申報,并將申報材料傳一份至縣科委”,在本例中提取結果為《關于組織申報2018年度市級知識產權優勢企業的通知》。本研究所收集的全部科技政策文本,經過處理后共提取出13 389條引用的科技政策,占全體的50.22%。
3.3.2 提取政策扶持條文和政策禁止條文屬性
情感分析是自然語言處理的任務之一。從自然語言處理技術角度來看,情感分析的任務是從文本中提取該文本表達的情感傾向。本研究需從政策內容中提取出政策扶持條文和政策禁止條文,因此適用于用情感分析方法解決此問題。
情感分析根據處理文本顆粒度的不同,可分為篇章級和句子級。篇章級情感分析的目標是判斷整篇文檔表達的是褒義還是貶義的情感;句子級情感分析的任務是判斷一個句子表達的是褒義還是貶義的情感。不過,篇章級情感分析只能得到每一條政策數據的情感等級,而無法獲得每一條政策數據中包含的帶有情感色彩的政策內容,因此舍棄該方法,采用句子級情感分析來完成該任務。
情感分析在某種程度上是文本分類的一種,所以本文利用深度學習方法,根據政策內容訓練Bi-LSTM模型對科技政策文本情感分類,具體實現流程如圖2所示。

圖2 科技政策文本情感分類流程
步驟一,確定政策文本按照句子級別劃分的類型,具體分為扶持型、禁止型、普通型。如果句子中出現負面詞匯“嚴禁”“整治”“控制”等,或具有明顯的懲罰性表達,則劃分為禁止型;反之,如果內容中多出現正面詞匯,如“補貼”“扶持”“鼓勵”等,則劃分為扶持型;兩者都不是,則劃分為普通型。
步驟二,將每條政策內容劃分為多個句子,并按照上述規則對句子類型進行數據標注和編碼。本研究將26 660條政策文本劃分為30多萬條句子,由人工對句子進行標注。為獲得較好的訓練效果,防止過擬合,盡量保證訓練集中每一類的句子數目一致。
步驟三,將訓練集與測試集輸入Bi-LSTM模型中訓練神經網絡模型,并把epoch設置為60,模型訓練結果F1值達到69%。然后,基于已訓練好的模型,對其余句子進行預測,并將結果存入CSV文件中。
步驟四,得到帶有標簽的句子后,將所有的句子整合,提取出每條政策對應的扶持條文和禁止條文。
經過上述處理步驟,獲得政策知識圖譜所需實體、屬性及關系三元組,其中,提取46 392個實體、23 400個屬性以及158 432條實體間關系。之后將三元組存儲于Neo4j圖形數據庫中,實現科技政策知識圖譜的可視化查詢。
Neo4j數據庫是一個高性能的圖形數據庫,具備高可用性、易擴展性、完整的數據庫事務支持和快速檢索4個特征,具有強大的可視化能力,也是目前使用最多的圖數據庫[22]。Cypher是Neo4j的官方查詢語言,是一個類SQL語言,可以方便地對圖形數據庫進行查詢和更新。Neo4j支持多種數據導入方式,既可以使用Cypher語言中的LOAD CSV語句直接導入,也可以采用Neo4j-import命令將CSV文件批量導入。其中:第一種方法導入速度較慢;第二種方法速度較快,但需在初始化時進行數據導入。
本文使用第二種方法,首先建立知識網絡的關系映射表,然后將科技政策文本中抽取的三元組處理成Neo4j要求的格式,使用Neo4j-import命令批量導入數據庫中,構建科技政策知識圖譜。該知識圖譜包含46 392個節點、158 432條邊。數據導入后可利用Cypher語言對構建的科技政策知識圖譜進行可視化查詢。由于實體節點較多且可視化空間有限,科技政策圖譜部分展示如圖3所示。每個節點代表一個實體,節點之間的連線代表兩兩實體間關系,單擊實體或關系可查看對應屬性信息。

圖3 科技政策知識圖譜部分展示
構建科技政策知識圖譜的最終目的是從海量的政策數據中提取關鍵語義信息,實現科技政策領域知識的可視化查詢和知識發現服務,為政府、企業和個人提供工作抓手。基于前文構建的科技政策知識圖譜,利用Neo4j的Cypher查詢語言可以實現對科技政策實體和實體關系的查詢,并將查詢結果可視化呈現,便于用戶高效地掌握關鍵信息,發現事物之間的潛在聯系。
在Neo4j數據庫中使用Cypher語句中的MATCH子句可實現對科技政策、政府機構、關聯政策等實體和相關關系的查詢操作。以查詢某一科技政策為例,輸入“MATCH(m:科技政策)-[r]->(n)WHERE m.name = '內蒙古自治區科技成果轉化專項資金管理辦法' RETURN m,r,n;”其中“m”為實體信息,“[ ]”內填寫需要查詢的關系類型,WHERE對查詢數據進行過濾,RETURN表示返回結果。該語句生成的知識圖譜可查詢出與《內蒙古自治區科技成果轉化專項資金管理辦法》政策相連的所有實體和關系,發布機構、政策類型、隸屬的地區以及關聯政策等數據都會被呈現。其中,不同實體類型的節點會通過顏色區分,單擊實體或可查看其包含的扶持條文和禁止條文等屬性信息。該政策中涉及的政策扶持信息包括科技成果轉化引導資金、主要支持的重點領域和補貼標準,可幫助用戶抓住機會,順應政策導向,實現供需方的精準匹配,而政策禁止內容則總結了政策內容的禁止性規定,能夠幫助用戶及時規避風險。
引文分析是文獻計量學的一種方法,并被廣泛應用于知識發現中,主要是通過對文獻對象的引用與被引用關系,反映文獻之間的外在聯系,揭示學科領域的結構和演化規律。政策數據與文獻數據類似,也存在引用關系。科技政策引文圖譜可為政策的制定提供決策支持,也能梳理不同政策間的關系,明晰政策制訂依據。輸入“MATCH (m)-[r:引用]->(n) RETURN m,r,n;”可以生成政策實體間“引用”關系圖譜,能夠實現政策溯源,展現政策體系演進過程,反映中央政府頒布的政策與其他政策的關聯關系,以及中央政策與地方政策主題、政策目標的銜接性。
為全面深化改革,黨的十八屆三中全會提出推進國家治理體系和治理能力現代化的宏偉藍圖。實現國家治理現代化,首當其沖的任務是要實現政府治理現代化,而建設數字政府是實現政府治理現代化的重要途徑。隨著政府信息公開廣度和深度的不斷延伸,如何有效挖掘海量政策數據,發揮政策對科技創新的指引作用日益引起各界重視。
本文提出的科技政策知識圖譜構建方法,為面向政策領域的知識圖譜應用提供了鮮活的實例,所構建的科技政策本體庫,可以為研究者開展其他政策圖譜編繪提供參考,采用的知識抽取與存儲技術在其他垂直行業以及金融、教育、醫療等領域也有廣闊的應用前景。
未來研究可以從兩方面延展。一是充實并完善政策本體。可以考慮借鑒政策評價相關理論,從政策目標、政策工具等出發,豐富政策實體的表征維度,在實現科技政策查詢的基礎上,滿足各級政府開展政策評價的新需求。二是引入新興技術,完善政策語義知識庫的廣度與深度。將BERT等考慮上下文語義信息的預訓練語言模型與Bi-LSTM模型結合,從更細的粒度抽取政策實體和關系,提升科技政策知識圖譜的適應性與易用性。此外,在本文構建的知識圖譜基礎上,還可以進一步延伸開發在線政策智能問答系統,滿足政府與企業、科技提供商與技術應用者對前沿科技政策信息的準確定位與實時獲取。