郄海拓 陳雪迎 張志娟
(中國科學技術信息研究所 北京100038)
科技創新政策量化評價是政策評價的重難點問題,將文本數據轉化成精準、客觀、易讀性和可讀性強的客觀數據和關系并識別政策的重點,同時挖掘核心關系并透視政策文本背后隱藏的關鍵信息具有研究價值。我國試點創新型城市形成的創新型城市發展創新網絡為我國區域創新驅動發展提供了有力支撐[1],城市的科技創新政策對城市的建設和發展起到了引領作用。對國家創新型城市的科技創新政策進行研究有助于優化政策,使政策更好地為城市發展提供引導和支持。
科技部和國家發改委共支持了78 個國家創新型城市,其中72 個為地級市,其他為4 個直轄市和2 個縣級市。國家創新型城市占據全國約八成的R&D 經費支出,并擁有85% 以上的有效發明專利[2],為創新型國家建設做出了很大貢獻。國家創新型城市建設需要城市科技創新政策的引導和支持,因而實現政策優化、支持政策合理地進行立改廢決策,成為國家創新型城市建設的重要一環。本研究基于文本挖掘,對國家創新型城市的科技創新政策予以挖掘和透視,分析隱藏在政策文本背后的關鍵信息,以支持政策的立改廢決策。
為保證樣本的一致性,本研究選取78 個國家創新型城市中的72 個地級市作為研究對象并以2019年科技創新政策作為研究范圍,對國家創新型城市的科技創新政策進行文本挖掘,擬基于政策原文件挖掘和透視文本中隱含的關系與網絡分布,使原本隱藏在大量文本背后的關系和數據得以清晰展現。除了對全樣本進行文本挖掘,本研究還基于城市的經濟發展能力和創新能力將72 個樣本劃分到4 個象限中,研究不同象限樣本的科技創新政策特點。文本挖掘方法的運用,有助于將非結構化的文本轉化為結構化的數據,對政策量化和政策評價以及基于此進行的政策立改廢有重要的借鑒意義。
本研究的主要內容有兩個:一是通過基于對原政策文件的文本挖掘更加深入地了解、評價和量化科技創新政策,加深政策研究的深度和客觀程度;二是通過對政策的客觀評價與量化,分析不同樣本組科技創新政策的不同特點并進行比較研究,最終對城市科技創新政策的立改廢決策提供依據。
從理論意義角度來說,基于文本挖掘的國家創新型城市的科技創新政策量化評價綜合采用ROST CM、Ucinet、Python 和Gephi 軟件實現了政策的深度挖掘,立足政策原文本的研究,增強了研究結論的客觀性。另外,該量化評價還拓展了文本挖掘在政策研究領域的應用范圍。從現實意義角度來說,研究得到的高頻詞、網絡性、中心性和小團體分析有助于識別政策要點,加深對政策的理解,為政策制定者的立改廢決策與政策受眾更加深入地理解政策都有一定的現實意義。
由于政策文本的數據形式比較特殊,最初常采用專家訪談[3]實現政策量化,雖然這種方法簡單高效但難以避免主觀性對結果的影響。文獻[4]提出了用于政策量化的三維度操作手冊,從政策力度、目標與措施維度實現政策量化評價。文獻[5]基于內容分析從政策目標與政策工具角度法實現了區塊鏈政策文本的量化。文獻[6]提出PMC 指數(policy modeling consistency index)法用于政策量化評價并被國內學者應用到我國科技創新政策的研究中[7-8]。文獻[9]在此基礎上提出衡量待評價政策與理想的完美政策間差異水平的“PMC 凹陷指數”來測度待評價政策的改進空間。文獻[10]從政策工具角度構建基于政策工具與科技產業價值鏈的量化分析框架,實現了政策量化。在政策評價維度方面,文獻[11]從政策目標、政策工具與政策力度3個維度評價我國高校創新創業政策。文獻[12]基于政策工具視角,從X、Y、Z3 個維度評價雙創政策,其中X維度包含供給型、環境型以及需求型政策,Y維度包含技術布局、產業布局以及應用布局,Z維度則包括了創新研發、創新成果轉化與產業化以及創新推廣與服務。
從總體趨勢來看,科技創新政策量化是從主觀逐漸走向客觀的過程。科技創新政策量化評價的總體思路基本上都是首先基于一個評價框架,然后采用一定方法將政策文本與評價框架的關鍵要素予以對應,最后實現量化。評價框架的選擇往往基于已有研究的經典框架,結合具體研究對象的具體情況進行設定,以更加契合研究對象的特征進而做出客觀合理的評價。科技創新政策量化評價的下一步研究常常是研究政策與創新績效之間的關系,如文獻[5,13-14]的研究,因而客觀合理地對政策進行量化評價是研究政策與創新之間關系的重要基礎。
對研究主體做簡要描述,如圖1 所示。

圖1 研究主體圖
研究主體分為72 個國家創新型城市分類、政策文本搜集和政策文本挖掘3 個部分。第1 個部分又分為城市樣本選擇與城市分類;第2 部分分為政策樣本來源和政策文本概況;第3 部分對政策樣本產生的高頻詞、語義網絡圖、點度中心度、網絡中心勢和小團體分析進行了各樣本組的詳細說明與比較。
3.1.1 城市樣本選擇
本研究選取了78 個國家創新型城市中的72 個地級市,將北京市海淀區、上海市楊浦區等去掉,留下《國家創新型城市創新能力評價報告》和《國家創新型城市創新能力監測報告》中進行完整評價的72個城市,即深圳、廣州、杭州、南京、武漢、蘇州、西安、長沙、成都、青島、廈門、無錫、合肥、濟南、寧波、常州、大連、鄭州、沈陽、南昌、鎮江、東莞、嘉興、貴陽、昆明、蕪湖、太原、福州、南通、湖州、佛山、哈爾濱、煙臺、揚州、長春、泰州、洛陽、馬鞍山、紹興、蘭州、株洲、濰坊、石家莊、徐州、南寧、金華、連云港、烏魯木齊、海口、鹽城、銀川、秦皇島、宜昌、東營、襄陽、呼和浩特、景德鎮、濟寧、泉州、唐山、西寧、龍巖、包頭、寶雞、拉薩、衡陽、萍鄉、遵義、玉溪、南陽、吉林和漢中。
3.1.2 城市分類
按照人均GDP 與《國家創新型城市創新能力評價報告》(2019 版)中國家創新型城市創新能力指數為劃分象限的2 個維度,分別以50 百分位點為界,將72 個城市劃分到4 個象限,方便后續進行比較研究,象限劃分見圖2。

圖2 創新型城市四象限分類圖
對4 個象限的特點進行匯總,可以設定為:第一象限(高經濟發展能力,高創新能力);第二象限(低經濟發展能力,高創新能力);第三象限(低經濟發展能力,低創新能力);第四象限(高經濟發展能力,低創新能力)。由象限劃分結果可以看出,處于第一象限和第三象限的城市均有30 個,樣本數量較大,說明處于(高經濟發展能力,高創新能力)和(低經濟發展能力,低創新能力)兩種狀態的城市數量較多。
從樣本城市來看,第一象限的城市是創新狀態較優的,特別是處于右上的深圳,是資源和創新能力雙優的城市。從象限來看,應實現從第二、三、四象限城市向第一象限的轉移,如第二象限(低經濟發展能力,高創新能力)的優化路徑就是基于較強的創新能力提升經濟發展能力實現象限轉移,而第三象限(低經濟發展能力,低創新能力)則有2 條優化路徑,分別是提升經濟發展能力—提升創新能力和提升創新能力—提升經濟發展能力。第四象限若實現象限轉移則需要通過依靠自身高經濟發展能力的優勢提升創新能力。而在第一象限中城市優化的思路與象限轉移的思路一致,即基于自身的經濟發展能力條件和城市創新能力現狀向整個圖像的右上角進行轉移。
3.2.1 政策樣本來源
本研究選取72 個國家創新型城市2019 年的科技創新政策,來源主要包括城市人民政策官網、科技局、人力資源和社會保障局、知識產權局、工業和信息化局、財政局、發改委、金融監管局、經信委、北大法寶等網站。
3.2.2 政策文本概況
以上網站的科技創新政策經整理篩選形成政策文本全樣本庫,然后根據象限分類結果形成4 個象限的分樣本庫。
政策數量排名前3 的城市是南京、廣州和長沙,從象限分布來看這3 個城市均處于第一象限,科技創新政策數量體現城市對創新的重視程度,因而政策數量對于城市創新能力與城市經濟發展均存在正向影響,可以作為研究下一步推進的方向。
對政策樣本進行挖掘,進一步得到非結構化的文本數據背后隱藏的結構化數據與關系。
3.3.1 高頻詞
首先對高頻詞進行挖掘和列示,為了兼顧高頻詞反映的信息全面程度和重點突出程度,研究選取30 個高頻詞進行匯總,剔除沒有實際意義的詞,例如“非常”等詞。其次,在高頻詞篩選中,由于共現關系較弱,排除了第二象限的科研誠信(詞頻169)和第三象限的孵化器(詞頻438)、基金(詞頻426)和團隊(詞頻343),高頻詞匯總結果如表1 所示。

表1 5 個樣本組高頻詞情況匯總表

續表1
從表1 中可以看出,全樣本和第四象限的高頻詞中“項目”、“企業”、“服務”、“技術”、“科技”和“創新”普遍是高頻詞中排名靠前的詞,說明在各城市組成的樣本組的科技創新政策中往往會突出上述相關內容,而從之后的高頻詞中可以看出科技創新政策的其他重點領域,如人才、補助、知識產權和研發等同樣在城市的科技創新系統中非常重要。
3.3.2 語義網絡圖
基于政策文本進行進一步挖掘,語義網絡圖反映的是政策樣本中高頻詞的關系與具體分布情況,其中詞間連線代表的是兩端的高頻詞同時出現在政策樣本中。語義網絡圖能夠將政策樣本整體的分布情況以直觀的方式體現出來,有助于將非結構化的文本轉變成直觀圖像,挖掘文本背后的隱含關系與整個網絡的分布態勢。本研究中全樣本和4 個分樣本的語義網絡圖如圖3~圖7 所示。

圖3 全樣本語義網絡圖
從全樣本來看,項目、企業、科技、服務、創新、研發、技術和資金是處于網絡核心位置的高頻詞,且這些高頻詞之間的聯系非常緊密,體現了科技創新政策總體的重點內容。從連線的情況來看,企業與項目、項目與資金、企業與服務、企業與技術、項目與創新、項目與研發等之間的關系非常緊密。這說明從總體來看,科技創新政策的重點主要集中在以企業和項目為依托的范圍內的科技創新與技術研發,同時需要資金的支持,其語義網絡圖見圖3。
第一象限的語義網絡圖中處于中心的是企業、項目、資金、服務、創新、技術和科技,聯系相對緊密的關鍵詞是項目與資金、企業與項目、企業與服務、項目與技術、資金與企業、企業與研發以及企業與科技等。反映了第一象限(高經濟發展能力,高創新能力)城市發展的重點在于依托企業和項目開展的研發活動,并且關注資金對于企業和項目的支持作用,其語義網絡圖見圖4。

圖4 第一象限語義網絡圖
第二象限的語義網絡圖見圖5,以企業、項目、資金、創新、科技、技術為中心,其中聯系較緊密的高頻詞包括項目與企業、服務與企業、技術與創新、企業與技術、企業與科技、項目與科技、項目與資金等。說明第二象限(低經濟發展能力、高創新能力)城市發展重點在于基于項目和企業的科技創新和資金利用,對圍繞企業和項目提供服務是非常重要的。

圖5 第二象限語義網絡圖
第三象限以企業、項目、服務、技術、研發、創新、科技為中心,其中聯系較緊密的高頻詞包括企業與技術、企業與研發、企業與服務、技術與研發、技術與創新、企業與創新和企業與項目等。這說明第三象限(低經濟發展能力、低創新能力)的城市發展重點在于基于項目和企業的技術創新與研發,其語義網絡圖見圖6。

圖6 第三象限語義網絡圖
第四象限以項目、企業、資金、科技、技術、服務和獎勵為中心,其中聯系較緊密的高頻詞包括企業與獎勵、項目與獎勵、科技與項目、資助與獎勵、企業與項目、企業與服務等。這說明第四象限(高經濟發展能力、低創新能力)的城市發展重點在于基于項目和企業的科技與技術創新,且非常注重與之相關的資助與獎勵,其語義網絡圖見圖7。

圖7 第四象限語義網絡圖
5 個樣本組語義網絡圖的中心和高頻詞之間聯系略有不同,但企業和項目以及與之相關的科技、創新、技術、服務、研發和資金總體來說是網絡圖共同的重點內容。
3.3.3 點度中心度
點度中心度反映的是特定高頻詞在網絡中的重要程度,即與其他高頻詞的聯系緊密程度,點度中心度的取值越高則代表該高頻詞(節點)在網絡中的重要程度越高[15],在圖中的節點越大、顏色越深。點度中心度的態勢可以用圖形表示,也可以用數據列示。全樣本點度中心度圖見圖8。從全樣本點度中心度圖中可以看出,企業、項目、服務、技術和資金是網絡中重要性排名前5 位的高頻詞。

圖8 全樣本點度中心度圖
從第一象限點度中心度圖(圖9)中可以看出,企業、項目、服務、技術和資金是網絡中重要性排名前5 位的高頻詞,與全樣本情形非常相似,只是在具體數值上略有差別。

圖9 第一象限點度中心度圖
從第二象限點度中心度圖(圖10)中可以看出,項目、企業、科技、資金和創新是網絡中重要性排名前5 位的高頻詞,與第一象限情況略有差別,項目是最重要的高頻詞,科技的重要程度更為突出。

圖10 第二象限點度中心度圖
從第三象限點度中心度圖(圖11)中可以看出,企業、項目、服務、技術和創新是網絡中重要性排名前5 位的高頻詞,相比較而言服務在該象限的重要性尤為突出。

圖11 第三象限點度中心度圖
從第四象限點度中心度圖(圖12)中可以看出,項目、企業、資金、獎勵和科技是網絡中重要性排名前5 位的高頻詞,相比較而言資金與獎勵的重要性較為突出。

圖12 第四象限點度中心度圖
從4 個象限的點度中心度結果展示的情況可見,企業與項目以及圍繞其的相關服務、資金、科技、創新、技術和研發是科技創新政策中重點關注的問題。
3.3.4 網絡中心勢
對5 個網絡的網絡中心勢進行測算,來了解各網絡的集中程度,網絡中心勢取值處于0%~100%之間,網絡中心勢超過10%的網絡即體現為一定的集中度,網絡中心勢體現的只是網絡集中的程度,并不是優劣的絕對評價標準。5 個樣本組的網絡中心勢匯總如表2 所示。

表2 網絡中心勢匯總表
從網絡中心勢的取值來看,5 個樣本組的取值均高于28%,網絡均存在一定的集中度。原因可能為城市按照國家-省-城市的主要路線作為制定城市創新科技政策的主要路徑,因而城市間政策制定的思路和基礎較為統一、語義表達準確、用詞規范。另外,本研究在政策文本篩選階段標準嚴格,選擇的政策均為表達準確、重點突出的政策文件,對于一般性通知和沒有重點內容的文件均在篩選階段刪除,因此樣本質量較優。
從網絡中心勢的具體情況來看,第三象限的網絡中心勢取值最高,說明該象限內政策樣本的集中程度較高,重點更為突出。而第二象限和第一象限的網絡集中度略低,第二象限由于樣本數較少,所以網絡中心勢取值較低;第一象限由于樣本的城市創新能力和經濟發展能力都較高,所以政策傾向多元化,重點相對分散。
3.3.5 小團體分析
小團體分析的結果有助于了解和透視隱藏在大量的文本信息后的關系,并以直觀的方式體現出來。各樣本組小團體分析的結果如表3 所示,全樣本的5 個小團體分別是創新人才、企業創新、平臺載體、創新生態和知識產權。

表3 全樣本組小團體分析的結果表
從表4 中可以看出,第一象限的5 個小團體分別是企業創新、創新人才、科技金融、創新生態和知識產權。

表4 第一象限小團體分析結果表
從表5 中可以看出,第二象限的5 個小團體分別是企業創新、創新生態、創新人才、科技金融和政府基金。

表5 第二象限小團體分析結果表
從表6 中可以看出,第三象限的5 個小團體分別是企業創新、創新人才、平臺載體、創新機制和創新生態。

表6 第三象限小團體分析結果表
從表7 中可以看出,第四象限的5 個小團體分別是知識產權、創新生態、創新人才、技術研發和科技金融。

表7 第四象限小團體分析結果表
通過小團體分析的結果可知,4 個象限小團體均存在創新人才和創新生態小團體,說明創新人才和良好的創新生態是科技創新的重要因素。第三象限的樣本對于科技金融對城市創新能力與經濟發展能力的支持相對于其他樣本來說稍弱,應予以重點關注。同理,第四象限對企業創新的關注程度稍弱,或者是對企業關注點略顯分散,應予以重點關注;第二、三象限應關注知識產權領域。而從小團體間差異來看,第二象限的政府基金、第三象限的創新機制與平臺載體和第四象限的技術研發都是這些象限各自關注的特殊領域,其他象限的城市也應以此為依據審視本城市的政策制定是否全面并突出重點,為城市科技創新政策的立改廢提供依據。
基于5 個樣本組文本挖掘的結果可知,我國國家創新型城市的科技創新政策重點比較突出,主要依托項目和企業開展研發活動,實現科技和技術的創新發展,同時需要重視相關的支持服務和資金的支持與其他獎勵來激勵創新績效的提升。在創新活動的落實方面來看,各組均認識到了創新生態和創新人才的重要性,并對創新活動相關的企業創新、科技金融、平臺載體、知識產權等普遍有所關注,且在不同樣本組體現出了一定差異。
對各樣本組的科技創新政策進行文本挖掘有助于將文本背后隱藏的關鍵信息挖掘出來,并且摒棄研究人員的主觀偏差,將非結構化數據轉化為結構性的數據和關系,以透視政策的重點內容,也為城市科技創新政策的立改廢提供了依據,為城市創新體系建設提供了支持,為城市間相互借鑒提供了更清晰的思路和更突出的重點。
本研究下一步擬通過實證方法定量研究科技創新政策與創新型城市的經濟發展和創新能力之間的關系,借此研究政策的效果、績效與效率,并進一步為國家創新型城市的科技創新政策提供立改廢決策支持。