劉璐 余文斌 李欣桐 趙毅 何喜軍



[摘 要]提高政策與文獻(xiàn)研究的協(xié)同效果,有利于加強(qiáng)科學(xué)研究對(duì)政策制定的支撐作用,以及政策制定對(duì)科學(xué)研究的引導(dǎo)作用。以中國(guó)知網(wǎng)和白鹿數(shù)據(jù)為數(shù)據(jù)源,基于Word2Vec和余弦相似度構(gòu)建政策與文獻(xiàn)文本的語(yǔ)義匹配度模型,研究京津冀協(xié)同發(fā)展政策與文獻(xiàn)的匹配度及熱點(diǎn)。研究發(fā)現(xiàn):匹配度逐年上升,但匹配度值仍不夠高;政策對(duì)科學(xué)研究有正向引導(dǎo)作用;政策與文獻(xiàn)的熱點(diǎn)呈現(xiàn)多元化趨勢(shì);政策持續(xù)關(guān)注點(diǎn)為城市建設(shè),此外科技、環(huán)境、交通協(xié)同發(fā)展等也是熱點(diǎn);經(jīng)濟(jì)協(xié)同發(fā)展與產(chǎn)業(yè)轉(zhuǎn)移、環(huán)境、區(qū)域空間建設(shè)、協(xié)同創(chuàng)新是研究熱點(diǎn)。文章為政策與文獻(xiàn)匹配度的定量研究提供了思路和方法。
[關(guān)鍵詞]京津冀協(xié)同發(fā)展;政策;文獻(xiàn);語(yǔ)義匹配度;熱點(diǎn)
[DOI]10.13939/j.cnki.zgsc.2019.35.029
1 引言
2014年2月,京津冀協(xié)同發(fā)展上升為國(guó)家戰(zhàn)略,為京津冀三地的跨越式發(fā)展提供重要機(jī)遇。5年來(lái),為推動(dòng)戰(zhàn)略實(shí)施,國(guó)家和京津冀三地政府陸續(xù)出臺(tái)多項(xiàng)政策,學(xué)術(shù)界也圍繞區(qū)域協(xié)同創(chuàng)新開(kāi)展系列研究,取得了階段性的成果。在戰(zhàn)略實(shí)施進(jìn)入攻堅(jiān)階段,政策與科學(xué)研究的協(xié)同性和匹配性尤為重要,匹配度高,說(shuō)明科學(xué)研究對(duì)政策制定的支撐作用加強(qiáng),同時(shí)政策制定引導(dǎo)科學(xué)研究的問(wèn)題導(dǎo)向功能加強(qiáng)。目前,已有成果多從單一維度研究政策熱點(diǎn)和科學(xué)前沿挖掘,對(duì)兩者語(yǔ)義匹配度的研究還較少關(guān)注。因此,本文將利用文本挖掘中語(yǔ)義分析方法基于時(shí)間系列研究政策與文獻(xiàn)的匹配度,并挖掘政策與文獻(xiàn)熱點(diǎn),為提高兩者的協(xié)同效果提供對(duì)策建議,從而加強(qiáng)科學(xué)研究對(duì)政策制定的支撐作用,以及政策制定對(duì)科學(xué)研究的引導(dǎo)作用。
2 文獻(xiàn)回顧
2.1 京津冀協(xié)同發(fā)展政策研究及熱點(diǎn)識(shí)別
京津冀協(xié)同發(fā)展的核心是有序疏解北京非首都功能。董微微[1]通過(guò)對(duì)中央報(bào)刊政策文本的關(guān)鍵詞和主題詞的提煉及分析,探究京津冀協(xié)同發(fā)展熱點(diǎn)主題和前沿趨勢(shì);黃萃等[2]提出政策文獻(xiàn)量化研究,為公共政策研究提供新方向。
2.2 京津冀協(xié)同發(fā)展文獻(xiàn)研究及熱點(diǎn)識(shí)別
魏進(jìn)平等[3]利用文獻(xiàn)計(jì)量學(xué)和共詞分析等方法,總結(jié)京津冀協(xié)同發(fā)展的研究熱點(diǎn)和趨勢(shì);陳辰[4]等結(jié)合詞頻統(tǒng)計(jì)與高頻關(guān)鍵詞的語(yǔ)義關(guān)聯(lián)分析,挖掘京津冀協(xié)同發(fā)展的熱點(diǎn)主題。
2.3 政策與文獻(xiàn)語(yǔ)義匹配方法研究現(xiàn)狀
王崇德[5]研究證明文獻(xiàn)計(jì)量學(xué)是科學(xué)政策制定有力的輔助工具;徐揚(yáng)輝[6]表明公共政策制定過(guò)程離不開(kāi)社會(huì)科學(xué)研究方法的運(yùn)用。因此,研究政策與文獻(xiàn)語(yǔ)義匹配度有利于反映科研成果的有效性。目前,基于關(guān)鍵詞共現(xiàn)和基于語(yǔ)義共現(xiàn)匹配方法應(yīng)用比較多。關(guān)鍵詞共現(xiàn)方法認(rèn)為:關(guān)鍵詞在同篇文獻(xiàn)中兩兩出現(xiàn)的頻次越多,則認(rèn)為這兩個(gè)詞的相關(guān)性強(qiáng),但是當(dāng)共現(xiàn)次數(shù)相同時(shí)則無(wú)法判斷相關(guān)性強(qiáng)弱,且該方法無(wú)法判斷語(yǔ)義相同但不共現(xiàn)的關(guān)鍵詞之間的相關(guān)性強(qiáng)度,因此,該方法更適用于相關(guān)性問(wèn)題識(shí)別。基于語(yǔ)義共現(xiàn)匹配方法能更好地彌補(bǔ)上述方法的不足,例如:基于信息內(nèi)容的詞向量模型[7],可以根據(jù)特征選擇和統(tǒng)計(jì)構(gòu)造向量空間,計(jì)算向量的語(yǔ)義相似性。
本文將采用MIKOLOV等[8]提出的Word2Vec模型結(jié)合維基百科語(yǔ)料庫(kù)將政策與文獻(xiàn)文本轉(zhuǎn)化為低維實(shí)數(shù)向量,再結(jié)合余弦相似度計(jì)算政策與文獻(xiàn)的語(yǔ)義匹配度。
3 基于詞向量的政策與文獻(xiàn)語(yǔ)義匹配度模型
關(guān)于模型構(gòu)建步驟,有以下三步。
3.1 采集政策與文獻(xiàn)文本詞集
通過(guò)Python切詞工具將政策與文獻(xiàn)文本切分成詞集,將文獻(xiàn)詞集表示為Si={Si_1,Si_2,…,Si_p}(i=1,2,…,m),m為文獻(xiàn)詞的個(gè)數(shù),將政策詞集表示為Dj={Dj_1,Dj_2,…,Dj_q}(j=1,2,…,n),n為政策詞的個(gè)數(shù)。計(jì)算語(yǔ)義相似度是先計(jì)算詞語(yǔ)之間的距離,距離越小則相似度越大,因此,兩個(gè)詞集中相同詞語(yǔ)越多,那么其相似度也就越高,但是語(yǔ)義相似是指不同詞語(yǔ)的含義相似度,因此要將兩個(gè)詞集做去重處理。處理后的Si表示為S—i={S—i_1,S—i_2,…,S—i_p′}(p′為文獻(xiàn)詞集去重后詞的個(gè)數(shù)),Dj表示為D—j={D—j_1,D—j_2,…,D—j_q′}(q′為政策詞集去重后詞的個(gè)數(shù)),兩詞集的交集個(gè)數(shù)為r,且0≤r≤min(p,q)。
3.2 訓(xùn)練詞向量模型
將采集到的政策與文獻(xiàn)信息以及維基百科數(shù)據(jù)作為語(yǔ)料庫(kù),利用Word2Vec模型訓(xùn)練文本,將所有的詞向量化,以此來(lái)表示詞與詞之間的關(guān)系,進(jìn)而得到詞向量模型。
3.3 計(jì)算政策與文獻(xiàn)的語(yǔ)義匹配度
利用基于詞向量的詞集相似度方法[9-10]計(jì)算政策與文獻(xiàn)文本語(yǔ)義匹配度。以計(jì)算S—i和D—j中的Sim(S—i_1,D—j_1)為例,設(shè)ai和bi分別為S—i_1和D—j_1的詞向量,h為詞向量的維數(shù),則:
Sim(S—i_1,D—j_1)=∑hi=1(ai×bi)∑hi=1(ai)2×∑hi=1(bi)2(1)
同理,可得p′×q′的語(yǔ)義匹配度矩陣M1:
M1Sim(S—i_1,D—j_1)Sim(S—i_1,D—j_2)…Sim(S—i_1,D—j_q′)
Sim(S—i_2,D—j_1)Sim(S—i_2,D—j_2)…Sim(S—i_2,D—j_q′)
Sim(S—i_p′,D—j_1)Sim(S—i_p′,D—j_2)…Sim(S—i_p′,D—j_q′)
將M1中的最大值元素Sim(S—i_k,D—j_v)添加到集合R中,刪除Sim(S—i_k,D—j_v)所在的第k行和第v列的所有元素值;重復(fù)以上過(guò)程,直到集合R中的元素個(gè)數(shù)T為min(p′,q′),從而得到集合R={Sim1,Sim2,…,SimT},詞集S—i和D—j的匹配度即為集合R中各元素的加權(quán)平均值,公式為:
Sim(Si,Dj)=Sim(S—i,D—j)=(p+q)×(r+∑Tt=1SimT)2pq(2)
4 京津冀協(xié)同發(fā)展政策與文獻(xiàn)匹配度測(cè)算
4.1 數(shù)據(jù)檢索與統(tǒng)計(jì)分析
文獻(xiàn)數(shù)據(jù)來(lái)源為中國(guó)知網(wǎng),檢索時(shí)間為2014—2018年,檢索主題為 “京津冀”和“環(huán)渤海”,文獻(xiàn)類別為CSSCI和CSCD,共檢索到1951篇。政策文本來(lái)源為白鹿數(shù)據(jù),檢索時(shí)間同上,檢索詞為:“京津冀”“環(huán)渤海”“北京”“天津”“河北”,共檢測(cè)到1004個(gè)政策。政策與文獻(xiàn)發(fā)表時(shí)間及數(shù)量分布如圖1所示。
由圖1發(fā)現(xiàn),2014—2017年,文獻(xiàn)數(shù)量快速增長(zhǎng),政策數(shù)量在2014年達(dá)到最高后,呈現(xiàn)下降趨勢(shì);2018年,文獻(xiàn)和政策數(shù)量均呈現(xiàn)下降趨勢(shì)。分析其原因:國(guó)家戰(zhàn)略制定后,各級(jí)部門(mén)快速反應(yīng)并制定相關(guān)政策,短周期內(nèi)政策數(shù)量達(dá)到頂點(diǎn),后續(xù)圍繞實(shí)踐中面臨的主要問(wèn)題進(jìn)行政策的調(diào)整和完善,數(shù)量趨于平穩(wěn);而文獻(xiàn)研究需要周期較長(zhǎng),但在政策引導(dǎo)下,關(guān)注范圍持續(xù)升高,成果快速增長(zhǎng)。經(jīng)過(guò)5年的周期,政策與制度相對(duì)完善,呈現(xiàn)下降趨勢(shì),從研究層面,對(duì)問(wèn)題的關(guān)注更加深入,主題更加豐富和多元化,例如近年來(lái)的“雄安新區(qū)”建設(shè)則成為京津冀協(xié)同發(fā)展的研究熱點(diǎn),但因檢索詞中未涉及,導(dǎo)致從數(shù)據(jù)統(tǒng)計(jì)上文獻(xiàn)數(shù)量呈下降趨勢(shì)。
4.2 匹配度計(jì)算與分析
利用基于詞向量的匹配度模型計(jì)算政策與文獻(xiàn)的匹配度。結(jié)果如表1所示。
由表1可得:其一,5年來(lái),政策與文獻(xiàn)的語(yǔ)義匹配度呈現(xiàn)增長(zhǎng)趨勢(shì),說(shuō)明兩者的協(xié)同性持續(xù)增長(zhǎng),政策研究的引導(dǎo)作用及文獻(xiàn)研究對(duì)政策的支撐作用持續(xù)增強(qiáng)。其二,5年來(lái),政策與文獻(xiàn)的語(yǔ)義匹配度雖然呈現(xiàn)增長(zhǎng)趨勢(shì),但匹配度相對(duì)較小,說(shuō)明政策與文獻(xiàn)研究的差異性依然較大。
4.3 政策與文獻(xiàn)的熱點(diǎn)挖掘及差異性分析
由于政策和文獻(xiàn)關(guān)注點(diǎn)差異較大,歸納政策與文獻(xiàn)的熱點(diǎn)關(guān)鍵詞如表2所示。
基于此,將兩類文本的熱點(diǎn)詞匯可視化,得到圖2、圖3、圖4和圖5所示。
4.3.1 政策熱點(diǎn)變化分析
結(jié)合政策熱點(diǎn)詞頻統(tǒng)計(jì),得出政策持續(xù)關(guān)注點(diǎn)為城市建設(shè),此外科技、環(huán)境、交通協(xié)同發(fā)展等也是熱點(diǎn)。其中,城市建設(shè)一直是政策熱點(diǎn),2016年9月全國(guó)科技創(chuàng)新中心建設(shè)上升為國(guó)家戰(zhàn)略后,科技協(xié)同發(fā)展政策成為熱點(diǎn)。隨著大氣、污染等問(wèn)題的關(guān)注度上升,京津冀環(huán)境綜合治理也是京津冀政策熱點(diǎn),且關(guān)注度逐年上升。此外,京津冀交通一體化作為《京津冀協(xié)同發(fā)展規(guī)劃綱要》中的重點(diǎn)領(lǐng)域,交通問(wèn)題五年間三次成為政策熱點(diǎn)。
4.3.2 研究熱點(diǎn)變化分析
結(jié)合科學(xué)文獻(xiàn)熱點(diǎn)詞頻統(tǒng)計(jì),得出經(jīng)濟(jì)協(xié)同發(fā)展與產(chǎn)業(yè)轉(zhuǎn)移、環(huán)境、區(qū)域空間建設(shè)、協(xié)同創(chuàng)新是研究熱點(diǎn)。其中,經(jīng)濟(jì)協(xié)同發(fā)展與產(chǎn)業(yè)轉(zhuǎn)移領(lǐng)域主要包括經(jīng)濟(jì)、產(chǎn)業(yè)、城市等。《京津冀協(xié)同發(fā)展規(guī)劃綱要》指出要率先突破京津冀生態(tài)環(huán)境保護(hù)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)移等重點(diǎn)領(lǐng)域,因此近五年經(jīng)濟(jì)協(xié)同與產(chǎn)業(yè)轉(zhuǎn)移一直是首要熱點(diǎn),環(huán)境治理是第二關(guān)注點(diǎn)。其次,空間規(guī)劃作為實(shí)現(xiàn)可持續(xù)發(fā)展的必要手段和途徑,時(shí)空和空間熱度僅次于前兩大熱點(diǎn)。此外,科技創(chuàng)新也是研究熱點(diǎn)。
4.3.3 政策與文獻(xiàn)熱點(diǎn)共性分析
政策與科學(xué)研究共性熱點(diǎn)為京津冀城市建設(shè)問(wèn)題。其中,主要涵蓋京津冀資源分配、城市布局、空間結(jié)構(gòu)調(diào)整、緩解首都功能壓力、交通服務(wù)一體化等方面。此外環(huán)境問(wèn)題連續(xù)五年作為政策與文獻(xiàn)的熱點(diǎn)關(guān)鍵詞,其中,大氣污染持續(xù)受到學(xué)者關(guān)注,是環(huán)境保護(hù)中最亟待解決的問(wèn)題。
4.3.4 文獻(xiàn)、政策熱點(diǎn)差異性分析
政策關(guān)注科技與技術(shù)。“京津冀協(xié)同發(fā)展”提出之后,國(guó)家出臺(tái)多部科技、技術(shù)支持政策,以此激勵(lì)科技進(jìn)步、技術(shù)開(kāi)發(fā)與轉(zhuǎn)移,縮小京津冀三地的科技技術(shù)水平差距。學(xué)者更重視經(jīng)濟(jì)發(fā)展、協(xié)同創(chuàng)新以及區(qū)域空間產(chǎn)業(yè)轉(zhuǎn)移。
綜上所述,隨著政策的完善及研究的深入,熱點(diǎn)呈現(xiàn)多元化趨勢(shì),政策研究與科學(xué)探索的匹配性提高。
5 研究結(jié)論和不足
本文以維基百科、中國(guó)知網(wǎng)以及白鹿數(shù)據(jù)文本為語(yǔ)料庫(kù)訓(xùn)練詞向量模型,利用Word2Vec結(jié)合余弦相似度構(gòu)建政策與文獻(xiàn)文本語(yǔ)義匹配度模型,對(duì)政策與科學(xué)研究的契合度以及熱點(diǎn)變化進(jìn)行研究,得出結(jié)論:其一,政策與文獻(xiàn)匹配度穩(wěn)步提高,科學(xué)研究對(duì)政策制定的支撐作用增強(qiáng);其二,政策對(duì)科學(xué)研究有正向引導(dǎo)作用;其三,政策與文獻(xiàn)匹配度仍不夠高;其四,政策的四大熱點(diǎn)為城市建設(shè)、科技、環(huán)境、交通;研究的四大熱點(diǎn)為經(jīng)濟(jì)協(xié)同發(fā)展與產(chǎn)業(yè)轉(zhuǎn)移、環(huán)境、區(qū)域空間、創(chuàng)新,且五年間熱點(diǎn)變化不大;其五,學(xué)者和政策主要關(guān)注點(diǎn)相同,但次要關(guān)注點(diǎn)不同,導(dǎo)致政策匹配度不夠高。
基于上述結(jié)論,為提高政策與文獻(xiàn)匹配度水平,提出如下四點(diǎn)建議。
第一,挖掘政策需求熱點(diǎn),增強(qiáng)科學(xué)研究對(duì)政策制定的支撐作用。要深入研究京津冀協(xié)同發(fā)展政策,關(guān)注城市建設(shè)、區(qū)域環(huán)境、經(jīng)濟(jì)社會(huì)以及科技創(chuàng)新等領(lǐng)域的潛在問(wèn)題。
第二,增強(qiáng)政策制定引導(dǎo)科學(xué)研究的導(dǎo)向功能。將政策目標(biāo)細(xì)化,從而減小政策推行過(guò)程中熱點(diǎn)識(shí)別難度,提高政策導(dǎo)向功能。
第三,提高科學(xué)研究對(duì)政策制定的決策支持作用,科學(xué)探索一方面要解決科學(xué)難題,另一方面要面向現(xiàn)實(shí)問(wèn)題,因此應(yīng)用實(shí)踐類、案例研究類等問(wèn)題研究要提高政策建議的有效性和可操作性。
第四,提高政策與科學(xué)研究的動(dòng)態(tài)匹配性,要關(guān)注基于動(dòng)態(tài)視角分析的政策以及文獻(xiàn)研究的多維統(tǒng)計(jì)和熱點(diǎn)挖掘,剖析兩者之間的協(xié)同發(fā)展關(guān)系,以及相互作用。
本研究?jī)H采集了CNKI中收錄的文獻(xiàn),數(shù)據(jù)的局限性可能影響了分析的全面性。此外,分詞的準(zhǔn)確性會(huì)影響文本的量化分析。
參考文獻(xiàn):
[1]董微微.國(guó)內(nèi)京津冀協(xié)同發(fā)展研究熱點(diǎn)與趨勢(shì)[J].工業(yè)技術(shù)經(jīng)濟(jì),2015,34(8):134-138.
[2]黃萃,任弢,張劍.政策文獻(xiàn)量化研究:公共政策研究的新方向[J].公共管理學(xué)報(bào),2015,12(2):129-137,158-159.
[3]魏進(jìn)平,趙王英.基于文獻(xiàn)計(jì)量學(xué)方法的京津冀協(xié)同發(fā)展研究評(píng)述[J].河北工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016,8(3):11-18.
[4]陳辰,王璐,郝曉雪.基于詞頻統(tǒng)計(jì)與語(yǔ)義關(guān)聯(lián)的京津冀協(xié)同發(fā)展研究熱點(diǎn)與前沿監(jiān)測(cè)研究[J].河北科技圖苑,2018,31(1):91-96.
[5]王崇德.文獻(xiàn)計(jì)量學(xué)方法在制定科學(xué)政策中的應(yīng)用[J].圖書(shū)情報(bào)工作,1988(1):10-16.
[6]徐揚(yáng)輝.論社會(huì)科學(xué)研究方法在公共政策制定過(guò)程中的作用和意義[J].當(dāng)代經(jīng)濟(jì),2011(14):34-35.
[7]蔡圓媛,盧葦.基于低維語(yǔ)義向量模型的語(yǔ)義相似度度量[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2016,46(9):719-726.
[8]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of wordsand phrasesand their compositionality[J].Advancesin Neural Information Processing Systems,2013(26):3111-3119.
[9]崔曉蘭,蔡淑琴,馮進(jìn)展.基于本體的通信服務(wù)網(wǎng)絡(luò)抱怨案例相似度計(jì)算[J].系統(tǒng)工程理論與實(shí)踐,2017,37(6):1638-1647.
[10]何喜軍,馬珊,武玉英.基于本體和SAO結(jié)構(gòu)的線上技術(shù)供需信息語(yǔ)義匹配研究[J].情報(bào)科學(xué),2018,36(11):95-100.
[作者簡(jiǎn)介]劉璐( 1998—) ,女,北京人,北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,研究方向:數(shù)據(jù)挖掘; 余文斌(1998—),男,甘肅慶陽(yáng)人,北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,研究方向:軟件工程技術(shù); 李欣桐(1998—),女,北京人,北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,研究方向:信息計(jì)量; 趙毅(1998—),男,遼寧沈陽(yáng)人,北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,研究方向:數(shù)據(jù)挖掘; 何喜軍(1979—),女,河北文安人,北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,副研究員,博士,研究方向:數(shù)據(jù)挖掘與決策支持。