李海峰
(河北大學計算機教學部, 保定 071002)
京津冀協同發展上升為國家戰略,新聞媒體持續高度關注,積累了大量新聞報道網絡信息資源。隨著信息和媒體技術的快速發展,大規模新聞報道信息以文本方式存儲。大規模文本信息使得人們在信息處理和檢索上面臨前所未有的挑戰。為了深入理解京津冀協同發展新聞報道的整體概貌和主題分布,傳統的閱讀方法已經不能滿足獲取信息的需求。采用基于數據挖掘技術的自動化處理和組織方式,從大規模新聞集中開展主題發現和主題演化分析,為用戶提供新聞信息整合服務,對京津冀協同發展國家戰略的研究具有較高的理論價值和實踐意義。
話題檢測與跟蹤(topic detection and tracking,TDT)是一項針對新聞報道進行信息識別、挖掘和組織的研究,主要包括報道切分、話題關聯識別、新事件發現、話題追蹤、話題發現等[1]。隱含狄利克雷分布(latent Dirichlet allocation,LDA)為經典的主題模型方法,利用詞項在文檔層共現提取文本中的語義信息,即主題,同時將詞項矩陣轉化為主題矩陣[2]。時序信息是新聞文本的重要特征,將時態信息引入主題模型,從時間維度分析主題的新生、繼承、合并、分裂和消亡的演化過程,成為新聞文本挖掘的重要研究內容。Griffiths等[3]將時間信息引入主題模型,提出了話題演化模型理論。Wang等[4]提出了TOT(topic over time)模型,采用Beta分布對給定時間范圍內的文本主題強度變化進行建模,將文本、詞、時間三者相結合分析主題演化情況。Blei等[5]提出了動態主題模型(dynamic topic models, DTM),按照時間順序將新聞文本集劃分為若干個片段,每個片段按靜態模型的思路建模,最終形成主題隨時間的演化。王曰芬等[6]通過話題識別和主題關聯分析開展了新聞報道輿情評論在主題內容和時間階段上的異同。目前普遍認為LDA的最大問題是難于確定最優主題數目。
京津冀協同發展成為廣大研究機構和學者的重點研究對象,主要圍繞京津冀區域協同發展的體制機制改革、城市空間布局、產業轉移、交通一體化、生態環境協同治理等多個角度開展專題研究。為了全面了解京津冀協同發展的研究進展,孫威等[7]、李海峰等[8]、趙杰等[9]以中國知網期刊文獻為數據源,采用文獻計量學、共詞分析、概率主題模型等方法,對中國學者研究京津冀協同發展主題的內容、強度和趨勢等進行深入分析。丁曼旎等[10]以Web of Science為數據源,從英文期刊論文角度對京津冀地區的研究熱點演化知識圖譜進行了分析。吳蕓等[11]、魏巍[12]、李雪偉等[13]以京津冀協同發展政策文本為研究對象,采用政策工具和政策文本分析等方法,分析了京津冀協同發展治理模式的特征和形成過程。然而,面對新聞媒體對京津冀協同發展宣傳報道,鮮有學者圍繞新聞報道信息進行深入研究和分析。
基于此,采用數據挖掘方法開展京津冀協同發展新聞報道的研究是非常有必要的。以“京津冀協同發展”媒體報道的大規模新聞集為研究對象,采用改進的時序主題模型方法進行基于主題和子主題的主題發現、主題關聯和主題演化等方面的研究,挖掘出傳統閱讀方法難以獲取隱藏在大規模新聞集中的系統性知識和隱含知識。
基于時序主題關聯演化的新聞文本分析方法包括新聞文本獲取、數據預處理、主題提取、主題強度計算、主題關聯關系、主題演化分析等多個步驟。與傳統主題模型方法[9]相比,本文方法提出了全局主題與子主題、時序主題與子主題和時序主題之間關聯計算的主題關聯演化分析模式,其研究框架如圖1所示。

圖1 研究框架Fig.1 Researchframework
LDA是Blei等[14]在2003年提出的一種文檔概率主題模型。LDA主題模型是一種非監督機器學習方法,可以用來識別大規模文檔集或語料庫中潛在的主題信息。具體而言,LDA是三層貝葉斯概率模型,從低到高包含詞、主題和文檔三層次結構,其中,每個文檔表示潛在主題的混合分布,每個主題表示為固定單詞集上的概率分布。LDA主題模型描述如圖2所示,LDA模型中使用的符號如表1所示。

表1 LDA模型中使用的符號
圖2中,文檔是由單詞集w=(w1,w2,…,wn)構成的序列。語料庫是由一系列文檔D=(d1,d2,…,dm)組成。LDA的聯合概率分布表示為

(1)

表示文檔m中的第n個詞,是可觀測變量,為已知信息; 表示潛在變量,為未知信息;方框表示重復抽樣(用于參數估計); 箭頭表示變量間的條件依賴關系圖2 LDA模型Fig.2 LDA model
式(1)中:w為可觀測變量;θ和z為隱含變量;zn和wn分別為指定的主題和特征詞;α和β由最大期望算法(expectation-maximization algorithm, EM)得到[15]。
LDA主題模型采用困惑度(perplexity)作為評價模型好壞的標準,選取困惑度最小的模型確定最優主題數[14]。困惑度的計算公式為

(2)
式(2)中:測試集語料庫D中有M篇文檔;Nd為文檔d中的單詞個數;p(wd)為文檔d中詞wd產生的概率。
困惑度值一般隨著潛在主題數量的增加呈現遞減的規律,較小的困惑度值表示模型對新文本具有較好的預測能力,從而造成選取的主題數目往往較大,導致主題的辨識度不高。為了權衡模型的泛化能力和主題的抽取效果,采用基于困惑度和主題相似度相結合的評價指標(Perplexity-Var)來確定主題的最優數目[16]。
Perplexity-Var指標引入主題方差到潛在主題空間,用于衡量主題空間整體的差異性和穩定性,主題方差的計算公式為

(3)

當主題方差越大時,主題之間的差異性越大,主題之間的區分性越好,故將困惑度值和主題方差兩者結合起來,可以解決主題辨識度不高的問題。Perplexity-Var指標計算公式為

(4)
式(4)中: Perplexity(D)為數據集的困惑度,其值越小LDA的泛化能力好;Var(T)為數據集的主題方差,其值越大LDA主題抽取的效果越佳;Perplexity-Var指標越小是,對應的LDA主題模型最優。
主題演化過程需要考慮時間和內容兩大因素,既要實現時間上的延續和關聯,又要實現在內容上按主題進行分類識別。要實現上述功能,基于主題與子主題的關聯分析流程如圖3所示。

圖3 主題關聯分析流程Fig.3 Topic correlation analysis process
2.4.1 獲取主題和子主題
通過對整個語料庫計算Perplexity-Var指標值,獲取全局主題數K和子主題數k。采用LDA模型獲取整個語料庫的全局主題-主題詞概率分布Z和子主題-主題詞概率分布z,可分別表示為
Z={Z1,Z2,…,ZK}
(5)
Zi={(Wzi1,Pzi1),(Wzi2,Pzi2),…,(Wzin,Pzin)}
(6)
z={z1,z2,…,zk}
(7)
zi={(wzi1,pzi1),(wzi2,pzi2),…(wzin,pzin)}
(8)
式中:Zi為全局主題-主題詞概率分布;(Wzin,Pzin)為全局主題詞及其概率值;zi為子主題-主題詞的概率分布;(wzin,pzin)為子主題詞及其概率值,用于分析整個語料庫中主題分布情況。
按新聞報道時間劃分l個時間窗口,語料庫劃分為l個子集,通過對時間片內的語料庫子集計算Perplexity-Var指標值,獲取時間窗口內的時序主題數K和子主題數k。采用LDA模型分別獲取各個時間片內的時序主題Z′和子主題z′,可分別表示為
Z′l={Z′l1,Z′l2,…,Z′lK}
(9)
Z′li={(W′zi1,P′zi1),(Wzi2,Pzi2),…(W′zin,P′zin)}
(10)
z′l={z′l1,z′l2,…,z′lk}
(11)
z′li={(w′zi1,p′zi1),(w′zi2,p′zi2),…(w′zin,p′zin)}
(12)
式中:Z′l為l時間片時序主題-主題詞概率分布;z′l為l時間片子主題-主題詞的概率分布,用于分析l時間片語料的主題分布和時序主題間的關聯演化。
2.4.2 主題關聯關系計算
主題相關性判斷是進行主題演化分析的先決條件。通過計算某個時間片上時序主題與子主題的相似度,判斷主題內容的語義信息和子主題劃分;通過計算相鄰兩個時間片主題間的相似度,判斷相鄰時間片主題的演化路徑。采用JS散度計算主題間的相似度[17],其計算公式為

(13)

(14)
式中:KL(p‖q)為兩個概率分布p和q間的KL距離;xi為概率分布p和q中的第i個詞匯,兩個概率分布p和q中詞匯總數均是n;JS散度大小為0~1,其值越小,表明兩個主題越相似,主題關聯關系越緊密,將JS散度值小于0.5的值分為弱(0.5,0.35]、中(0.35,0.25]和強(0.25,0]這3個等級,判斷主題間的相關性[9]。
主要以國家圖書館慧科報刊數據庫中有關“京津冀協同發展”的新聞報道為數據源,從大眾媒體視角觀測京津冀協同發展新聞報道的主題分布及主題演化趨勢。以主題包含“京津冀協同發展”為檢索詞,設定時間2014年1月1日—2020年12月31日為檢索區間,進行精確檢索,獲取147 299篇新聞報道,信息包括新聞標題、報道時間、報紙名稱、新聞版面、全文內容等。
利用Python中的Jieba中文分詞工具對于 147 299 篇報道的新聞正文進行分詞處理。分詞工具中加入了京津冀協同發展領域的專業詞匯,確保分詞結果的合理性。利用中文分詞停用詞表,將分詞后的文本去除停用詞,最終形成用于統計分析和主題建模的語料庫。
3.2.1 時間趨勢分布
采用數理統計方法,中國主流報紙媒體關于京津冀協同發展報道數量的時間分布趨勢如圖4所示。

圖4 新聞報道年度分布Fig.4 Annual distribution of news coverage
京津冀協同發展于2014年2月上升為國家戰略,新聞報道數量發生了較為明顯的變化趨勢,始終保持主流報紙媒體高度關注度。2014年是京津冀協同發展上升為國家戰略元年,除了3月、4月和12月新聞報道量較多外,其他月份相應報道量較低;受北京行政副中心和設立河北雄安新區等重大政策深入推進落實的影響,2015年、2017年年度新聞報道量均接近30 000,達到高潮;隨著京津冀協同發展政策的穩步推進,2018年、2019年的新聞報道量趨于平穩;到2020年,隨著京津冀協同發展的深入落實,其新聞熱度逐漸降低,報紙新聞媒體對京津冀協同發展報道量出現明顯下降趨勢。通過新聞報道月度分布觀測,報道量最大的前3個月度分別是2017年4月、2015年7月和2014年12月。從新聞報道時間趨勢分布來看,主流報紙媒體對京津冀協同發展話題持續關注,經歷了快速提升(2014年)、持續高潮(2015—2017年)平穩發展(2018—2019年)和逐漸衰退(2020年)的演化過程。
3.2.2 報道來源分布
從媒體來源來看,147 299篇新聞報道來自中國638種報紙。依據文獻計量領域的布拉德福定律(law of Bradford)[18],對來源報紙進行統計分析,可以發現報道京津冀協同發展話題的核心報紙群,如表2所示。從報道來源的核心報紙看,報道京津冀協同發展的主流媒體是人民日報、中國新聞社等國家級媒體和京津冀三地的省級日報以及環北京周邊的河北省地級市日報,可以看出,京津冀地區的報紙是報道京津冀協同發展的主流報紙媒體。

表2 核心報紙和報道數量
3.3.1 全局主題分布和主題強度
根據LDA主題模型分析的一般步驟,分別設定了6~200個主題數,對整個語料庫的數據進行計算Perplexity-Var值,分別生成不同的主題分類組合,確定最優全局主題數17和子主題數90,能夠較好地反映出2014—2020年中國主流報紙媒體報道京津冀協同發展的主題分布總體情況。對全局主題相近的進行合并,取前15個高概率主題詞,其主題詞分布情況如表3所示。
通過LDA模型獲取文檔-主題概率分布θij,根據計算主題強度計算方法[8],利用所有文檔在某個主題上的概率分布值的平均值描述全局主題強度,如圖5所示。
通過主題分布和主題強度觀測,主流報紙媒體報道京津冀協同發展的主題大體分為以下四類。
(1)圍繞學習貫徹落實黨中央推進京津冀協同發展精神的重要報道,如主題類1所示。各級政府、部門和組織通過會議、講話、報告、學習教育等多種方式落實京津冀協同發展國家戰略;其主題類強度最高,體現了報紙媒體對國家大政方針和社會重點問題的宣傳報道和積極引導作用。
(2)圍繞京津冀區域交通、產業、生態重點領域率先突破的重要報道,如主題類2、主題類4、主題類6、主題類10所示。國家和京津冀“三地四方”著力推動網絡化布局、智能化管理、一體化服務,構建安全可靠、便捷高效、經濟實用、綠色環保的綜合交通運輸體系;著力推進綠色循環低碳發展,加強生態環境保護,發揮重點治理工程帶動作用,節約集約利用資源,形成區域良好生態格局;著力實施創新驅動發展戰略,建設北京行政副中心和河北雄安新區,促進產業有序轉移承接,推動產業結構調整優化升級。尤其是天津自貿區建設,構建京津冀國際貿易大通道,服務京津冀企業國際化經營,服務京津冀高質量發展,成為報紙媒體重點關注的領域。
(3)圍繞京津冀區域市場要素的重要報道,如主題類3、主題類5、主題類8、主題類9所示。市場一體化是京津冀協同發展的核心內容,市場資源的統一配置是激發區域經濟發展活力的根本保障,資金、科技、信息、土地、人才、教育等市場要素自由流動成為制約京津冀協同發展推進的重要因素。通過報紙媒體報道的宣傳和引導,京津冀政府間應建立統一的市場法規和市場監管制度,企業間應加強市場聯合聯盟和市場供需合作,保證市場要素合理流動,共同推動區域統一市場的形成。
(4)圍繞京津冀文化旅游協同發展的重要報道,如主題類7所示。文化旅游產業是帶動京津冀區域經濟社會健康發展的有效路徑。京津冀地緣相接,歷史相通,區域文化資源一脈相承,呈現出集群化的特征。通過主題類7主題詞來看,依托冬奧會的冰雪游和體育游、依托旅游小鎮的休閑游和農村游、依托區域特色文化游等特色文化旅游整合,進一步提升文化與旅游的深度融合,推進京津冀文化旅游協同發展。
基于LDA主題建模,從全局和按時間片兩個層面對新聞報道進行主題提取,計算全局主題與子主題、時序主題與子主題、時序主題和時序主題之間的相似度,進而確定主題的演化趨勢。以全局主題Topic13“京津冀文旅產業協同發展”主題為例,開展主題關聯演化分析。
3.4.1 主題與子主題關聯關系
(1)全局主題與子主題。根據全局主題-主題詞概率分布Z和子主題-主題詞概率分布z,采用JS散度計算主題間的相似度,獲得主題相似度矩陣Smn,如表4所示。根據2.4節主題關聯強度計算方法,設定主題相似度閾值,獲取全局主題的關聯子主題。以全局主題“京津冀文旅產業協同發展”為例,其子主題及前15個高概率主題詞分布如表5所示。
結合新聞報道時間信息,按年度劃分為2014—2020年7個時間片。對每個時間片內的新聞文本進行主題建模,獲的時序主題和子主題。采用JS散度計算相鄰時間片時序主題間的相似度和時間片內時序主題與子主題相似度,分別獲得時序主題間的相似度矩陣和時序主題與子主題的相似度矩陣。以全局主題“京津冀文旅產業協同發展”為例,其在不同時間片上的時序主題和時間片上子主題的前15個高概率主題詞分布如表6所示。
3.4.2 主題關聯與演化分析
文化旅游產業建設是京津冀協同發展的重要抓手,也是新聞媒體宣傳報道京津冀協同發展的重點領域。以“京津冀文旅產業協同發展”主題為例,開展主題關聯和演化分析。
(1)整體分析。通過全局主題與子主題關聯關系和前15個高概率主題詞(表5)觀測,從整體來看京津冀三地合理規劃區域文化旅游空間布局,打造文化旅游特色產業,發展集鄉村休閑旅游、景區生態旅游、冰雪體育旅游、休閑購物旅游、濱海休閑旅游和歷史文化古跡旅游等為一體的大旅游產業,全面提升京津冀區域旅游基礎設施和公共服務水平,培育區域旅游品牌,實現合作項目共建共享。
(2)局部分析。通過時序主題關聯關系和前15個高概率主題詞(表6)觀測,2014—2017年京津冀文化旅游產業與生態環境、城市規劃等聯系較為緊密,而到2018—2020年則演變成與區域交通一體化、北京冬奧會等主題關聯更加密切。通過時間片內子主題主題詞分布觀測,進行如下分析。

表6 時序主題與子主題的關聯關系(2014—2020)
一是京津冀生態環境的改善提升文化旅游產業品質。文化、旅游、生態有著密不可分的聯系,生態環境與文化旅游產業互相依存、互動發展。京津冀協同發展上升為國家戰略初期,京津冀區域生態環境破壞較為嚴重,尤其是大氣污染、水資源惡化更為突出。從2014—2017年4個時間片主題分布看,京津冀三地重點優先開展生態環境綜合治理,促進了區域文化旅游產業的快速發展,實現了生態環境與文化旅游的深度融合。
二是京津冀交通一體化帶動文化旅游產業快速發展。從2018—2020年3個時間片主題分布看,文化旅游產業與交通一體化關聯更加緊密。發展交通是旅游業壯大的先決條件,“十三五”期間大興國際機場的建成,加速了京津冀區域和全世界的連接;京張高鐵、京雄高鐵等骨干城際鐵路的啟用,環首都一小時交通圈逐步擴大;多條高速貫通,促進京津冀三地人流、物流、信息流的流動;京津冀區域公交省際化、省際公交化實現了城鄉、景區、場館之間的互聯互通。可見,交通先行戰略為區域文化旅游一體化由藍圖變為現實提供了最強有力的支撐。
三是聚焦重大戰略任務協同推進文化旅游實現新突破。從2014—2020年各個時間片子主題分布看,冬奧會、大運河、長城等成為文化旅游產業發展的熱門詞匯。以2022年冬奧會為契機,充分發揮京北水源涵養功能區、生態環境支撐區的作用,建設以冰雪運動基地、滑雪度假小鎮為支撐的冰雪主題旅游度假區,推動區域文化旅游產業邁出新步伐。區域協同推動長城、大運河國家文化公園建設,深入挖掘長城、大運河歷史文化資源,整合旅游觀光線路,提升區域文化旅游產業品質。
通過與2020—2021年發布的“京津冀文化和旅游協同發展工作要點”進行比較,采用的基于時序主題關聯演化的報紙新聞文本分析結果與政府制定的相關政策的主要內容相吻合,進一步驗證了方法的有效性。
以2014—2020年中國主流報紙媒體有關京津冀協同發展的147 299篇新聞文本為研究對象,采用數理統計、文獻計量和基于時序主題關聯關系演化等研究方法進行數據分析,得到如下結論。
(1)京津冀協同發展上升為國家戰略以來,中國主流報紙媒體圍繞京津冀協同發展的報道,按時間趨勢劃分為快速提升(2014)、持續高潮期(2015—2017)、平穩發展(2018—2019)和逐步衰退(2020年)4個階段,并依據文獻計量領域的布拉德福定律確定了報道京津冀協同發展領域的核心報紙群。
(2)基于LDA主題建模,采用基于困惑度和主題相似度相結合的指標確定主題的最優數目,挖掘京津冀協同發展主流報紙媒體報道的十大主題類分布,計算出各主題類的主題強度,通過主題詞分布對主題類進行了分類分析。
(3)采用基于時序主題關聯演化分析方法,按年度劃分時間片,獲取時序主題和子主題的關聯關系。以“京津冀文旅產業協同發展”主題為例,通過全局主題、時序主題與子主題的關聯關系,對文化旅游產業的主題演化關系進行了分析,進而驗證了所采用信息分析方法的有效性。
綜上所述,研究結果對深化國家戰略政策新聞文本內容分析、把握政策事件發展的特點與規律,對于政府決策和管理,提供理論參考和依據。重點圍繞“京津冀文旅產業協同發展”主題開展了主題內容和演化分析,在后續的工作中還需要開展其他主題的深入研究。