段長宇,胡裕民,趙志杰,李曉亮
(1.北京大學環境科學與工程學院,北京 100871;2.生態環境部環境規劃院,北京 100012)
隨著互聯網的普及化,環境信息頻繁出現于網絡新聞報道和社交平臺,形成了大量與環境相關的互聯網信息文本。這些文本包含了地區環境質量、環境表現等信息,屬于一類重要的生態環境大數據[1]。利用互聯網環境傳播文本評價地區的環境表現,有助于認知當地的環境問題,推進城市的環境管理工作和可持續發展[2]。
與環境監測數據不同,互聯網傳播文本結構多樣、內容復雜,收集和處理方法比較依賴于計算機文本處理技術,即自然語言處理技術(natural language progressing,NLP)。自然語言處理指的是計算機批量處理文本的方法,其本質與人類對文本的閱讀、統計和分析相同,被廣泛地運用到機器翻譯、語音協助和文本識別等領域。自然語言處理技術的興起,使網絡文本處理的效率和精度大幅提升。
互聯網傳播文本形式多樣,包括社交媒體討論和環境新聞等,研究選取互聯網環境新聞作為研究對象。環境新聞也稱為環境報道,其定義并不明確??傮w而言,環境新聞可以看作是一種傳遞環境信息,反映環境問題的新聞報道。針對網絡環境新聞的研究集中于環境新聞的發展歷程[3]、環境新聞的分類框架以及環境傳播中特定媒體的表現作用[4]。除此之外,與地區相關的環境新聞,包含該地區的環境信息,可以用來分析特定主體的環境形象[5]。此類研究尚處于起步階段,相關研究分別針對省級區域[6]、政府主體以及國家層面進行了概念闡述和探討[7-8]。
本文從互聯網新聞文本出發,基于自然語言處理技術,構建地區環境形象評價方法,并針對長三角地區的環境新聞,探討方法的可行性。研究還根據互聯網環境文本的特點,梳理分析了地區環境形象的整體特征,建立了環境領域的特有語料庫和評價指標,為文本類型的生態環境大數據處理提供一定參考。
環境形象指的是某一主體在環境領域對公眾產生的印象,是該主體環境行為的外在表現。以地區為例,環境形象代表了地區在環境領域的發展狀況,包括該地區的重點環境問題、突出的環境事件以及公眾對該地區的環境評價。
環境形象評價方法的研究路線見圖1。第一步,利用網絡爬蟲從互聯網獲取與環境相關的網絡文本,清洗、過濾無關部分,剩余的環境文本主要包括該地區的環境新聞和社交媒體討論等。第二步,采用專家評測的方式,劃分環境評價的維度。將訓練文本人工標簽,構建標準的分析語料庫。第三步,基于構建的環境形象語料庫,采用支持向量機(SVM)、樸素貝葉斯(BAYES)和卷積神經網絡(CNN)3種算法,調整語料數量和訓練模式,優化評價模型。第四步,利用測試文本檢測不同環境評價模型的效果,最終構建環境形象評價方法。
環境形象具有不同維度,與環境新聞的結構和環境領域的特點相關。互聯網環境新聞分布廣泛、數量巨大,包含公眾的情感傾向。在傳播的過程中,環境新聞還產生了轉載、發布時間以及傳播鏈等信息。環境新聞的內容一般會涉及明顯的環境要素,如水環境、大氣、土壤、固體廢物、重金屬等。環境新聞在來源上也具有一定差異,主要的來源包括:新聞門戶網站、政府公告和通報以及企業的環保宣傳等。
根據環境新聞的特點和地區環境分析的需要,研究從3 個維度對環境新聞進行標簽,分別是環境新聞包含的環境要素、新聞表現出的情感傾向以及環境新聞本身的文體來源。按照文本涉及的環境要素,新聞文本分為6 類標簽,包括水、空氣、土壤、廢物、生物和噪聲。按照新聞的具體來源,新聞文本分為5 類標簽,包括公司廣告、環境質量公開、一般環境新聞、政府公告和其他。其基本內容和來源如表1 所示。
按照文本內容包含的情感傾向,環境新聞分為5 個等級,程度從負面到正面依次增加,分別為“非常負面”“較為負面”“無明顯傾向”“較為正面”和“非常正面”,其典型內容和代表詞匯如表2 所示。

表2 情感傾向
機器學習和深度學習技術在文本挖掘領域應用廣泛,常用的算法包括樸素貝葉斯、卷積神經網絡和支持向量機等[9]。在環境研究領域,互聯網環境文本格式不統一,內容復雜。文本內容經常表現為社會-環境復合類型,處理難度較大。環境領域的研究主要利用文本分類和情感分析手段處理互聯網環境文本,挖掘其內在信息,從而推進環境管理工作??傮w而言,環境文本的處理分析主要包含以下5 個研究方向:(1)環境管理政策的研究和優化。在企業環境表現和環境績效評價上,通過詞義分析,可從文本中挖掘新的評價指標[10],從而優化傳統的環境評價方法[11]。(2)環境事件的傳播規律和應對策略。與環境領域相關的輿情包含大量的情緒信息,利用自然語言處理技術,可以快速分析公眾對環境事件的反映[12],更好地解決社會發展與環境保護之間的沖突[13]。互聯網環境討論文本在經過情感分析和時空統計后,可以揭示公眾對環境事件(霧霾天氣)的關注程度與時間響應狀態,有助于政府了解公眾情緒,應對環境危機[14]。(3)利用社交媒體信息預警和報告環境公共事件。2011 年,有研究者提出將互聯網討論作為新型傳感器的方法和概念,用以及時發現和報告自然災害[15]。此后,相關概念和研究框架逐漸明晰,網絡社交媒體討論也被廣泛地應用到多個環境場景識別領域[16]。此類研究主要集中于環境突發事件的管理,包括地震發生時震源和程度的識別[17]、山火的監測和預警[18]、洪澇災害強度的報告等[19]。(4)通過社交媒體促進公眾環保行動[20]。社交媒體上存在大量與環境政策相關的討論。這些文本包含了公眾對環境政策的態度和認知情況。基于這類環境文本,可以調查公眾對生物防治政策的支持度[21]、公眾對氣候變化狀況的認同感以及氣候變化在社交輿情上的傳播路徑和情感表現[22-24]。(5)補充傳統的環境質量監測手段[25]。環境空氣質量的變化會在互聯網上引發討論。許多研究基于社交媒體上與天氣相關的討論文本,結合空氣質量監測數據,建立響應模型,從而對地區的空氣環境質量進行實時推算[26],類似研究已經在推特以及新浪微博等社交媒體上得到驗證[27-28]。
1.3.1 監督式學習算法
研究采用監督式學習算法構建文本分類和情感分析模型。文本分詞算法選用結巴(JIEBA)分詞,計算詞頻權重時采用詞頻-逆文檔頻次算法(term frequency-inverse document frequency,TF-IDF)。詞頻-逆文檔頻次算法是一種基于統計的詞意權重計算方法。詞頻(TF)用于衡量詞匯出現的頻次,即一個詞在所有文檔中出現的次數,見式(1)。逆文檔頻率(IDF)用于衡量詞匯的特異性,即該詞匯在不同文檔中頻次的分布情況。當一個詞在特定文檔中出現的頻次遠高于在所有文檔中的出現頻次,其對文檔的區分度越好,見式(2)。TF-IDF值即兩者的乘積,見式(3)。

在訓練分類模型時,采用3 種算法:支持向量機、樸素貝葉斯和卷積神經網絡。對比3 種不同的分類算法,生成最優分析模型。支持向量機(support vector machine,SVM)是一種在機器學習中應用廣泛的分類算法。在自然語言處理中,文本在分詞后可以建立特征的詞向量集合。支持向量機通過建立最大間隔超平面,對數據集合進行分類。樸素貝葉斯(naive Bayesian,BAYES)是基于貝葉斯定理和特征條件獨立假設的分類方法。其分類模式也建立在訓練集合的基礎上?;谖谋痉衷~后生成的特征關鍵詞,求算特征詞條件聯合分布的概率,通過貝葉斯定理推算概率最大的輸出,即分類結果。卷積神經網絡(convolutional neural network,CNN)是一種深度學習算法,其基本單元為人工神經元,通常由輸入層、卷積層、池化層、全連接層和輸出層組成,在情感分析領域應用廣泛[29]。本文在構建CNN 算法時,設置卷積核數目為256,卷積核尺寸為5,每批次訓練抽取的文本數目為64 個,總訓練次數為100 次。
1.3.2 精度檢驗指標
在文本分類中,用于評價的指標一般有精確率(Precision,P)、召回率(Recall,R)以及其調和平均值(F1-score),即PRF 值。精確率P是指分類為真的樣本占總樣本的比例,用于衡量分類的準確度,計算方法見式(4);召回率R是指分類為真的樣本占所有真實樣本的比例,用于衡量分類的覆蓋程度,計算方法見式(5)。F1 值為準確率和召回率的調和平均值,用于衡量分類方法的整體效果,計算方法見式(6)。其中,TP 指的是分類為真且實際為真的樣本個數,FP 指的是分類為真但實際為假的樣本個數,FN 指的是分類為假但實際為真的樣本個數,TN 指的是分類為假且實際為假的樣本個數。

評價多分類模型的效果一般采用微平均值(micro F1-score)。微平均值計算每個分類子類的TP、FP、TN 和FN,然后按照二分類問題的統一計算PRF 值。環境形象評價方法有3 種分類維度:文本來源、環境要素和情感極性。這3 種分類均為多分類問題,即一種分類下存在兩個以上的類別。因此,環境形象評價方法采取微平均值(micro F1-score)作為評價指標。
監督式學習的算法需要構建標準語料庫。本文根據環境領域的特點對語料分類和編碼,生成環境特有語料庫。語料庫的構建流程如下:收集環境語料,導入分類系統,人工篩選和編碼;分類原則保持一致,分類類別包括環境新聞的文體來源、涉及的環境要素以及情感傾向;分類遵循相互對照的原則,編碼結束后對語料庫進行信度檢驗,分類一致的語料作為標準的環境語料庫,語料庫數量見表3。

表3 環境語料庫數量 單位:條
模型的優化從3 個角度展開,一是選取最優的分類算法,二是確定合適的訓練集規模,三是調整環境形象分類類別。
為考察各模型在不同訓練語料數量下的性能表現,進行20 組試驗,每次從標準語料庫中隨機抽出100、200、300 1 900、2 000 條訓練語料構成訓練集,從訓練語料之外抽取100 條語料構成測試集。每組實驗進行10 次,取其結果的平均值作為最終結果。
3 種算法在不同訓練語料數量下的微平均值(F1值)如圖2 所示。在文體來源的分類上,隨著訓練語料數量的增加,3 種方法的分類效果均會在開始提高,后趨于穩定。當語料數量大于500 條時,樸素貝葉斯的分類效果不再提升;當語料數量大于700條時,卷積神經網絡和支持向量機的分類效果逐漸穩定;支持向量機算法的表現最好,F1 值可達0.90,卷積神經網絡算法其次,F1 值可達0.88,樸素貝葉斯算法最差,F1 值則穩定在0.85 左右。
在情感極性上,隨著訓練語料數量的增加,3種算法的F1 值均會在開始時升高。當訓練語料數量超過1 600 條時,3 種算法模型的F1 值趨于穩定,支持向量機和卷積神經網絡算法的F1 值均在0.75以上,樸素貝葉斯算法的F1 值遠低于支持向量機和卷積神經網絡,在0.65 左右。在環境要素的分類上,隨著語料數量的增加,支持向量機和卷積神經網絡算法的F1 值均先升高,后趨于穩定。當語料數量大于1 200 條時,這兩種算法的F1 值不再升高,穩定在0.68 左右;而樸素貝葉斯的分類效果隨語料數量增加提升并不明顯,分類效果也較差,F1 值在0.64左右。

圖2 不同語料規模下分類模型的F1 值
方法利用文本分類和情感分析等自然語言處理技術分析互聯網環境文本,生成特定的環境標簽。分類數目也會對模型的效果產生影響。為考察環境維度劃分的合理性,研究對情感分析和環境要素的分類進行了調整和測試。
在情感極性的分類上,合并“負面”“較為負面”類型,“正面”“較為正面”類型,分類數目從5類變為3 類,調整規則后情感極性共分為“負面”“中性”和“正面”3 種類型。選取2 000 條訓練語料測試分類調整后的模型效果。如圖3 所示,在調整分類規則后,3 種方法的分類效果都有明顯提升,微平均值在調整后提高了0.1 左右。

圖3 調整情感極性分類后模型的F1 值
在環境要素的分類上,原有的分類模式為多分類,將環境文本劃分為水、大氣、土壤等6 個類別,模型分類時只對文本生成一個標簽。不同類別的語料之間存在重合,多分類的效果較差,微平均值在0.7左右。因此,環境要素的分類更改為二分類的方式,即按照是否含有某一環境要素對環境文本進行分類。測試結果如圖4 所示,二分類模型具有較高的微平均值,模型效果更好。訓練語料數量超過500 條時,F1 值逐漸趨于穩定。在土壤、聲、生物這3 種要素的識別上,模型的微平均值可達0.90。在廢物、水環境、空氣這3 種要素的識別上,模型的微平均值也均在0.80 以上。

圖4 環境要素在二分類模式下的F1 值
從分類效果上看,樸素貝葉斯的微平均值明顯低于其他兩種算法。而在處理時間上,卷積神經網絡算法的效率最高。因此,評價方法選取卷積神經網絡作為模型構建的內在算法。在分類框架上,環境要素的二分類以及文體來源的多分類效果較好,微平均值隨著語料數目的增加趨于穩定。因此,在環境要素的分類上,采用二分類的方式進行模型訓練。在情感分析上,不同分類的微平均值隨著訓練語料的增加逐漸提高。因此,情感分析模型采用3種分類類別(正面、負面、中性)。模型構建時的訓練語料數量為2 000 條。
最終得到的環境形象評價流程如圖5 所示。環境要素分類模型的微平均值在0.80 到0.90 之間,情感分析模型的微平均值在0.80 以上,文體來源分類模型的微平均值在0.90 左右,分類的效果較好,基本滿足地區形象評價的要求。

圖5 基于互聯網傳播文本的環境形象評價流程
方法可以對地區的環境新聞進行分類處理和情感分析。依托計算機自然語言處理技術,方法可以快速分析互聯網生態環境大數據,實時動態地展現地區的環境形象,為地區的環境管理提供科學化支持。為驗證方法的可行性,研究搜集了長三角地區各城市的環境新聞,對不同城市的環境形象進行評估。長三角各地區的環境新聞主要來自于網絡爬取,基于的網頁平臺為百度搜索。通過設置關鍵詞的形式,網絡爬蟲逐日搜索環境新聞,經過篩選后存儲至服務器。存儲的文本信息包括新聞標題、新聞內容、新聞的產生時間和獲取時間以及該新聞所屬的地區。
環境新聞的檢索時間為2017 年1 月至2020 年12 月,來源網站主要包括人民網、新浪網、鳳凰新聞等。長三角地區的環境新聞共計733 393 條,其中上海市30 247 條,江蘇省257 910 條,浙江省247 602 條,安徽省197 634 條。方法對環境新聞進行文本分類和情感分析,得到了地區關注的環境要素和環境情感形象。如圖6 所示,各省市關注的環境要素主要集中在“水環境”“空氣”以及“廢物”這3 類。其中,上海市涉及“廢物”的環境新聞占比相對較高。這說明上海市的環境輿情對垃圾分類政策十分關注,反映了上海市在垃圾分類工作上的開展狀況。

圖6 長三角省市各要素新聞數量占比
長三角地區城市的環境形象以正面為主,負面新聞在數量上占比相對較低。但負面新聞包含的環境信息更具代表性,更能反映地區的環境討論熱點。因此,基于2017 年至2020 年長三角地區的互聯網輿情,研究統計了長三角各城市的負面環境新聞占比,以此反映不同地區的環境形象。長三角地區的負面環境新聞平均占比為10%,不同城市之間差異較大,總體占比在3%至20%之間(見圖7)。環境形象較好的城市包括湖州市、南京市、黃山市、舟山市、嘉興市和上海市,負面新聞占比均低于6%。而環境形象較差的城市包括鹽城市、溫州市、淮南市,負面新聞占比均高于15%。環境污染事件和環保督察政策對城市的環境形象影響很大。鹽城市的負面環境形象主要來自于響水企業爆炸事故和輝豐公司的污染報道。溫州市的負面環境形象主要來自于中央生態環境保護督察組的問責和通報?;茨鲜械呢撁姝h境形象則主要來自于重污染天氣相關報道以及環保督察的整改通知。

表4 長三角城市負面環境新聞占比
針對環境文本的內容,方法還可以進行關鍵詞分析和熱點輿情提取。如圖7 所示,環境詞云圖展示了地區的熱點環境問題。巢湖市的環境熱點討論包含“污水”“濕地”“流域”等關鍵詞,黃山市的環境熱點討論包含“垃圾”“太平湖”等關鍵詞。

圖7 黃山市和巢湖市環境詞云
不同地區的討論主題存在城鄉差異。以安徽省合肥市為例,中心城區包括廬陽區、瑤海區、包河區、蜀山區等,周邊縣城包括長豐縣、肥東縣、肥西縣等。在環境形象關鍵詞上,中心城區集中出現“垃圾”“分類”等關鍵詞,而周邊農村地區則集中出現“水污染”“臭水河”以及“生態治理”等關鍵詞(見表5)。

表5 合肥市各區縣的環境形象關鍵詞
(1)互聯網環境傳播文本包含了地區環境領域的相關信息。利用自然語言處理技術,構建地區環境傳播大數據的處理方法,對地區環境新聞進行文本挖掘,可以用于評價地區的環境形象,識別地區的環境問題。
(2)環境形象分析方法采用有監督式分類算法,能快速處理和分析地區環境文本大數據,實現生態環境大數據的信息挖掘與應用。
(3)環境形象評價模型主要采用卷積神經網絡算法處理環境文本。文本分類模型和情感分析模型的微平均值在0.7~0.9 之間。
(4)方法評價了長三角地區各城市的環境形象,驗證了其實際運用的可行性。長三角地區的環境形象整體呈正面,不同地區在環境討論主題和環境要素分布上有一定差異。
(5)方法利用文本分類和情感分析手段,處理分析地區環境傳播大數據,監控地區環境輿情,評價地區環境形象,有助于地區環境管理和決策的科學化。