(福建師范大學公共管理學院,福建 福州 350117)
公民對公共服務的滿意程度與國家的穩定、發展、繁榮息息相關,公民對政府市場監管領域的滿意程度是衡量政府工作績效的重要指標之一。隨著大數據電子信息技術的發展,運用傳統社會調查研究的方法不再是探究民眾對市場監管類問題滿意度的最有效方法。傳統社會調查研究方法存在成本高、耗時長、及時性差等問題,已逐漸無法滿足研究者們使用最低成本,完成最有效研究的要求。近年來,政府部門著手運用電子計算機技術管理行政事務,電子政務應運而生。站在新的歷史起點上推進電子政務的發展,是落實“網絡強國”戰略,建設“數字中國”的重要方式,是貫徹以人民為中心的發展思想,讓群眾共享互聯網發展成果的重要內容,是讓信息化推進國家治理體系和治理能力現代化的重要途徑[1]。地方政府開發屬于各自管轄區域的應用軟件和網站,建立政府信息開放平臺和便民服務平臺。運用互聯網實現政府信息公開既提升了群眾對行政監督的參與度,也為中國發展服務型政府提供了更為有效的途徑。政府數據開放平臺上的群眾投訴意見,是用于衡量政府績效的重要數據。用大數據研究方法,爬取網站投訴信息進行分析處理,可得到群眾對政府工作的滿意程度,是政府績效評估的新方式。目前,福州市已進行市場監管綜合執法體制改革,將原來的質監局、工商局、食藥局“三合一”組建了新的市場監管局,為福州樹立了整體市場監管的概念[2]。
本文擬采用情感分析的方法,使用具有典型性的福州市“12345”便民服務平臺中的投訴信息,對平臺中民眾關于市場監管類的投訴運用大數據技術進行分析,追蹤民眾對市場監管相關部門的滿意度變化情況。
目前國內外將情感分析法運用于政府大數據的研究較少,但學界關于市場監管、情感分析的相關文章為研究提供了參考。
在地方政府市場監管部門績效管理中,蘇州市姑蘇區市場監管局制定了績效管理考核辦法和實施細則來實現績效評估[3],徐鳴通過構建監管績效評價體系來衡量市場監管的成效[4],劉鵬則利用平衡計分卡理論模型構建了全面的省級政府食品安全監管績效評價指標體系[5]。對于公眾滿意度研究,王建華等采用實地調研的方式收集群眾對食品安全總體狀況的評價,為食品安全監管提供政策依據[6];盛明科等通過構建適合中國國情的政府服務公眾滿意度(CPSI)測評模型,對我國政府服務的公眾滿意度進行測評[7]。
大數據是市場監管主力軍的“重武器”,亦是市場監管現代化的“強支撐”[8]。在當今信息化高速發展的時代,研究市場監管,離不開大數據的支持。而前人的研究中,還沒有學者將情感分析法運用于地方政府市場監管領域,采用情感分析法,進行大數據分析,充分利用大數據中包含的情感傾向信息,分析公眾滿意度,完善了市場監管部門的績效評價體系,彌補了相關研究空白。
情感分析法吸引了國內外眾多學者對其適用性和方法完善進行研究。關于情感分析方法完善,國外學者V.Hatzivassiloglou等建立詞匯級情感字典,在此基礎上進行情感分析,使分析結果準確率高達82%[9]。而S.Archana等在WordNet的基礎上,建立了適用于學術文章的情感詞典,以文章的積極性、消極性、中立性為標準進行情感傾向分析[10],使情感分析更加具有針對性。除完善方法本身外,學者們也對情感分析法的適用性進行了探索。Lu等使用情感分析法探究美國在埃博拉病毒流行期間,網絡用戶在互聯網上的積極與消極評論的變化趨勢[11],此外,也有學者將情感分析運用于服務質量評估,如Kiljae Lee等通過分析用戶的在線評價數據來評估機場服務質量[12]。
情感分析法在國內被用于各個領域的研究中。在經濟領域,郭博等運用情感分析研究電商平臺的評論來分析用戶購買體驗感及市場傾向[13],劉苗等用情感分析法構建消費情感指數[14]。在新媒體領域,敦欣卉等研究了基于微博的細粒度情感分析[15],有助于群眾獲取熱門話題,也有助于輿情的監控。同樣研究網絡輿情的還有蔣知義等,他們用“羅一笑”事件相關微博數據進行情感演化特征研究,揭示了輿情演化各階段的特征與規律[16]。
近年來,隨著計算機網絡和大數據技術的普及,互聯網上的信息已形成巨大的數據庫,如何運用這些龐大的數據分析問題成為學者們逐漸關注的問題。此時,人工分析已無法滿足海量信息計算的需求,基于大數據技術的文本情感分析應運而生。例如,馬寶君等利用網絡平臺公眾反饋的大數據研究公共服務效能與成本之間的關系,進而探究影響公共服務效能的因素[17]。目前有關公共服務領域情感分析的研究不多,以上研究給本文提供了參考,但都沒有將情感分析技術運用于地方政府市場監管質量監測研究中。為彌補這一不足,本文使用來自福州市“12345”便民服務平臺的數據,對平臺投訴信息進行情感分析,得到群眾在各區域、各時段對市場監管類公共服務的滿意度情況,為政府績效考核提供科學的數據支撐。
文本情感分析又稱意見挖掘,是指通過計算機技術對文本的主客觀性、觀點、情緒、極性的挖掘和分析,對文本的情感傾向做出分類判斷[18]。情感分析(sentiment analysis)技術,是一種基于大數據的自然語言處理(簡稱NLP)技術,可從投訴文本中提取有效情感信息,對文本類的語言進行情感傾向判斷,從而把握文本意見觀點、態度,為網絡輿情監控、預測潛在民生問題提供科學的決策依據[19-20]。情感分析法主要分為三大類:基于情感詞典的情感分析方法、基于機器學習的情感分析方法和二者混合使用的情感分析方法。情感分析的主要流程包括數據挖掘、數據處理、情感分析。近年來,大數據技術不斷發展,情感分析法開始被廣泛用于大數據研究中。基于大數據的情感分析法可通過分析含有情感傾向的文本,獲取該文本的情感分值,為科學研究提供參考依據。研究運用情感分析法中基于情感詞典的分析方法,獲取政府績效信息,通過分析公眾訴求內容計算情感得分,從而判斷句子的情感傾向,可為公共服務滿意度評估提供數據支持,是政府績效信息獲取的新途徑。
3.2.1 爬蟲代碼編寫及數據處理
針對獲取政府績效信息的具體訴求內容與數據分布情況,利用Python語言進行編程,完成爬蟲代碼編寫,抓取需要分析的數據。政府績效信息主要從大眾投訴信息中分析獲取,數據質量參差不齊,容易影響情感分析結果,故需對獲取的投訴數據進行必要處理。數據清理規則是:①刪除數據中內容為亂碼的無效數據;②刪除數據中出現的非法字符。
3.2.2 獲取政府績效信息的情感分析具體步驟
①基于語義傾向性的情感分析,主要依賴于情感詞典。因此,需提前對獲取的數據進行分詞處理。由于Python語言的分詞包結巴(jieba)的詞匯量大、處理速度快、分詞準確、支持用戶的詞典,適合用于政府績效信息的獲取,故研究采用結巴(jieba)作為中文分詞工具。分詞是指在停用詞表的基礎上利用結巴(jieba)分詞對數據文本進行去除停用詞操作,以便后續使用情感詞典進行數據分析。
②調用中文停用詞詞典去除數據中的停用詞,可提高數據的可分析性。停用詞包括符號,如“,”“#”“:”等,還包括無情感傾向性的詞語,如“一個”“中間”“主要”“之所以”等。
③使用知網“情感分析用語詞集”以及臺灣大學的NTUSD詞典作數據處理,其中包括情感詞、程度副詞、否定詞等。
④為相應的詞典賦值,賦予不同的情感分值。其中,程度“輕微”分值為0.4,程度“稍微”分值為0.75,程度“略強”分值為1.25,程度“強烈”分值為1.75,程度“最強烈”分值為2.0。此外,否定詞分值為-1。
⑤輸出總分詞列表(list),進行單條內容情感分析。遍歷每個編號對應的投訴內容,查找對應段落中分句的情感詞,記錄積極或消極,以及位置,最終以編號為標識進行分段操作。
在判斷積極情感詞模塊中,出現積極情感詞,則積極分值+1,進而判斷情感詞之間的程度副詞并返回結果。若出現否定詞,則否定詞詞數+1,若出現其他程度詞,則把積極情感詞數乘以程度副詞分值。當出現單重否定時,則把情感值乘以(-1),反轉情感值的分值。若出現雙重否定,相當于肯定,情感分值不變。模塊的最后記錄情感詞位置變化。
在判斷消極情感詞模塊中,出現消極情感詞,則消極分值+1,進而判斷情感詞之間的程度副詞并返回結果。若出現否定詞,則否定詞詞數+1,進入否定判斷計算。若出現其他程度詞,則把消極情感詞數乘以程度副詞分值,若無程度副詞則分值不變。否定判斷計算包括單重否定、雙重否定或無否定的情況。模塊的最后記錄情感詞位置變化。
感嘆號意味著情感強烈,遇到感嘆號時,倒敘掃描感嘆號前的情感詞,此情感詞的權值+2,退出循環,掃描的詞語數+1。分析得出句子中每個情感詞的分值后,把分值累加,得出本句的情感得分,返回列表。接著對文本情感傾向性分析進行分段分句情感計算,得到每一條訴求內容的情感得分。最后,累加所有句子的情感分值,得出此編號對應訴求內容的最終情感得分。
⑥分析結果存儲到本地數據庫中,進行數據統計分析。
3.2.3 對獲取的政府績效信息進行公共服務滿意度評估
在政府績效信息獲取中,運用情感分析法的優勢在于其研究內容為公眾直接訴求,研究目的在于分析民眾投訴內容的情感傾向強烈度與具體情感得分,可保證獲取的績效信息的真實有效性。運用情感分析法所獲取的分值波動情況可清晰對比地方政府各區域、各季度的績效情況,給績效考核提供了具體的數據支持,進而根據情感分析結果進行公共服務滿意度評估。
本文研究福州市“12345”便民服務平臺的數據分布情況,匹配網頁數據,抓取研究需要的市場監督類投訴數據,爬蟲部分主要由網頁結構分析、數據采集和存儲模塊組成。對福州市“12345”便民服務平臺進行網頁結構分析后實現數據抓取,爬取平臺所有投訴信息,再從平臺篩選市場監管類投訴,爬取每條投訴的編號信息,最后根據投訴編號從總的投訴信息數據庫內查找出每條編號對應投訴信息的其他具體內容。本研究所需信息有投訴編號、投訴標題、所屬區域、投訴時間、投訴來源、處理情況等,再將查找到的對應編號的投訴結果導出數據表,得到初始數據。對數據進行有序存儲,可生成一份匯聚所有關于市場監督類原始投訴數據的表格(見圖1)。

資料來源:本研究整理。圖1 爬取的數據
4.2.1 數據預處理
把爬取得到的投訴信息進行情感分析,可得到市場監管類的政府績效信息。投訴信息來自普通群眾,數據質量參差不齊,且初始數據存在非法字符,分析數據前,需進行數據清洗。將原始總表中的數據存儲為csv格式,去除文本中的非法字符,如“ ”“”等字符,刪除無需進行情感分析的內容,如回復時間、截止時間等。數據預處理可提高分析結果的準確性,分析預處理清洗后的數據,可節約時間,提高分析過程中程序運行的效率。

資料來源:本研究整理。圖2 預處理前的數據
數據預處理后,進行分詞處理。把中科院計算所發布的中文停用詞表作為初始停用詞詞典,手動加入適合研究的停用詞,形成一份完整的停用詞表,共含1535個停用詞。在搜狗輸入法詞庫中有關福州市信息精選文本的基礎上使用Python的jieba分詞對中文數據進行分詞操作,可避免福州城市專有名詞在分詞時被分開,影響情感分析結果的準確性(見圖3)。

資料來源:本研究整理。圖3 分詞后的數據
4.2.2 詞表配置
研究使用的情感詞典有停用詞、極性詞典及程度副詞。極性詞典包括積極詞典和消極詞典,由知網HowNet中文情感詞典和臺灣大學NTUSD簡體中文情感詞典手動合并后進行文本去重后形成。刪除部分不適用的詞匯,加入部分需要的極性詞匯,形成積極詞典和消極詞典。其中,程度副詞根據詞性的情感極性賦予不同的分值。圖4表示部分情感詞典內容,其中a為停用詞典,b為否定詞典,c為程度副詞詞典,d為福州城市專用詞典。

資料來源:本研究整理。圖4 情感詞典部分內容
本文使用的情感分析法以分析情感傾向和情感極性為主。在已獲取福州“12345”便民服務平臺關于市場監管類投訴具體內容的基礎上,通過分析投訴內容的情感正負情況和情感極性程度來判斷民眾對某一事件的滿意程度。正向情感值表示積極情感,表達民眾對某一事件的處理效果持肯定態度或對某一部門給予表揚。負向情感值表示消極情感,表達民眾對某一事件處理不滿意或對某一部門的批評。其中存在中立態度的數據,表示闡述某一事實或對該事件和部門無其他情感傾向。
投訴信息由多句話、多個段落組成,分析前需對數據進行分句處理。分句后,計算每一分句的情感得分,累加情感分值,返回每一投訴編號對應投訴內容的情感總分值。
分析投訴信息時,在進行詞典匹配的前提下,還需進行語義分析,即對每條語句進行否定判斷處理。首先,加載否定詞典進行語義判斷分析。本研究把否定詞加入程度副詞中,加入關鍵字識別該詞是否為否定詞,若為否定詞,則在分詞后的積極詞匯情感分析中,將該否定詞的權值賦值為-1,消極詞性前的否定詞賦值為-0.25。由于中文語句中含單重否定和雙重否定兩種情況,單重否定表示否定,雙重否定表示肯定,故在分析時應分清否定的類型。單重否定賦值為-1或-0.25,雙重否定賦值為1。
基于以上方法對投訴內容進行情感分析后,把情感分析結果以文本的形式,匯總到原始數據列表,原始數據列表中的投訴編號可為后續的測試或詳情查看提供查詢條件。情感分析后的結果如圖5所示。

資料來源:本研究整理。圖5 情感分析結果
對市場監管類投訴的情感分析結果進行統計分析,可對比福州市各區域關于市場監管類投訴的情感得分情況,還可對比福州市2017年1月至2018年7月各月份的情感得分情況。政府可根據情感分值的差異,了解各區域民眾對市場監管類公共服務的滿意度情況,也可為各個時間段市場監管部門的績效考核提供參考依據。據統計,消極投訴占71%,中立投訴占15%,積極投訴占14%。
4.4.1 區域數據
基于情感分析結果,統計福州15個區域的投訴情況。統計類目為投訴總數、消極投訴數量、積極投訴數量、中立投訴數量,根據情感得分,計算出消極情感極性總分值與積極情感極性總分值,得到表1。
4.4.2 不同時段數據
基于情感分析結果,統計各季度福州市市場監管類投訴的情況。統計類目為投訴總數、消極投訴數量、積極投訴數量、中立投訴數量,根據情感得分,計算出消極情感極性總分值與積極情感極性總分值,得到表2。

表1 福州市各區域投訴數量統計

表2 福州市各時段投訴數量統計
設投訴總數為Total_Number,一條投訴內容的情感值為Pa_Value,消極投訴數量為Neg_Number,積極投訴數量為Pos_Number,中立投訴數量為Mid_Number,群眾消極情感極性均值為Neg_Grade,群眾情感極性均值為Ave_Grade。
消極態度占比(P1)符合:
(1)
積極態度占比(P2)符合:
(2)
中立態度占比(P3)符合:
(3)
群眾消極情感極性均值符合:
(4)
群眾情感極性均值符合:
(5)
由各區域的投訴數據及以上公式可得表3,福州市除平潭綜合實驗區外的14個區域中,消極投訴、積極投訴、中立投訴分別占總投訴數量的比例情況。平潭綜合實驗區無投訴信息,故以下統計省略平潭的內容。

表3 福州市各區域投訴占比
由各時段投訴數量統計表與以上計算公式,計算結果可統計為表4。以3個月為一個周期(即每季度),2018年僅有一、二季度的完整投訴數據,故分析時2018年7月作為獨立整體,計算各季度消極投訴、積極投訴、中立投訴分別占總投訴數量的比例情況。

表4 福州市各時段投訴占比
由表3、表4可知,在福州“12345”便民服務平臺中,14個區域的消極投訴占比平均值為69.59%,積極投訴占比平均值為16.37%,中立投訴占比平均值為14.04%。各個季度消極投訴的平均值為70.68%,積極投訴的平均值為14.42%,中立投訴的平均值為14.91%,由于2018年7月在本次平均值統計中為獨立的月份,故在本次計算中省略。可見在不同分類研究中,消極投訴平均值都接近70%。
本文主要針對群眾投訴情況進行地方政府市場監管質量檢測研究,故主要使用消極投訴數據進行研究。結合以上數據進行群眾消極情緒極性程度統計,分別得到各區域、各時段的情感極性結果,消極情感極性均為負值,為方便統計,下圖中消極情感極性均使用正值表示,數值越高代表消極程度越高。詳見圖6、圖7。

圖7 福州市各時段情感極性對比
消極情感極性均值越高,代表投訴信息的消極情緒越重。通過比較消極情感極性均值,可得到市場監管類的公眾滿意度信息。
4.6.1 公眾滿意度信息
群眾投訴目的大多基于對自身利益的維護,可保證研究收集的投訴信息的真實性。從圖6可見,在各類情感傾向的投訴中,消極投訴占71%,積極投訴占14%,中立投訴占15%。可見在福州“12345”便民服務平臺關于市場監管類的投訴內容中,消極投訴數量最多,群眾登陸投訴平臺的主要目的是反映日常生活中遇到的問題、受到的不公待遇或舉報他人的不當行為等。
從表3、表4可見,積極投訴與中立投訴的比例較接近,雖總數所占比例不高,但由此可知群眾登陸服務平臺并非僅為投訴,也有部分群眾通過便民服務平臺反映有關市場監管類問題的客觀事實,或對市場監管類相關部門的工作給予肯定。
由圖6、圖7可知,不論劃分依據為區域或時間段,群眾的情感極性程度均值均為負值,且情感極性在-3附近波動,群眾的消極情感極性均值在-5附近波動。
4.6.2 公眾滿意度比較
從福州14個區域各類投訴分布情況看,閩清縣的消極投訴占比最高,高新區的消極投訴占比最低。根據福州市各區(縣、市)2018年GDP排名[21]可推測,閩清縣的經濟相對于其他區域較落后,政府部門市場監管類公共服務系統建立較不完善,導致在閩清縣群眾的所有投訴中消極投訴比例最高。高新區的群眾主要為高新技術人才,這類群體往往學歷較高、素質較好,且工作較忙,無暇顧及市場監管質量而到平臺投訴。福州市高新區近幾年發展迅速,政府公共服務逐漸完善,這也是投訴中積極、中立投訴較多的原因之一。平潭所有投訴類別總數量為2條,市場監管類投訴無數據,可能的原因是平潭擁有獨立投訴平臺亦或是平潭縣對于福州“12345”便民服務平臺的宣傳力度不大,導致群眾對平臺的了解不夠。
福州市各區域消極投訴數量詳見圖8,可見福州市區的消極投訴數量明顯多于其他區域。倉山區消極投訴量最多,可得到倉山區市場監管質量較差的結論。鼓樓區和臺江區分別位列第二、第三,閩清縣、永泰縣、羅源縣、平潭的消極投訴最少。倉山區群眾對政府市場監管最不滿意,倉山區、鼓樓區、臺江區的居住環境相對嘈雜、較為擁擠,這是導致群眾投訴較多的原因之一。這也表明居住在市區的群眾維護自身利益的意識更高,愿意積極向政府反映問題,提升居住環境內的市場監管力度,最大限度地維護群眾自身利益。

圖8 福州市各區域消極投訴數量圖
從福州市各區域情感極性對比圖可知,永泰縣的消極情感極性均值為-9.77,是所有區域中消極程度最高的區域。反映了永泰縣群眾對市場監督管理嚴重不滿,有關部門需反思2017—2018年的工作情況,分析群眾負面情感強烈的原因。其他區域的消極情感極性均值在-5附近波動,情感極性均值在-3附近波動。情感極性強度最弱的是高新區,情感極性均值為-1.6,表明高新區群眾對市場監督相關部門的工作較為滿意。對政府市場監督方面較滿意的區域還有羅源縣、閩清縣。平潭綜合實驗區無數據,不進行比較分析。故可得到永泰縣的群眾不滿意程度最高,高新區群眾不滿意程度最低的結論。

圖9 福州市各區域情感強度圖
由2017年1月至2018年7月共計19個月的投訴數據分析可知,2017年第三季度的消極投訴占比最低,中立投訴、積極投訴的占比最高。2018年7月,消極投訴占比最高。或許由于福州夏季天氣炎熱,導致群眾情感較為消極,容忍度較差。政府部門可根據季度投訴信息對比各部門在各季度的績效,以實施對市場監管領域的質量檢測。從情感極性均值分析,2017年2月的情感極性均值最低,為-1,結合中國國情,2017年1月28為中國的春節,2月還處在春節喜慶的氛圍中,群眾往往忙于新年其他事宜,對市場監管類問題往往較寬容,故投訴情感程度較平緩,投訴總量在一年內最低。2018年2月也處在中國的春節期間,情感極性均值為-1.55,投訴總量在已知的幾個月內也較低。對于每年2月,從8月至次年1月投訴數量不斷增加,群眾不滿意度也逐漸上升。若進行政府市場監管質量檢測,建議在數量和情感強度的高峰期、低谷期以及平緩期各選擇一個時段進行研究,可得到更為準確的結果。從消極情感極性均值看,消極情感程度最高的是2017年7月,建議政府部門關注2017年7月的投訴情況,及時了解群眾“非常不滿意”的原因,解決群眾反映的問題,響應建設服務型政府的要求。從圖7可觀察到有兩次消極情感極性均值變化較明顯,即2017年4月—5月、2018年6月—7月,或由于前一個月的投訴較多,政府積極處理,次月群眾的滿意度及消極的情感強度有所緩解。由此可見,每年2月群眾對市場監管服務的滿意度最高,每年6~7月群眾對政府的服務最不滿意。
本文采用實現地方政府市場監管質量檢測的新方式,即情感分析方法,對群眾在福州“12345”便民服務平臺上的投訴數據進行挖掘分析,通過情感分析方法找出市場監管類管理部門績效最差的區域和一年中績效最差的時段,對于政府改進市場監督領域服務和促進服務型政府的建設有積極意義。
研究發現,2017年1月-2018年7月,倉山區、永泰縣群眾對于市場監管類政府公共服務最不滿意,高新區群眾滿意度最高。每年2月,群眾對市場監管的滿意度最高,每年6~7月,群眾的消極情感程度最高。
綜上所述,本方法除適用于福州“12345”便民服務平臺群眾投訴信息研究外,也適用于其他政府便民服務平臺投訴模塊的研究,對群眾的投訴信息進行自然語言處理分析,可得到信息真實度較高的群眾投訴分析結果,為地方政府市場監管質量檢測提供最直觀的績效信息,使各部門績效考核評比更加切合實際。然而,投訴文本中的口語化、日常化的語言更新速度快,已有的情感詞典無法完全匹配群眾投訴文本中涉及的所有情感詞,會導致分析結果有一定程度的偏差。但隨著情感分析方法的發展和情感詞典的完善,情感分析法的準確性將不斷提升。