孫 博 孔唯鑒
(云南大學茶馬古道文化研究所,云南 昆明 650000)
網絡評論,從本質上講是一種意見性信息,是個人或組織在網絡媒體上就新聞事件或社會現象、社會問題發表的評價性意見。[1]其在一定程度上體現出了廣大民眾對某些事件現象的觀點、看法,展現了民眾參與社會公共事務的意愿傾向,也為社會建設發展提供了不同的參考思路和觀察視角。
如何對繁復的網絡評論信息進行更具操作性、可行性的分析,是值得思考的問題。本文以“2019年騰訊公司旗下網游《刺激戰場》更替為《和平精英》”這一事件為對象,來對相關的網絡評論進行分析研究。
2019年5月7 日,網友發現騰訊旗下游戲《刺激戰場》關服,而與之玩法類似的《和平精英》內測邀請開啟,結合之前“騰訊《和平精英》獲得游戲版號”的消息流傳,騰訊欲將《和平精英》替代《刺激戰場》的意圖在公眾視野內越來越清晰,玩家就此掀起了一場關于兩個游戲更替的討論熱潮,成為了當年游戲界極具代表性的大事件之一。
自2019年5月7日網友發現《刺激戰場》關服,至5月20日事件熱點消散,玩家討論回落。在兩個星期的事件周期內,筆者通過網絡大數據信息采集系統,以“和平精英”以及“刺激戰場&和平精英”為關鍵詞,全網共采集到相關信息160921條(含轉載),其中信息主要來源于微博(71396條,44.37%),其次是論壇(30619條,19.03%)、網站(28454條,17.69%)、客戶端(22549條,14.02%)和微信(6986條,4.34%),其他平臺(視頻、報刊、外媒等)分布較少,未超過1%。
通過對周期內所網絡采集信息的觀察,筆者發現在大數據運用下網絡評論分析首要面臨的幾個問題。
正如此次“《刺激戰場》游戲更替”事件,無論是總體數據量(160921條)還是單一平臺數據量,達到了以“千條”“萬條”乃至“十萬條”為單位。在以前,由于網絡信息源較為單一,研究者多通過門戶網站、搜索引擎、知名論壇以及留言版,輔以問卷調查、人工檢索等方式進行信息采集和分析,工作量相對較小;而今日,隨著爬蟲技術和網絡大數據信息采集系統的運用,必然要面對越來越多的信息量和平臺載體,去重、篩選信息成為大數據分析首先需要做的工作。
網絡傳播包含事實性信息與意見性信息。網絡言論指的是網絡傳播中的意見性信息。[2]網絡評論的分析,是對意見、態度和評價的分析,而非對事實性信息的判斷。事實性信息,應該屬于更宏觀層面上的網絡輿情的趨勢研判。[3]就本例而言,在實際采集到的信息中,有相當一部分屬于騰訊公司相關的事實性報道。就技術而言,網絡大數據信息采集不能準確區分事實性信息與意見性信息的差別,也無法就各個不同平臺的評論、跟帖內容做出全面、準確的抓取。
除常見的文本外,圖片、音頻、視頻、符號乃至于表情包等信息呈現形式,已得到越來越多的應用;在交互設計方面,諸如支持、反對、點贊、分享等交互行為也已被廣大網民熟知和認同。如果認為上述信息呈現形式和交互行為不能表達網民的情緒和態度,因而不屬于網絡評論,那顯然不合常理。在本例中,大量的網民評論以游戲圖片、符號等作為態度表達,對以關鍵字為主要檢索方案的大數據信息采集系統提出了挑戰。
有研究者認為網絡評論分布于“網絡評論專欄(包括新聞網站的時評、個人博客等)、留言板跟帖和網絡論壇(BBS)”;[4]也有人依據發布平臺的角度,把網絡評論劃分為言論頻道評論、新聞跟帖評論、論壇評論、微信評論、微博評論5種,[5]但隨著微博、微信、新聞客戶端、短視頻平臺以及其他社交應用等新的網絡評論平臺的涌現,以往的平臺劃分顯示出了構成缺陷:一方面,如果依照平臺類型劃分,那么網絡新聞評論平臺在擴充,如新浪旗下的大數據信息采集系統“微熱點”就將信息源劃分成了11類,但這無疑顯得繁縟,且信息量較少的平臺缺乏單獨統計的價值;而另一方面,如果從平臺特征和評論特征來看,很難說門戶網站電腦版的新聞跟帖和其手機客戶端的新聞跟帖就完全迥異,或者只把某條微博下方的評論視為網絡評論,而其微博本體不是網絡評論。這說明網絡評論的載體平臺既在擴充也有重疊,不能完全依照平臺類型來孤立劃分,還應綜合考慮平臺特點等因素。
面對以上問題,在“《刺激戰場》游戲更替”事件網絡評論的分析中,我們嘗試采取了如下分析思路。
首先,由于網絡信息時效性,國家法律法規和相關政策影響以及其他一些不可控因素,在分析周期內,無論是從數量還是質量來看以單一平臺作為數據來源,不能有效呈現網民態度,也無法采用單一抽樣方法;新聞(微博、帖子、回答等)顯示的總體參與量無法直接用于分析,因為參與量可能包含點擊、回復、點贊、反對、轉發、舉報等行為記錄,其數量趨勢為“總體參與量>總體評論量>可顯示評論量>有效評論量>實際相關評論量>抽樣評論量”,分析抽樣僅能在“可顯示評論量”及其之下的層面進行。
其次,除以關鍵字為主要采集方案外,利用圖片文字識別和轉化技術、視頻關鍵字采集技術等,將更多樣的信息呈現形式納入到評論信息采集范圍內;同時,利用關鍵字限制、歧義字限制、字段長度限制以及字符形式限制等方案,盡可能排除非負面但無實質觀點的評論表達,如純表情、顏文字、單一語氣詞、屏蔽詞、無關內容、無意義文字等;
最后,綜合考慮平臺特征、評論特征等多方面因素,結合以往相關研究結論,同時考慮到交互設計的存在,對現有的網絡評論平臺進行歸納與重新分類,將其劃分為以下4種。
第一類評論平臺:由傳統門戶網站新聞、“兩微一端”中的媒體和自媒體客戶端發布新聞、報刊數字版、微信公眾號文章這幾者的新聞評論、跟帖等構成。網民主要參與方式為“評論+回復+贊同/反對”,有事實性報道或文章主體作為依托,觀點表達更多體現于評論本身,貼近于以往人們印象中的網絡評論。
第二類評論平臺:由“兩微一端”中的微博以及短視頻平臺構成。網友主要參與方式為“微博(短視頻)+評論+轉發+點贊”,不一定依托事實性報道主體,可僅簡單提及或隸屬相關話題標簽,微博(短視頻)本身也可能是評論,與其評論與微博主體在觀點表達上具有同等地位。其評論形式最為多樣,且由于轉發的存在,常常容易帶動話題擴散。
第三類評論平臺:以百度貼吧等為代表的綜合論壇和主題論壇。網友主要參與方式為“帖子+回復”,可能但不必須以報道或信息為主體,網友觀點表達為主帖和回復并重,常見一定的對話特征或討論性,且由于這種性質,導致評論內容相對松散。
第四類評論平臺:以知乎為代表的專業問答社區和行業問答社區。網友主要參與方式為“問題+回答+評論+贊同/反對”,以關于某項話題進行提問,具有一定專業性、詳細性,網友觀點表達更多側重于回答,由于回答者有時身處行業內部或為相關從業者,往往能從中得到其他評論平臺較難出現的深度內容。
結合上述思路,在平臺重新歸納分類的基礎上,對四類網絡評論平臺針對性地采取了不同的抽樣方法,以期盡可能貼近網民的實際觀點。
對第一類評論平臺,由于各事實性報道及文章評論數量不一,懸殊較大,采取配額抽樣方法。以事件輿情傳播關鍵的事實性報道及文章為核心,經過去重評估,匯聚同一主題文章下評論,選取20篇參與、互動數量最多的新聞,依照總體參與數量區間,分為1-29條,30-299條、300-2999條、3000-9999條4個區間,再進行統計、篩選、抽樣,得到有效評論抽樣數量300條。

表1 評論配額與抽樣分布數量(第一類評論平臺)
經統計,周期內該平臺網民評論呈現8類觀點態度如下:

表2 網絡評論態度與占比(第一類評論平臺)
對第二類評論平臺,以新浪微博為例,主要采取判斷抽樣方法。由于總體微博參與量以10萬級為單位,選取分析周期內,每日該相關討論下的原創熱門微博,以熱門微博(800條)為抽樣范圍,以互動評論量和轉發量為參考標準,選取有效抽樣200條。

表3 微博聲量走勢表(第二類評論平臺)
網民評論呈現7類觀點態度如下:

表4 網絡評論態度與占比(第二類評論平臺)
對第三類評論平臺,以百度貼吧為例,由于主帖和回復具有并重的特點,采取簡單隨機抽樣的方法。周期內貼吧相關信息量共計3649條,有效抽樣300條。

圖1 百度貼吧聲量走勢圖(第三類評論平臺)
該平臺網民評論呈現7類觀點態度如下:

表5 網絡評論態度與占比(第三類評論平臺)
對第四類評論平臺,以知乎社區為例。由于觀點側重于回答,則主要采取判斷抽樣方法。知乎相關信息量3906條,對問題進行去重、合并取舍后,取知乎社區上與本話題相關度最高、回答數最高的10個問題,每個問題抽取贊同數最高的30個答案,以滿足大樣本標準,共得抽樣300個。

圖2 知乎社區聲量走勢圖(第四類評論平臺)
該平臺網民評論呈現8類觀點態度如下:

表6 網絡評論態度與占比(第四類評論平臺)
總體來看,在四類評論平臺上,網民評論呈現出一定共性,也互相印證了觀點的可靠性。幾乎所有平臺上都有一定基數用戶認為《和平精英》游戲體驗不佳(如畫面質量、槍械感覺、動作表現、語音引導等),游戲設定不盡如人意(如掏箱子、揮手告別、血液顏色、獲勝機制等);相比于《刺激戰場》,許多玩家在對比之下表現出失望不滿,進而進行嘲諷吐槽,或者選擇棄游轉戰國際服等;總體上約有不超過四成玩家對游戲評論呈現正面或中立態度。
同時,各個觀點平臺也呈現出了各自評論結構的特點。接近傳統意義上的網絡評論的第一類評論平臺網民表露態度比較直接,會上升到對騰訊和光子工作室的攻擊嘲諷上,如有三成的網民對騰訊或光子表現出不滿,認為《和平精英》是圈錢之作(17%),而且多有諷刺吐槽(13%)。該平臺評論多短小直白,易展現帶動負面情緒,但用戶持久性和被關注度較差,不易形成意見領袖。從目前看,以搜狐、網易、新浪、騰訊、鳳凰為代表的傳統五大門戶網站,因多方原因,其評論顯示大大低于參與量,而網民重心逐漸轉移到以今日頭條等為代表的自媒體客戶端評論上。
作為第二類評論平臺代表的微博呈現內容比較多樣,調侃、吐槽較多,微博用戶也愿意分享自身經驗和經歷,游戲相關周邊(如活動、互動、視頻、心情等)也是四類平臺中最多的,同時微博用戶表示棄游的比例最少,說明微博用戶的游戲黏性相對較大,各種求組隊、求朋友共同游戲的微博也較多,追求曝光率的程度較強。在該平臺上有超過半成的人回憶懷念自己的游戲經歷,期待回歸《刺激戰場》(6%);另有接近十分之一(9%)的用戶根本不在乎游戲有什么變動,只要能和同伴一起玩就滿足了。
作為第三類評論平臺的百度貼吧,綜合了第一類、第二類觀點平臺的特點,有簡單粗暴的態度,也有客觀理智的思考。無論是發帖還是回帖都既可以承擔對游戲更替的觀點輸出,也都可以不承擔觀點輸出,因而不時出現意見散亂、互相矛盾的情形。由于其帖子內容松散,較少出現持續圍繞一個話題,進行同一觀點輸出的情況;而玩家在游戲遇到問題和對游戲有意見建議時,往往選擇在貼吧求助,這導致了貼吧內求助帖和意見帖較多,但很難上升到專業問答的程度,如在本平臺中有8%的玩家對游戲問題進行反饋并提出了一些建議。
作為第四類評論平臺的知乎社區,用戶水平相對較高,對于問題愿意上升到制度、環境等層面上,往往尋求多角度、多原因看待問題,像本平臺上就有5%的用戶上升到游戲行業和環境層面,認為游戲公司、玩家、政府共同作用導致游戲環境惡劣,需要客觀看待;也有用戶提出游戲環境的觀點,并且認為《和平精英》的出現是游戲業的探索與嘗試,可以觀察到盈利性背后商業資本的推動,是其他平臺少見的深刻觀點。正因如此,在此平臺上如果出現負面評價,往往內容翔實,較難反駁,但由于其用戶的門檻相對較高,受眾相對小眾,對某些圈子內的成員來講具有特別參考價值。
筆者認為本例中的網絡評論分析方法主要存在以下不足。
第一,評論抽樣方法有待進一步研究。在理想情況下,窮舉全部評論信息,再進行分析分類、量化呈現,所得出的觀點結論最準確可靠,但實際上由于數據量龐大,缺乏可操作性,也沒有必要,如何對評論數據進行抽樣,是首要考慮的問題。由于各種冗余評論的存在,如果只使用簡單隨機抽樣或等距抽樣,得出的結果往往不能準確代表網民意見分布;本文所采取的思路是基于不同平臺特點,著重使用判斷抽樣、配額抽樣的方法,尤其集中于熱點、重點和參與互動量多的評論,人工選擇痕跡明顯;諸如判斷標準、配額分布、抽樣比例是否合適,乃至于以后對其他事件中可能面臨的分層抽樣如何分層,整群抽樣如何劃分整群等,都需要進一步研究,以期得出更合理的抽樣方法。
第二,非文本形式的評論采集亟待解決。對越來越多以圖片、視頻、音頻等非文本評論形式呈現的、廣泛意義上的網絡評論而言,盡管本例中通過了一些技術或程序將其轉換為文本來進行研究,但由于技術和條件限制,多數此類評論仍無法做到相對準確的采集和統計,造成了評論信息的流失。尤其伴隨著短視頻應用平臺的興起,承載意見觀點的短視頻也成為網絡評論不可忽視的來源,對視頻等非文本形式內容的抓取,成為今后大數據背景下網絡評論分析亟須解決的難題。
第三,互動參與的相關性需要量化。在大數據算法下,一般互動參與量較高的網絡評論往往會被認定為熱門或者重點評論,并會被推薦至首頁,評論前列或優先顯示。本例中判斷抽樣的主要依據之一就是點贊、轉發、回復等互動參與量較高的評論,認為其可以代表多數網民的意見。但需要注意的是,互動量代表態度情緒,只能顯示出評論的總體趨勢,不一定提供明確的意見建議。點贊數和轉發數在多大程度上能代表網民的意見觀點,或者如何通它們判定重點評論的代表性,需要更明確的量化算法或者更可靠的判斷標準。
第四,網民研究等異質因素應納入分析。在本例中,更多依靠平臺特征和評論特征進行分析,缺少對網民本身的分析。實際上,網民研究也是網絡評論分析的重要組成部分,通過對網民的年齡、階層、文化程度、上網習慣的多方面因素的分層畫像,有助于從宏觀層面上探討網絡評論的形成原因,網民研究與網絡評論研究兩者相互聯系,相互印證,更能從根本上理解和揭示網絡輿情的特點。
綜上所述,當今的大數據背景下網絡評論分析面臨著新的局面:信息數量劇增,平臺來源豐富,呈現形式多樣,觀點構成復雜。結合新形勢,對網絡評論分析的方法進行新的嘗試和探索,將有助于網絡評論乃至網絡輿情工作的進一步研究和規范。