許 鵬 耿藤森 郭鑫濤 陶瑞雪 張傳營 張書曼 李俐瑩
(河北科技大學,河北 石家莊 050018)
隨著網絡技術的不斷發展,網民數量的增多,網絡逐漸成為社會公眾關注新聞的第一渠道。個人和各種社會群體由于自身的基本訴求未得到滿足,在網絡上自由抒發自己的觀點,其通過網絡數據的高速傳播,部分內容伴隨時間的發酵,公眾關注力逐漸上升,會形成針對某一官方機構或公共事務責任方的網絡輿論。這樣的輿論傳播存在很明顯的情感導向,很大層面上無法及時解決真正的社會問題,反而會給相關機構和人員帶來很大的輿論沖擊,造成其聲譽和社會地位上難以挽回的損失。因此,本研究基于分布式數據處理,搭建網絡輿情調控系統,其能對網絡中的大量數據進行實時的監測和篩選,及時發現有關社會輿情的信息,及時和相關人員取得聯系,避免事態進一步發酵形成輿論,達到網絡輿情調控的目的。
根據第49次《中國互聯網絡發展狀況統計報告》,截至2021年12月,我國的網民規模達到了10.32億,和上一年同期比較,增長了4 296萬人;移動互聯網接入流量為2 216億GB,相較上一年增長了33.9%;市場上監測到的APP數量達到了252萬款;移動電話用戶規模也在持續上漲,5G移動電話用戶達到了3.55億戶[1]。這些數據表明,網絡和現實生活已經緊密相連。人們在享受著網絡技術所提供的便利的同時,其日常生活也已經被信息流所“裹挾”。
網絡中的活躍用戶,往往渴望被認同,對較為新鮮的事件會更加積極地響應和反饋。網絡具有隱蔽性,前臺用戶的信息依然具有匿名性,言論發布者的心理壓力相對較小,相比現實生活,有些人更愿意在網絡中跟隨情緒發表自己的意見。網絡具有開放性和強交互性,因此個人能通過言論的傳播謀取更大程度的社會認同。一方面,網絡的監管力度遠不如現實,在此過程中,部分人把互聯網當情緒的宣泄口,其中部分群體很容易被虛假信息甚至極端的言論所影響,產生激進、感性和情緒化的言論敘述,這些情緒化言論在眾人的響應下,存在逐漸發展成有害輿論的可能性。另一方面,廣大網民情感、態度、意見和觀點的表達和傳播過程中,實時審核機制存在漏洞,缺乏對其后續影響力的預判,這是現階段技術的局限性造成的。因此,在信息的快速傳播過程中,缺少傳統媒體中的“把關人”,信息被不停產生的新信息所埋沒,部分內容隨機伴隨網絡上龐雜的信息流進行傳播、擴散,最終,在傳播過程中進行發酵,成為網絡熱點,產生社會輿情,造成一定的社會影響。
從Web2.0時代開始,網絡信息傳播不再僅按照傳統形式發布內容供用戶瀏覽,更多的是集各種媒介方式于一體進行信息傳播,并能針對用戶喜好、興趣、關注對象、地區信息和個人信息等相關數據進行分析與追蹤,形成“用戶畫像”,精確推送符合用戶偏好的內容[2],大眾所熟知的先進的主流傳播平臺如微博、知乎以及抖音,均以這種形式進行信息傳播。
通過智能算法,用戶可以對自己感興趣的相關事件產生更強的參與感,因此新媒體時代,用戶不再單單處于傳統媒體的“議程設置”下,而是通過表達自己對于某一事件的體會和感受,完成了自身的議程設置工作,將相關事件融合個人想法進行“信息包裝”,借用網絡進行傳播。
廣義的輿情是個人和各種社會群體構成的公眾,發布與自身利益相關的公共事務引起的個人情緒所造成的社會性討論的總和。而網絡輿情是社會輿情在互聯網空間的映射,是對社會輿情的直接反映[3]。隨著信息社會的快速發展和互聯網的普及,各階層與網絡的接觸更加緊密,信息具有傳播渠道多、傳播速度快、傳播范圍廣的特點。在這種情況下,易形成網絡輿情。網絡輿情具有突發性、交互性、自由性、多元性與偏差性等特點。從積極方面看,社會輿情在某些方面可以形成正確的輿論導向,可以凈化社會環境與人的心靈,陶冶人的情操,有助于良好社會風氣的形成,在弘揚中華民族文化和社會主義道德上起到巨大的推動作用,但同時,網民看問題存在主觀性,無法清楚地了解事件的來龍去脈,容易給當事人造成很大的傷害。
網絡輿論的發酵過程中,參與討論的個人大多不具有很高的社會地位或權力,卻可以通過互聯網表達自身訴求,通過和網友進行討論,抒發自身不滿,在此過程中滿足自身期望與自我肯定。但是,在網絡中,個人的議程設置往往具有很強的偏向性和主觀性,網絡輿論中的相關官方機構和公共事務的責任方往往會受到眾多網友的聲討。
發起者利用網絡輿論是以闡述個人訴求,得到社會肯定為目的,但是,通過網絡輿論的傳播,無論最終的結果如何,都會給相關單位或組織造成一定程度的聲譽損害。相關人員在前期和發起者積極進行溝通,并且迅速做出反饋,對事情進行全面調查與分析,就可以降低對自身聲譽的損害。如果是由于發起者自身的相關問題,通過溝通,可以引導其完善個人資料,滿足個人或群體訴求;如果是因為組織內部存在制度缺陷,則積極回應,完善內部機制,與發起者進行溝通,使雙方的社會利益均得到保障。
民眾是輿情的核心所在,是整個網絡鏈中核心的部分,是受輿情結果牽制的最終受益者或受害者。這要求網絡監測能更切合實際地反映民情,更有效地展示社會中的實際問題,維護民眾的利益。因此,網絡輿情監測發展的方向必然是更專業化和更服務化。設立相關預警機制,實時監測、準確地分析數據,并在此基礎上提出行之有效的解決方案等,將是輿情監測這個新興行業需要堅持不懈地努力的方向。
本研究針對以上社會訴求,進行系統功能開發和平臺搭建,該系統可以通過網絡對特定學校、企業和政府部門相關信息的實時篩查,及時發現并收集來自組織或個人的可能醞釀成熱點新聞的話題言論,進行風險評估,并形成相關預防預警機制,從而減緩社會事態的發酵,減小學校、企業和政府相關部門等的輿論壓力,營造和諧的社會風氣,以更好地維護社會秩序。
輿情監控對于維護國家和社會的穩定具有重要意義,而“網絡爬蟲工具”為其提供了有力的技術支持。近年來隨著信息技術的不斷發展,數據爬取行為的合法性受到質疑,在輿情監測系統的創建與發展中,數據爬取行為是否合法,應從三個方面看待[4]。
運用數據爬取技術應秉持中立原則,但技術中立原則不是免責條款,其使用方式和目標追求以及社會影響都是判斷其是否合法的依據。輿情監測系統使用的數據爬取技術如非出于惡意,具有非實質性侵權性質,則不影響被爬取數據擁有者的合法權益,那么這種爬取行為就是合法的。
不正當競爭行為的成立要求當事人之間具有實質性的競爭關系,輿情監測系統應用數據爬取技術之時,如沒有與被爬取數據擁有者之間產生實質性的競爭關系,就不存在不正當競爭行為,數據爬取行為應為合法,同時還應當綜合考慮競爭主體、行為不正當性等多方面因素。
關于數據爬取行為是否合法并沒有明確的法律規定,但是基于民法的自愿誠信原則,遵循Robots協議[5],對數據進行合法的抓取利用,未出現違背法律的現象。合理運用數據爬取手段進行輿論檢測符合行業規范,是合法行為。
通過對網絡數據抓取的合法性的調查和研究,最終得出結果,數據爬取技術在輿論檢測系統中的應用是具有合法性的,只要合理合規地運用,可以通過此類技術實現信息的二次價值,并且并不會觸及法律的邊界。
本系統從兩個部分進行開發,分別是數據采集和系統部署。數據采集部分采用Elasticsearch搜索引擎進行搜索,在短時間內完成目標內容定位,獲取相關數據。獲取的數據經由三個數據處理系統進行數據過濾,這三個系統分別是數據在線處理子系統、數據應用分析子系統和數據資源管理子系統。通過三個系統的相互配合,對原數據進行清洗凈化來獲取特征詞,以自然語言分析自動形成文摘。
系統以Elasticsearch+Hive+HBase組合作為數據層的解決方案。其中,Elasticsearch是基于Lucene開發的搜索和數據分析引擎,具備強大的數據索引、快速搜索和海量存儲功能,適用于包括文本、數字、地理空間、結構化和非結構化數據等在內的所有類型的數據。本系統主要使用Elasticsearch完成關鍵數據的索引和搜索工作,輿情數據通過使用Elasticsearch從多個來源(包括日志、系統指標和網絡應用程序)實現匯集。這些數據在Elasticsearch中索引完成之后,用戶便可針對他們的數據運行復雜的查詢,并使用聚合來檢索自身數據。同時,將網絡爬蟲技術和Elasticsearch搜索引擎結合,通過網絡爬蟲技術對網絡上的各個客戶端的網站進行訪問,在遵循互聯網的Robots協議的基礎上,對各個網站的網絡數據進行獲取。
數據在線處理子系統是自主研發的通用采集器,采用主從分離的分布式架構,根據需要通過分布式擴展部署,在實現高效率數據采集的同時,也具備高可用性、高擴展性、快速定制采集規則等能力,從而保證數據在線處理子系統擁有增量式采集、按主題分類采集、可定制化采集的強大功能。
它由數據采集、數據預處理、在線翻譯、相似度計算、云端數據管理、系統管理組成。在互聯網如微博、知乎、貼吧等各大網絡平臺上進行熱點信息采集后交由云端處理器管理,對輿情數據進行預處理、翻譯和計算后,價值度更高的監測信息被送入海量數據存儲集群。針對需要登錄的網站定制化的采集需求,可通過采集器的定制服務完成。
數據資源存儲管理子系統可通過開源的分布式數據存儲組件構成,如Minio、HBase、Hive等。其中,HBase是一個開源的、分布式的、版本化的NoSQL數據庫(非關系型數據庫),它利用Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)提供分布式數據存儲。HBase將所收集的目標信息以表的形式組織數據,表由行和列組成,它將一列或者多列組織在一起,每一個列都必須屬于某個列族。
利用這些工具可以對所采集的輿情數據如文本文件、網頁文件、PDF文檔、Office文檔等常見的數據類型進行統一的數據管理,方便人工進行熱點數據標注,開展數據文本分析,對輿情信息由面到點地一一摘取進行處理,如提取關鍵信息、實體識別、實體屬性等,構建領域知識圖譜。一系列操作完畢后,數據交由海量數據存儲集進行更深的加工處理。
數據分析應用子系統在使用開源的基礎算法組件之上,根據需求,定制算法,對全網進行監測,如對熱門論壇、貼吧、微博等各大網媒門戶網站實時監控,收集重大高校相關政策信息、本校熱門事件,若發現負面輿情,第一時間進行處理。利用自然語言分析,在重要數據分析模塊進行全方位、多角度的關聯分析與擴展,為系統用戶提供具有實際價值和前瞻性的綜合分析內容。
針對數據資源管理子系統處理后的數據,進一步挖掘可用信息,進行可視化的關聯展示,使用戶可以直觀地看到所需信息。用戶能夠通過主題設置,實現信息分類展示,便于對其感興趣的內容進行瀏覽閱讀。相關信息從數據庫中調取,通過圖表、文字等形式進行用戶展現。
系統采用以Java語言為主、以開源軟件為基礎的定制化系統架構,共分四個層次。其中資源平臺層和基礎平臺層屬于數據在線處理子系統,其采用分布式的C/S架構,實現多線程并發信息采集與數據清洗;業務層和功能平臺層屬于數據分析管理子系統,采用B/S架構實現,使用瀏覽器來進行配置和瀏覽。
網絡部分,系統采用“外網+內部局域網”方式進行部署。外網部署數據在線處理子系統基于Java開發的C/S架構設計,通過多節點、多進程、多線程并發的方式進行信息采集。由于系統整體采用的是松耦合設計,通過松耦合,與Java的多接口設計相結合,使該系統可以很好地部署在多種類型的服務器上,可以合理運行于Linux、Windows等服務器平臺上。局域網部署數據分析管理子系統基于Java開發的B/S架構設計,前端使用主流的Vue框架以及阿里開源的ant-design組件,可達到完美兼容IE11、Chrome和Firefox三款最主流的瀏覽器的目標,并實現數據的集中可視化展示。
系統能夠給用戶提供可視化的分析結果,采集瀏覽到的信息和各類統計圖表。基礎業務數據能夠與國產達夢數據庫實現兼容移植,同時系統能夠運行在國產化的操作系統上。該系統現擁有完善的功能體系,平臺操作界面簡單,可以為用戶提供信息監測、熱點分析、事件分析、輿情簡報及輿情大屏顯示功能,模塊可靈活部署于不同系統和應用之上,功能模塊間的通信通過消息中間件來完成。
整個系統主要由內網和外網兩大模塊構成。外網進行數據的云端獲取,內網用于數據的實時處理和結果輸出,兩者之間通過光盤擺渡進行數據的傳輸,進而進行數據的進一步加工工作,通過此種方式,可以實現系統的高效運行。
數據分析子系統和數據資源管理子系統在內網進行部署,數據在線處理子系統在外網進行部署。基于B/S架構的系統可以使得數據更加容易獲取,利用C/S架構進行外網部署,有利于數據的處理和直接呈現。三個部分通過光盤擺渡的方式實現數據交換,系統部署部分如圖1所示。

圖1 系統部署框架圖
系統通過對網絡信息的收集和處理,得以在較短時間內明確輿情相關的事件性質,便于確定與相關單位或社會群體有關的危險等級,展開事件的風險評估。并通過及時聯系相關責任機關或責任人,使其明確事態發展進程,及時把控事件的嚴重程度,降低社會輿論發生的可能性,減小相關輿論議題的社會影響,將輿情影響降低到最小,起到網絡輿情調控的目的。
網絡輿情調控系統能利用網絡爬蟲,在遵守互聯網關于數據抓取的Robots協議的基礎上,對各大門戶網站的公開輿情信息進行搜索并抓取;通過對元數據的清洗和去重獲取特征詞匯,結合自然語言處理和HBase數據庫完成數據的存儲和歸類;再使用自然語言分析技術將數據進行歸總展示。通過本系統進行網絡輿情數據調控可以更加及時高效地解決公眾提出的社會問題,同時也能降低由于公眾的盲目發泄對官方機構和社會公共組織造成的潛在傷害。進行輿情防控,在很大程度上可以提高社會的安定程度和人民的生活幸福感。