劉定一 應毅

摘要:網絡輿情是對整個輿情事件的具體描述、對事件的觀點和立場,在短時間內會大規模、快速的擴散,因此盡早地預測輿情事件的走向和態勢,相關部門就可以及時掌握社情民意,及時發現工作中存在的不足和對問題矛盾出現的影響,對負面聲音進行正確引導。網絡輿情的發展趨勢具有無規則、隨機變化等特點,互聯網中的海量數據又給輿情預測帶來了更嚴峻的挑戰。文章分析主要從網絡輿情預測混合算法、輿情預測算法的并行化入手,研究在大數據環境下網絡輿情的趨勢預測問題。
關鍵詞:計算智能;大數據;輿情預測方法;算法研究;神經網絡
中圖分類號:G2 文獻標識碼A 文章編號1674-6708(2019)239-0126-02
1國內外研究現狀
網絡輿情是一種復雜、多變的系統,它的趨勢發展由于有廣大網民的參與,具有爆發性、演變不確定性、隱匿性、互動性等特點。在網絡信息技術高速發展的今天,輿情對社會穩定發展的影響越來越大。通過對大數據環境下網絡輿情預測算法的研究,及時、盡早、準確地預測互聯網上輿論熱點事件的走向趨勢和廣大老百姓生活息息相關的話題并提供信息化技術支撐,這既利于政府對輿情熱點信息的及時監控和引導,也有利于社會的和諧穩定發展。
計算智能是人工智能發展的一個新階段,是受到大自然智慧和人類智慧的共同啟發而設計出的一類解決復雜問題方法的統稱。與傳統的人工智能相比,計算智能的最大特點是問題本身不需建立精確的數學、邏輯模型,可以直接對輸入的測試數據進行處理。這一特點非常適合于解決大數據分析中難以建立有效的形式化模型,而用傳統技術難以解決、甚至無法解決的問題。近年來,計算智能理論與技術研究迅速發展,在圖像處理、模式識別、生物醫學、智能控制等諸多領域都得到了廣泛應用,取得了一系列令人鼓舞的研究成果。
計算智能在神經網絡、模糊系統、演化計算/群體智能發展的基礎上形成了一種新的研究方法。人工神經網絡(Artificial Neural Networks,簡寫為ANNs)也簡稱為神經網絡(NNs)或稱作連接模型(Connection Model),它是一種模仿動物神經網絡的行為特征,進行分布式并行信息處理的算法數學模型。這種網絡依靠系統的復雜程度,通過調整內部大量節點之問相互連接的關系,從而達到處理信息的目的。模糊系統(fuzzy system),是一種將輸入、輸出和狀態變量定義在模糊集上的系統,是確定性系統的一種推廣。模糊系統從宏觀出發,抓住了人腦思維的模糊性特點,在描述高層知識方面有其長處,可以模仿人的綜合推斷來處理常規數學方法難以解決的模糊信息處理問題,使計算機應用得以擴大到人文、社會科學及復雜系統等領域。它能夠較好地解決非線性問題,現已廣泛應用于自動控制、模式識別(pattern recognitioy)、決策分析(decesion analysis)、時序信號處理,以及人機對話系統、經濟信息系統、醫療診斷系統、地震預測系統、天氣預報系統等方面。遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。
2大數據環境下網絡輿情預測算法
2.1網絡輿情預測混合算法
網絡輿情在大量的網絡數據之中,具有延續性、交互性和演化性,有一定的可預測性。由于網絡輿情發展趨勢的預測具有較高的復雜性,采用傳統統計學的方法具有一定的局限性,而非線性預測方法是研究的一個大方向,主要包括灰色模型、支持向量機、神經網絡等。
神經網絡具有自組織、自學習、強魯棒性等特點,在很多領域取得了較好的預測效果,解決了不少難點問題。RBF神經網絡(Radial BasisFunction Neural Network)拓撲結構簡單、學習速度快,主要應用于自適應系統;BP神經網絡(BackPropagation Neural Network)不需要建立模型,有很強的非線性數據擬合能力。神經網絡經過長時問的訓練,對非線性函數可以達到任意精度。由于神經網絡在容錯能力方面存在著一定的問題,進行算法測試容易出現極小值,導致收斂速度慢、不穩定性等缺點。將粒子群優化算法與神經網絡技術相結合,提出網絡輿情預測混合算法,在提高算法預測準確性的同時,可以加快算法的收斂速度。
粒子群優化算法是一種模擬鳥類捕食行為的群體智能進化算法,具有收斂速度快、操作方便簡單等特點,特別適合于對神經網絡的優化。在網絡輿情預測混合算法中,神經網絡的參數通過粒子群優化算法優化后得到。神經網絡的輸入數據是將原始輿情數據進行預處理后得到的時問序列數據。經神經網絡計算后得到輿情事件發展趨勢的預測結果。具體的算法設計與實現步驟如圖1所示。
2.2輿情預測算法的并行化
隨著網絡輿情數據規模的不斷變大,傳統算法在小數據集上能有效運行的計算復雜度,在大數據集上運行變得越來越困難。
群體智能算法(如PSO、ACO)天生具有較強的實施并行性和分布式處理的能力,因此,將輿情預測混合算法(粒子群優化+神經網絡)進行移植,以適應并行計算(MapReduce、Spark)的特點,提高算法的速度和可擴展性。面對海量的數據,并行化是解決算法速度和擴展性問題的最有效途徑。
首先需要將輿情原始數據存入大數據系統中:半結構化數據存入NoSQL數據庫(如HBase),非結構化數據存入分布式文件系統(如ItDFS)。在此基礎上,將網絡輿情預測混合算法移植到MapReduce框架(離線計算)或Spark組件(內存計算)上,充分利用并行計算的優勢,提高算法的收斂精度和算法的求解效率,具體的實現步驟如圖2所示。
3解決相關問題的策略方法與技術
3.1神經網絡的參數優化與并行化
使用粒子群算法(PSO)優化神經網絡的參數(連接權值和閾值)可以解決神經網絡算法收斂速度慢的缺點,但是PSO優化參數的終止條件(迭代次數)需要人為設定。迭代次數過少而得不到較優的初始參數,迭代次數過多算法效率又會低下,合適的迭代次數需要經過反復大量的實驗。
傳統神經網絡算法的并行化,主要是在Map階段計算并輸出每個權值的變化量,在Reduce階段統計每個權值的總變化量,之后再對權值進行調整。這種方法會產生大量的中問結果,導致頻繁的磁盤I/O操作,拖慢整個作業的完成時問。使用內存計算Spark組件作為神經網絡算法并行化移植的目標,能大大降低磁盤操作,加快算法效率。
3.2利用計算智能技術進行網絡輿情預測
人工智能使網絡輿情的研究內容由輿情跟蹤轉向輿情預測。現有輿情預測強調是時問序列預測模型的重要性,是線性關系的預測;而網絡輿情受隨機因素影響較大,具有許多的不確定性,主要為非線性關系。計算智能的一大特點是可解決那些難以建立有效的精確數學模型/邏輯模型,基于計算智能中的神經網絡和粒子群優化算法,提出網絡輿情預測混合算法,為輿情預測提供了另一個有效模型。
3.3引入大數據技術提高算法性能并進行全數據分析
由于算法單機運行模式的限制,現有輿情分析和輿情預測只能依賴采樣數據。引入大數據技術,不僅提高輿情預測算法的執行效率和可擴展性,而且使網絡輿情研究可以立足于全量數據分析,從海量輿情數據中挖掘出真實可靠的、有價值的輿情信息。
4結束語
網絡輿情是對輿情整個事件的具體描述、對事件的觀點和立場,在短時問內會大規模、快速的擴散,因此盡早地預測輿情事件的走向和態勢,相關部門就可以掌握社情民意,及時發現工作中存在的不足,對負面聲音進行引導。互聯網的海量數據又給輿情預測帶來了更嚴峻的挑戰,從網絡輿情預測混合算法、輿情預測算法的并行化入手,可以研究大數據環境下網絡輿情的趨勢預測問題。