章艷華,楊 碩,柳 超
(江蘇電子信息職業(yè)學(xué)院商學(xué)院,江蘇 淮安 223003)
當(dāng)前教育裝備輿情分析相關(guān)信息化系統(tǒng)研究并不成熟,多采用傳統(tǒng)方案,如問卷調(diào)查等,使得數(shù)據(jù)源不足,數(shù)據(jù)量和數(shù)據(jù)內(nèi)容較為局限。
網(wǎng)絡(luò)輿情分析主要側(cè)重于事件的監(jiān)測與分析,包括網(wǎng)絡(luò)輿情觀點、情緒的挖掘以及網(wǎng)絡(luò)集群行為的監(jiān)測分析[1-2],而分析與監(jiān)測報告主要偏重于統(tǒng)計分析[3-4]。近年來,蘭月新等[5]研究了大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情的主體交互機制,張鵬高等[6]進行了基于大數(shù)據(jù)的教育輿情監(jiān)控與分析,王丹丹等[7]構(gòu)建了新媒體和大數(shù)據(jù)背景下的多校區(qū)高校網(wǎng)絡(luò)輿情體系,SUN等[8]基于網(wǎng)絡(luò)數(shù)據(jù)分析了教育輿情中的知識圖譜。上述研究取得一定成效,但直觀度和跨媒體的融合度還不夠。
自然語言處理NLP是一門交叉學(xué)科,集語言學(xué)、計算機科學(xué)、統(tǒng)計為一體,是機器翻譯、語音助手、推薦系統(tǒng)等領(lǐng)域得到蓬勃發(fā)展的重要核心[9]。隨著計算機算力的不斷提升,NLP研究者們開始關(guān)注深度學(xué)習(xí)的可行性,2017年谷歌發(fā)布基于注意力機制的并行計算模型Transformers[10],同時解決年卷積神經(jīng)網(wǎng)絡(luò)不適用于長文本及循環(huán)神經(jīng)網(wǎng)絡(luò)無法并行計算的困擾,為NLP乃至于整個深度學(xué)習(xí)領(lǐng)域帶來了巨大突破。2019年,谷歌推出的深度雙向Transformer模型的預(yù)訓(xùn)練模型BERT刷新了業(yè)界多項記錄。
對于BERT預(yù)訓(xùn)練模型,本文介紹了一種教育裝備輿情分析決策系統(tǒng)。該系統(tǒng)主要是通過采集來自微博、論壇、專業(yè)網(wǎng)站的輿情數(shù)據(jù),通過BERT算法完成大數(shù)據(jù)分析,提供決策支持。本文的研究目標(biāo)是將多種類海量數(shù)據(jù)源中進行抓取、清洗、梳理并存儲,進而克服教育裝備產(chǎn)業(yè)輿情管理涉及面廣、問題復(fù)雜度高的問題。
BERT預(yù)訓(xùn)練模型由輸入層、編碼層和輸出層3部分組成。谷歌提供了2款模型,分別為12層transformer、12層Attention Heads、768個隱層單元以及1.1億參數(shù)的base模型和24層transformer、16層Attention Heads、1 024個隱層單元以及3.4億參數(shù)的large模型,具體如表1所示。

表1 2款BERT模型結(jié)構(gòu)對比
其中,輸入層完成將輸入文本轉(zhuǎn)換為詞向量的工作,將3類特征相加:Token Embedding(詞特征嵌入)、Segment Embedding(句級特征嵌入)、Position Embedding(位置特征)。
BERT輸入層如圖1所示。BERT使用Transformer結(jié)構(gòu)的編碼器作為模型編碼層,其同時具有RNN提取長距離依賴關(guān)系的能力和CNN并行計算的能力。這2種能力主要是得益于Transformer-encoder中的self-attention結(jié)構(gòu),在計算當(dāng)前詞的時候同時利用了它上下文的詞,使其能提取詞之間長距離依賴關(guān)系;由于每個詞的計算都是獨立不互相依賴,所以可以同時并行計算所有詞的特征。

圖1 BERT輸入層
BERT預(yù)訓(xùn)練的時候使用2大任務(wù)進行迭代訓(xùn)練,根據(jù)不同任務(wù)輸出也不同。2大任務(wù)包括:①典型的掩碼學(xué)習(xí)模型(Mask Learning Mode,簡稱MLM)。隨機遮擋15%的輸入數(shù)據(jù),通過上下文預(yù)測遮蓋詞。通過迭代訓(xùn)練,模型將學(xué)習(xí)到遮擋詞的語法特征、句法特征及上下文特征,提取了豐富的詞特征。其中,在選擇Mask的15%的詞當(dāng)中,以80%的概率直接遮擋掉這個詞,以10%的概率采用任意詞替換法,這種方式將增強BERT模型的魯棒性。②句子連貫性判斷(Next Sentence Prediction,簡稱NSP),對輸入的可能相關(guān)或無關(guān)的兩句話進行迭代訓(xùn)練,學(xué)習(xí)句子間的關(guān)系。
通過上面2種方法,BERT首次將無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)這一模式推廣到更深層的雙向結(jié)構(gòu)中,再加上超大規(guī)模的語料訓(xùn)練集,BERT擁有了極高的魯棒性,提高了BERT在下游任務(wù)中的效率,給自然語言處理領(lǐng)域帶來了里程碑式的提升。
本系統(tǒng)以信息抽取技術(shù)為核心,針對無法快速全面獲取信息的問題,設(shè)計了數(shù)據(jù)采集模塊和數(shù)據(jù)分析模塊。借助Web信息抽取、大數(shù)據(jù)語義分析等技術(shù),實現(xiàn)互聯(lián)網(wǎng)海量多樣性數(shù)據(jù)融合,利用BERT算法模型實現(xiàn)輿情數(shù)據(jù)挖掘,幫助用戶快速獲取豐富且準(zhǔn)確的信息。系統(tǒng)總體框架如圖2所示。

圖2 輿情分析系統(tǒng)總體框架圖
其中,數(shù)據(jù)采集處理模塊主要是根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實際需要,提供基于Spark集群技術(shù)的大數(shù)據(jù) ETL(Extract Transform Load,抽取、轉(zhuǎn)換、加載)技術(shù)的數(shù)據(jù)服務(wù)。對于與教育裝備相關(guān)的外部Web環(huán)境,提供相關(guān)的數(shù)據(jù)指標(biāo)抽取、存儲轉(zhuǎn)換和分析處理服務(wù)。采用Web信息抽取以及基于信息熵的核心信息提取關(guān)鍵技術(shù),是教育裝備行業(yè)的創(chuàng)新,為教育裝備企業(yè)能夠提供準(zhǔn)確優(yōu)質(zhì)的行業(yè)數(shù)據(jù)信息提供了良好保證。
數(shù)據(jù)分析模塊主要實現(xiàn)從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源中抓取輿情信息,實現(xiàn)數(shù)據(jù)清洗并除存儲,最終基于NLP算法模型實現(xiàn)輿情分析并提供決策信息。
大數(shù)據(jù)和人工智能算法是本系統(tǒng)研發(fā)的理論基礎(chǔ)。系統(tǒng)根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實際需要,從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源抓取輿情信息,預(yù)處理后完成結(jié)構(gòu)化存儲,為自然語言處理算法模型的訓(xùn)練、調(diào)優(yōu)及最終上線提供重要支撐。
本系統(tǒng)所涉及的輿情分析主要是基于教育裝備產(chǎn)業(yè)集群的網(wǎng)絡(luò)數(shù)據(jù)模式以及決策需求。系統(tǒng)總體工作流程如圖3所示。

圖3 系統(tǒng)總體工作流程
從圖3中可以看出,系統(tǒng)工作流程主要包含以下核心步驟。
步驟1:網(wǎng)絡(luò)數(shù)據(jù)采集及存儲。系統(tǒng)抓取互聯(lián)網(wǎng)新聞、論壇、博客等輿情信息,清洗并結(jié)構(gòu)化存儲至系統(tǒng)數(shù)據(jù)庫中,通過輿情搜索引擎對海量的輿情數(shù)據(jù)進行高效檢索。
步驟2:輿情分析。對采集處理并存儲的數(shù)據(jù),進行自然語言算法模型的訓(xùn)練調(diào)優(yōu),為后續(xù)決策系統(tǒng)提供對應(yīng)預(yù)測結(jié)果的輸出。
步驟3:輿情發(fā)布。根據(jù)業(yè)務(wù)需求,為用戶輸出可視化的決策信息,幫助用戶完成輿情分析決策。
綜合整體工作流程,系統(tǒng)涉及的子模塊包括:①Web數(shù)據(jù)抽取模塊。就selenium網(wǎng)絡(luò)爬蟲技術(shù)以及Spark Streaming技術(shù)進行網(wǎng)絡(luò)數(shù)據(jù)抽取。②數(shù)據(jù)轉(zhuǎn)換模塊。使用Spark RDD技術(shù)進行數(shù)據(jù)轉(zhuǎn)換。③數(shù)據(jù)存儲和加載模塊。使用Spark SQL技術(shù)進行數(shù)據(jù)的存儲和加載。④數(shù)據(jù)檢索查詢模塊。使用Spark SQL和正則化匹配技術(shù)完成數(shù)據(jù)的檢索和查找。⑤數(shù)據(jù)錄入模塊。設(shè)計GUI交互界面,完成相應(yīng)的數(shù)據(jù)手動輸入和數(shù)據(jù)導(dǎo)入功能。⑥分類決策模塊。使用支持向量機技術(shù)實現(xiàn)分類分析。⑦聚類決策模塊。使用層次聚類技術(shù)實現(xiàn)聚類分析。⑧回歸預(yù)測模塊。使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實現(xiàn)回歸預(yù)測分析。⑨大數(shù)據(jù)可視化系統(tǒng)。使用PCA算法實現(xiàn)降維,并且使用分類和聚類技術(shù)將數(shù)據(jù)區(qū)別化展示。⑩平臺管理系統(tǒng)。提供平臺整體角色配置管理、日志管理等。
數(shù)據(jù)分析模塊的核心是自然語言算法模型,對數(shù)據(jù)采集模塊獲取的輿情數(shù)據(jù)進行訓(xùn)練調(diào)優(yōu),不斷優(yōu)化,建立文本的數(shù)據(jù)挖掘模型,從而實現(xiàn)智能決策所需要的分類、聚類以及回歸預(yù)測分析算法功能,方便用戶的決策。數(shù)據(jù)分析流程如圖4所示。

圖4 數(shù)據(jù)分析流程
數(shù)據(jù)分析模塊的回歸預(yù)測分析部分選用是谷歌公司在2019年提出的一種基于Transformer的雙向語言模型BERT預(yù)訓(xùn)練模型。由于該模型與傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)模型在文本特征方式上不同,使得BERT非常適合遷移學(xué)習(xí),將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)之中,該模型在命名實體識別、詞性標(biāo)注、情感分類和智能問答等方面都曾一度取得前所未有的效果。BERT的非線性表征向量可以有效解決“一詞多義”問題,并行運算的能力可以極大提升訓(xùn)練和預(yù)測效率,經(jīng)受過海量語料庫訓(xùn)練的BERT將以極高的魯棒性適應(yīng)本項目輿情分析需求。
此外,數(shù)據(jù)分析系統(tǒng)提供了功能和模塊:①詞庫配置功能。對常用詞、褒義詞和貶義詞庫進行配置,方便對文本的分析。②分詞模塊。使用前向后向最大匹配算法對文本進行分詞,然后根據(jù)常用詞庫去除無意義的常用詞匯。③詞頻統(tǒng)計模塊。使用該模塊可以對分詞以后的結(jié)果進行詞頻統(tǒng)計,得出不同詞匯出現(xiàn)的詞頻,得到詞匯和詞頻的鍵值對,方便進一步的分析。④數(shù)據(jù)管理模塊。通過該模塊可以對文本處理的中間數(shù)據(jù)進行管理,包括數(shù)據(jù)的增刪、復(fù)制、刪除和移動等操作。
本文基于PyTorch Transformers模型庫構(gòu)建BERT網(wǎng)絡(luò)模型,對來自網(wǎng)絡(luò)新聞、公眾號、博客、論壇、微博的輿情數(shù)據(jù)進行分析。本文基于優(yōu)化庫torch.optim通過lr_scheduler對學(xué)習(xí)率進行優(yōu)化,最終以0.000 01作為模型學(xué)習(xí)率,實現(xiàn)Adam優(yōu)化器,最終達到預(yù)測AUC值81.48%。
本文介紹了一種教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)通過抓取海量的網(wǎng)絡(luò)數(shù)據(jù),對數(shù)據(jù)自動進行動態(tài)糾偏及實施校準(zhǔn),并搭建了面向用戶的多維度數(shù)據(jù)存儲與智能管理中心,通過動態(tài)融合多源數(shù)據(jù)并深度挖掘數(shù)據(jù)關(guān)聯(lián)特征,構(gòu)建了教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析平體系。在此基礎(chǔ)上,分別從多源數(shù)據(jù)的智能采集、數(shù)據(jù)預(yù)處理過程、數(shù)據(jù)融合分析過程提供動態(tài)交互的輔助決策分析服務(wù),并對云平臺的架構(gòu)需求進行設(shè)計,以提供快速實施系統(tǒng)的各類風(fēng)險預(yù)警及快速處置,從而全面搭建了多源數(shù)據(jù)融合的輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)構(gòu)建了多目標(biāo)導(dǎo)向的輿情數(shù)據(jù)融合分析體系,通過分析教育裝備產(chǎn)業(yè)導(dǎo)向和用戶服務(wù)需求導(dǎo)向下輿情數(shù)據(jù)融合分析過程中的各類影響因素,研究多種因素共同作用下用戶滿意度的動態(tài)演變規(guī)律。