基于BERT預(yù)訓(xùn)練模型的教育裝備供應(yīng)鏈輿情報告系統(tǒng)＊

2022-08-15 06:48:00章艷華

科技與創(chuàng)新 2022年16期

章艷華，楊碩，柳超

（江蘇電子信息職業(yè)學(xué)院商學(xué)院，江蘇淮安 223003）

當(dāng)前教育裝備輿情分析相關(guān)信息化系統(tǒng)研究并不成熟，多采用傳統(tǒng)方案，如問卷調(diào)查等，使得數(shù)據(jù)源不足，數(shù)據(jù)量和數(shù)據(jù)內(nèi)容較為局限。

網(wǎng)絡(luò)輿情分析主要側(cè)重于事件的監(jiān)測與分析，包括網(wǎng)絡(luò)輿情觀點、情緒的挖掘以及網(wǎng)絡(luò)集群行為的監(jiān)測分析[1-2]，而分析與監(jiān)測報告主要偏重于統(tǒng)計分析[3-4]。近年來，蘭月新等[5]研究了大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情的主體交互機制，張鵬高等[6]進行了基于大數(shù)據(jù)的教育輿情監(jiān)控與分析，王丹丹等[7]構(gòu)建了新媒體和大數(shù)據(jù)背景下的多校區(qū)高校網(wǎng)絡(luò)輿情體系，SUN等[8]基于網(wǎng)絡(luò)數(shù)據(jù)分析了教育輿情中的知識圖譜。上述研究取得一定成效，但直觀度和跨媒體的融合度還不夠。

自然語言處理NLP是一門交叉學(xué)科，集語言學(xué)、計算機科學(xué)、統(tǒng)計為一體，是機器翻譯、語音助手、推薦系統(tǒng)等領(lǐng)域得到蓬勃發(fā)展的重要核心[9]。隨著計算機算力的不斷提升，NLP研究者們開始關(guān)注深度學(xué)習(xí)的可行性，2017年谷歌發(fā)布基于注意力機制的并行計算模型Transformers[10]，同時解決年卷積神經(jīng)網(wǎng)絡(luò)不適用于長文本及循環(huán)神經(jīng)網(wǎng)絡(luò)無法并行計算的困擾，為NLP乃至于整個深度學(xué)習(xí)領(lǐng)域帶來了巨大突破。2019年，谷歌推出的深度雙向Transformer模型的預(yù)訓(xùn)練模型BERT刷新了業(yè)界多項記錄。

對于BERT預(yù)訓(xùn)練模型，本文介紹了一種教育裝備輿情分析決策系統(tǒng)。該系統(tǒng)主要是通過采集來自微博、論壇、專業(yè)網(wǎng)站的輿情數(shù)據(jù)，通過BERT算法完成大數(shù)據(jù)分析，提供決策支持。本文的研究目標(biāo)是將多種類海量數(shù)據(jù)源中進行抓取、清洗、梳理并存儲，進而克服教育裝備產(chǎn)業(yè)輿情管理涉及面廣、問題復(fù)雜度高的問題。

1 BERT預(yù)訓(xùn)練模型

BERT預(yù)訓(xùn)練模型由輸入層、編碼層和輸出層3部分組成。谷歌提供了2款模型，分別為12層transformer、12層Attention Heads、768個隱層單元以及1.1億參數(shù)的base模型和24層transformer、16層Attention Heads、1 024個隱層單元以及3.4億參數(shù)的large模型，具體如表1所示。

表1 2款BERT模型結(jié)構(gòu)對比

其中，輸入層完成將輸入文本轉(zhuǎn)換為詞向量的工作，將3類特征相加：Token Embedding（詞特征嵌入）、Segment Embedding（句級特征嵌入）、Position Embedding（位置特征）。

BERT輸入層如圖1所示。BERT使用Transformer結(jié)構(gòu)的編碼器作為模型編碼層，其同時具有RNN提取長距離依賴關(guān)系的能力和CNN并行計算的能力。這2種能力主要是得益于Transformer-encoder中的self-attention結(jié)構(gòu)，在計算當(dāng)前詞的時候同時利用了它上下文的詞，使其能提取詞之間長距離依賴關(guān)系；由于每個詞的計算都是獨立不互相依賴，所以可以同時并行計算所有詞的特征。

圖1 BERT輸入層

BERT預(yù)訓(xùn)練的時候使用2大任務(wù)進行迭代訓(xùn)練，根據(jù)不同任務(wù)輸出也不同。2大任務(wù)包括：①典型的掩碼學(xué)習(xí)模型（Mask Learning Mode，簡稱MLM）。隨機遮擋15%的輸入數(shù)據(jù)，通過上下文預(yù)測遮蓋詞。通過迭代訓(xùn)練，模型將學(xué)習(xí)到遮擋詞的語法特征、句法特征及上下文特征，提取了豐富的詞特征。其中，在選擇Mask的15%的詞當(dāng)中，以80%的概率直接遮擋掉這個詞，以10%的概率采用任意詞替換法，這種方式將增強BERT模型的魯棒性。②句子連貫性判斷（Next Sentence Prediction，簡稱NSP），對輸入的可能相關(guān)或無關(guān)的兩句話進行迭代訓(xùn)練，學(xué)習(xí)句子間的關(guān)系。

通過上面2種方法，BERT首次將無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)這一模式推廣到更深層的雙向結(jié)構(gòu)中，再加上超大規(guī)模的語料訓(xùn)練集，BERT擁有了極高的魯棒性，提高了BERT在下游任務(wù)中的效率，給自然語言處理領(lǐng)域帶來了里程碑式的提升。

2 系統(tǒng)總體框架與工作流程

2.1 系統(tǒng)總體框架

本系統(tǒng)以信息抽取技術(shù)為核心，針對無法快速全面獲取信息的問題，設(shè)計了數(shù)據(jù)采集模塊和數(shù)據(jù)分析模塊。借助Web信息抽取、大數(shù)據(jù)語義分析等技術(shù)，實現(xiàn)互聯(lián)網(wǎng)海量多樣性數(shù)據(jù)融合，利用BERT算法模型實現(xiàn)輿情數(shù)據(jù)挖掘，幫助用戶快速獲取豐富且準(zhǔn)確的信息。系統(tǒng)總體框架如圖2所示。

圖2 輿情分析系統(tǒng)總體框架圖

其中，數(shù)據(jù)采集處理模塊主要是根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實際需要，提供基于Spark集群技術(shù)的大數(shù)據(jù) ETL（Extract Transform Load，抽取、轉(zhuǎn)換、加載）技術(shù)的數(shù)據(jù)服務(wù)。對于與教育裝備相關(guān)的外部Web環(huán)境，提供相關(guān)的數(shù)據(jù)指標(biāo)抽取、存儲轉(zhuǎn)換和分析處理服務(wù)。采用Web信息抽取以及基于信息熵的核心信息提取關(guān)鍵技術(shù)，是教育裝備行業(yè)的創(chuàng)新，為教育裝備企業(yè)能夠提供準(zhǔn)確優(yōu)質(zhì)的行業(yè)數(shù)據(jù)信息提供了良好保證。

數(shù)據(jù)分析模塊主要實現(xiàn)從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源中抓取輿情信息，實現(xiàn)數(shù)據(jù)清洗并除存儲，最終基于NLP算法模型實現(xiàn)輿情分析并提供決策信息。

2.2 系統(tǒng)工作流程

大數(shù)據(jù)和人工智能算法是本系統(tǒng)研發(fā)的理論基礎(chǔ)。系統(tǒng)根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實際需要，從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源抓取輿情信息，預(yù)處理后完成結(jié)構(gòu)化存儲，為自然語言處理算法模型的訓(xùn)練、調(diào)優(yōu)及最終上線提供重要支撐。

本系統(tǒng)所涉及的輿情分析主要是基于教育裝備產(chǎn)業(yè)集群的網(wǎng)絡(luò)數(shù)據(jù)模式以及決策需求。系統(tǒng)總體工作流程如圖3所示。

圖3 系統(tǒng)總體工作流程

從圖3中可以看出，系統(tǒng)工作流程主要包含以下核心步驟。

步驟1：網(wǎng)絡(luò)數(shù)據(jù)采集及存儲。系統(tǒng)抓取互聯(lián)網(wǎng)新聞、論壇、博客等輿情信息，清洗并結(jié)構(gòu)化存儲至系統(tǒng)數(shù)據(jù)庫中，通過輿情搜索引擎對海量的輿情數(shù)據(jù)進行高效檢索。

步驟2：輿情分析。對采集處理并存儲的數(shù)據(jù)，進行自然語言算法模型的訓(xùn)練調(diào)優(yōu)，為后續(xù)決策系統(tǒng)提供對應(yīng)預(yù)測結(jié)果的輸出。

步驟3：輿情發(fā)布。根據(jù)業(yè)務(wù)需求，為用戶輸出可視化的決策信息，幫助用戶完成輿情分析決策。

3 系統(tǒng)子模塊構(gòu)成與關(guān)鍵子模塊實現(xiàn)

3.1 系統(tǒng)子模塊構(gòu)成

綜合整體工作流程，系統(tǒng)涉及的子模塊包括：①Web數(shù)據(jù)抽取模塊。就selenium網(wǎng)絡(luò)爬蟲技術(shù)以及Spark Streaming技術(shù)進行網(wǎng)絡(luò)數(shù)據(jù)抽取。②數(shù)據(jù)轉(zhuǎn)換模塊。使用Spark RDD技術(shù)進行數(shù)據(jù)轉(zhuǎn)換。③數(shù)據(jù)存儲和加載模塊。使用Spark SQL技術(shù)進行數(shù)據(jù)的存儲和加載。④數(shù)據(jù)檢索查詢模塊。使用Spark SQL和正則化匹配技術(shù)完成數(shù)據(jù)的檢索和查找。⑤數(shù)據(jù)錄入模塊。設(shè)計GUI交互界面，完成相應(yīng)的數(shù)據(jù)手動輸入和數(shù)據(jù)導(dǎo)入功能。⑥分類決策模塊。使用支持向量機技術(shù)實現(xiàn)分類分析。⑦聚類決策模塊。使用層次聚類技術(shù)實現(xiàn)聚類分析。⑧回歸預(yù)測模塊。使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實現(xiàn)回歸預(yù)測分析。⑨大數(shù)據(jù)可視化系統(tǒng)。使用PCA算法實現(xiàn)降維，并且使用分類和聚類技術(shù)將數(shù)據(jù)區(qū)別化展示。⑩平臺管理系統(tǒng)。提供平臺整體角色配置管理、日志管理等。

3.2 數(shù)據(jù)分析模塊的實現(xiàn)

數(shù)據(jù)分析模塊的核心是自然語言算法模型，對數(shù)據(jù)采集模塊獲取的輿情數(shù)據(jù)進行訓(xùn)練調(diào)優(yōu)，不斷優(yōu)化，建立文本的數(shù)據(jù)挖掘模型，從而實現(xiàn)智能決策所需要的分類、聚類以及回歸預(yù)測分析算法功能，方便用戶的決策。數(shù)據(jù)分析流程如圖4所示。

圖4 數(shù)據(jù)分析流程

數(shù)據(jù)分析模塊的回歸預(yù)測分析部分選用是谷歌公司在2019年提出的一種基于Transformer的雙向語言模型BERT預(yù)訓(xùn)練模型。由于該模型與傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)模型在文本特征方式上不同，使得BERT非常適合遷移學(xué)習(xí)，將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)之中，該模型在命名實體識別、詞性標(biāo)注、情感分類和智能問答等方面都曾一度取得前所未有的效果。BERT的非線性表征向量可以有效解決“一詞多義”問題，并行運算的能力可以極大提升訓(xùn)練和預(yù)測效率，經(jīng)受過海量語料庫訓(xùn)練的BERT將以極高的魯棒性適應(yīng)本項目輿情分析需求。

此外，數(shù)據(jù)分析系統(tǒng)提供了功能和模塊：①詞庫配置功能。對常用詞、褒義詞和貶義詞庫進行配置，方便對文本的分析。②分詞模塊。使用前向后向最大匹配算法對文本進行分詞，然后根據(jù)常用詞庫去除無意義的常用詞匯。③詞頻統(tǒng)計模塊。使用該模塊可以對分詞以后的結(jié)果進行詞頻統(tǒng)計，得出不同詞匯出現(xiàn)的詞頻，得到詞匯和詞頻的鍵值對，方便進一步的分析。④數(shù)據(jù)管理模塊。通過該模塊可以對文本處理的中間數(shù)據(jù)進行管理，包括數(shù)據(jù)的增刪、復(fù)制、刪除和移動等操作。

4 系統(tǒng)實際應(yīng)用效果

本文基于PyTorch Transformers模型庫構(gòu)建BERT網(wǎng)絡(luò)模型，對來自網(wǎng)絡(luò)新聞、公眾號、博客、論壇、微博的輿情數(shù)據(jù)進行分析。本文基于優(yōu)化庫torch.optim通過lr_scheduler對學(xué)習(xí)率進行優(yōu)化，最終以0.000 01作為模型學(xué)習(xí)率，實現(xiàn)Adam優(yōu)化器，最終達到預(yù)測AUC值81.48%。

5 結(jié)語

本文介紹了一種教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)通過抓取海量的網(wǎng)絡(luò)數(shù)據(jù)，對數(shù)據(jù)自動進行動態(tài)糾偏及實施校準(zhǔn)，并搭建了面向用戶的多維度數(shù)據(jù)存儲與智能管理中心，通過動態(tài)融合多源數(shù)據(jù)并深度挖掘數(shù)據(jù)關(guān)聯(lián)特征，構(gòu)建了教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析平體系。在此基礎(chǔ)上，分別從多源數(shù)據(jù)的智能采集、數(shù)據(jù)預(yù)處理過程、數(shù)據(jù)融合分析過程提供動態(tài)交互的輔助決策分析服務(wù)，并對云平臺的架構(gòu)需求進行設(shè)計，以提供快速實施系統(tǒng)的各類風(fēng)險預(yù)警及快速處置，從而全面搭建了多源數(shù)據(jù)融合的輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)構(gòu)建了多目標(biāo)導(dǎo)向的輿情數(shù)據(jù)融合分析體系，通過分析教育裝備產(chǎn)業(yè)導(dǎo)向和用戶服務(wù)需求導(dǎo)向下輿情數(shù)據(jù)融合分析過程中的各類影響因素，研究多種因素共同作用下用戶滿意度的動態(tài)演變規(guī)律。