999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT預(yù)訓(xùn)練模型的教育裝備供應(yīng)鏈輿情報告系統(tǒng)*

2022-08-15 06:48:00章艷華
科技與創(chuàng)新 2022年16期
關(guān)鍵詞:分析模型系統(tǒng)

章艷華,楊 碩,柳 超

(江蘇電子信息職業(yè)學(xué)院商學(xué)院,江蘇 淮安 223003)

當(dāng)前教育裝備輿情分析相關(guān)信息化系統(tǒng)研究并不成熟,多采用傳統(tǒng)方案,如問卷調(diào)查等,使得數(shù)據(jù)源不足,數(shù)據(jù)量和數(shù)據(jù)內(nèi)容較為局限。

網(wǎng)絡(luò)輿情分析主要側(cè)重于事件的監(jiān)測與分析,包括網(wǎng)絡(luò)輿情觀點、情緒的挖掘以及網(wǎng)絡(luò)集群行為的監(jiān)測分析[1-2],而分析與監(jiān)測報告主要偏重于統(tǒng)計分析[3-4]。近年來,蘭月新等[5]研究了大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情的主體交互機制,張鵬高等[6]進行了基于大數(shù)據(jù)的教育輿情監(jiān)控與分析,王丹丹等[7]構(gòu)建了新媒體和大數(shù)據(jù)背景下的多校區(qū)高校網(wǎng)絡(luò)輿情體系,SUN等[8]基于網(wǎng)絡(luò)數(shù)據(jù)分析了教育輿情中的知識圖譜。上述研究取得一定成效,但直觀度和跨媒體的融合度還不夠。

自然語言處理NLP是一門交叉學(xué)科,集語言學(xué)、計算機科學(xué)、統(tǒng)計為一體,是機器翻譯、語音助手、推薦系統(tǒng)等領(lǐng)域得到蓬勃發(fā)展的重要核心[9]。隨著計算機算力的不斷提升,NLP研究者們開始關(guān)注深度學(xué)習(xí)的可行性,2017年谷歌發(fā)布基于注意力機制的并行計算模型Transformers[10],同時解決年卷積神經(jīng)網(wǎng)絡(luò)不適用于長文本及循環(huán)神經(jīng)網(wǎng)絡(luò)無法并行計算的困擾,為NLP乃至于整個深度學(xué)習(xí)領(lǐng)域帶來了巨大突破。2019年,谷歌推出的深度雙向Transformer模型的預(yù)訓(xùn)練模型BERT刷新了業(yè)界多項記錄。

對于BERT預(yù)訓(xùn)練模型,本文介紹了一種教育裝備輿情分析決策系統(tǒng)。該系統(tǒng)主要是通過采集來自微博、論壇、專業(yè)網(wǎng)站的輿情數(shù)據(jù),通過BERT算法完成大數(shù)據(jù)分析,提供決策支持。本文的研究目標(biāo)是將多種類海量數(shù)據(jù)源中進行抓取、清洗、梳理并存儲,進而克服教育裝備產(chǎn)業(yè)輿情管理涉及面廣、問題復(fù)雜度高的問題。

1 BERT預(yù)訓(xùn)練模型

BERT預(yù)訓(xùn)練模型由輸入層、編碼層和輸出層3部分組成。谷歌提供了2款模型,分別為12層transformer、12層Attention Heads、768個隱層單元以及1.1億參數(shù)的base模型和24層transformer、16層Attention Heads、1 024個隱層單元以及3.4億參數(shù)的large模型,具體如表1所示。

表1 2款BERT模型結(jié)構(gòu)對比

其中,輸入層完成將輸入文本轉(zhuǎn)換為詞向量的工作,將3類特征相加:Token Embedding(詞特征嵌入)、Segment Embedding(句級特征嵌入)、Position Embedding(位置特征)。

BERT輸入層如圖1所示。BERT使用Transformer結(jié)構(gòu)的編碼器作為模型編碼層,其同時具有RNN提取長距離依賴關(guān)系的能力和CNN并行計算的能力。這2種能力主要是得益于Transformer-encoder中的self-attention結(jié)構(gòu),在計算當(dāng)前詞的時候同時利用了它上下文的詞,使其能提取詞之間長距離依賴關(guān)系;由于每個詞的計算都是獨立不互相依賴,所以可以同時并行計算所有詞的特征。

圖1 BERT輸入層

BERT預(yù)訓(xùn)練的時候使用2大任務(wù)進行迭代訓(xùn)練,根據(jù)不同任務(wù)輸出也不同。2大任務(wù)包括:①典型的掩碼學(xué)習(xí)模型(Mask Learning Mode,簡稱MLM)。隨機遮擋15%的輸入數(shù)據(jù),通過上下文預(yù)測遮蓋詞。通過迭代訓(xùn)練,模型將學(xué)習(xí)到遮擋詞的語法特征、句法特征及上下文特征,提取了豐富的詞特征。其中,在選擇Mask的15%的詞當(dāng)中,以80%的概率直接遮擋掉這個詞,以10%的概率采用任意詞替換法,這種方式將增強BERT模型的魯棒性。②句子連貫性判斷(Next Sentence Prediction,簡稱NSP),對輸入的可能相關(guān)或無關(guān)的兩句話進行迭代訓(xùn)練,學(xué)習(xí)句子間的關(guān)系。

通過上面2種方法,BERT首次將無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)這一模式推廣到更深層的雙向結(jié)構(gòu)中,再加上超大規(guī)模的語料訓(xùn)練集,BERT擁有了極高的魯棒性,提高了BERT在下游任務(wù)中的效率,給自然語言處理領(lǐng)域帶來了里程碑式的提升。

2 系統(tǒng)總體框架與工作流程

2.1 系統(tǒng)總體框架

本系統(tǒng)以信息抽取技術(shù)為核心,針對無法快速全面獲取信息的問題,設(shè)計了數(shù)據(jù)采集模塊和數(shù)據(jù)分析模塊。借助Web信息抽取、大數(shù)據(jù)語義分析等技術(shù),實現(xiàn)互聯(lián)網(wǎng)海量多樣性數(shù)據(jù)融合,利用BERT算法模型實現(xiàn)輿情數(shù)據(jù)挖掘,幫助用戶快速獲取豐富且準(zhǔn)確的信息。系統(tǒng)總體框架如圖2所示。

圖2 輿情分析系統(tǒng)總體框架圖

其中,數(shù)據(jù)采集處理模塊主要是根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實際需要,提供基于Spark集群技術(shù)的大數(shù)據(jù) ETL(Extract Transform Load,抽取、轉(zhuǎn)換、加載)技術(shù)的數(shù)據(jù)服務(wù)。對于與教育裝備相關(guān)的外部Web環(huán)境,提供相關(guān)的數(shù)據(jù)指標(biāo)抽取、存儲轉(zhuǎn)換和分析處理服務(wù)。采用Web信息抽取以及基于信息熵的核心信息提取關(guān)鍵技術(shù),是教育裝備行業(yè)的創(chuàng)新,為教育裝備企業(yè)能夠提供準(zhǔn)確優(yōu)質(zhì)的行業(yè)數(shù)據(jù)信息提供了良好保證。

數(shù)據(jù)分析模塊主要實現(xiàn)從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源中抓取輿情信息,實現(xiàn)數(shù)據(jù)清洗并除存儲,最終基于NLP算法模型實現(xiàn)輿情分析并提供決策信息。

2.2 系統(tǒng)工作流程

大數(shù)據(jù)和人工智能算法是本系統(tǒng)研發(fā)的理論基礎(chǔ)。系統(tǒng)根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實際需要,從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源抓取輿情信息,預(yù)處理后完成結(jié)構(gòu)化存儲,為自然語言處理算法模型的訓(xùn)練、調(diào)優(yōu)及最終上線提供重要支撐。

本系統(tǒng)所涉及的輿情分析主要是基于教育裝備產(chǎn)業(yè)集群的網(wǎng)絡(luò)數(shù)據(jù)模式以及決策需求。系統(tǒng)總體工作流程如圖3所示。

圖3 系統(tǒng)總體工作流程

從圖3中可以看出,系統(tǒng)工作流程主要包含以下核心步驟。

步驟1:網(wǎng)絡(luò)數(shù)據(jù)采集及存儲。系統(tǒng)抓取互聯(lián)網(wǎng)新聞、論壇、博客等輿情信息,清洗并結(jié)構(gòu)化存儲至系統(tǒng)數(shù)據(jù)庫中,通過輿情搜索引擎對海量的輿情數(shù)據(jù)進行高效檢索。

步驟2:輿情分析。對采集處理并存儲的數(shù)據(jù),進行自然語言算法模型的訓(xùn)練調(diào)優(yōu),為后續(xù)決策系統(tǒng)提供對應(yīng)預(yù)測結(jié)果的輸出。

步驟3:輿情發(fā)布。根據(jù)業(yè)務(wù)需求,為用戶輸出可視化的決策信息,幫助用戶完成輿情分析決策。

3 系統(tǒng)子模塊構(gòu)成與關(guān)鍵子模塊實現(xiàn)

3.1 系統(tǒng)子模塊構(gòu)成

綜合整體工作流程,系統(tǒng)涉及的子模塊包括:①Web數(shù)據(jù)抽取模塊。就selenium網(wǎng)絡(luò)爬蟲技術(shù)以及Spark Streaming技術(shù)進行網(wǎng)絡(luò)數(shù)據(jù)抽取。②數(shù)據(jù)轉(zhuǎn)換模塊。使用Spark RDD技術(shù)進行數(shù)據(jù)轉(zhuǎn)換。③數(shù)據(jù)存儲和加載模塊。使用Spark SQL技術(shù)進行數(shù)據(jù)的存儲和加載。④數(shù)據(jù)檢索查詢模塊。使用Spark SQL和正則化匹配技術(shù)完成數(shù)據(jù)的檢索和查找。⑤數(shù)據(jù)錄入模塊。設(shè)計GUI交互界面,完成相應(yīng)的數(shù)據(jù)手動輸入和數(shù)據(jù)導(dǎo)入功能。⑥分類決策模塊。使用支持向量機技術(shù)實現(xiàn)分類分析。⑦聚類決策模塊。使用層次聚類技術(shù)實現(xiàn)聚類分析。⑧回歸預(yù)測模塊。使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實現(xiàn)回歸預(yù)測分析。⑨大數(shù)據(jù)可視化系統(tǒng)。使用PCA算法實現(xiàn)降維,并且使用分類和聚類技術(shù)將數(shù)據(jù)區(qū)別化展示。⑩平臺管理系統(tǒng)。提供平臺整體角色配置管理、日志管理等。

3.2 數(shù)據(jù)分析模塊的實現(xiàn)

數(shù)據(jù)分析模塊的核心是自然語言算法模型,對數(shù)據(jù)采集模塊獲取的輿情數(shù)據(jù)進行訓(xùn)練調(diào)優(yōu),不斷優(yōu)化,建立文本的數(shù)據(jù)挖掘模型,從而實現(xiàn)智能決策所需要的分類、聚類以及回歸預(yù)測分析算法功能,方便用戶的決策。數(shù)據(jù)分析流程如圖4所示。

圖4 數(shù)據(jù)分析流程

數(shù)據(jù)分析模塊的回歸預(yù)測分析部分選用是谷歌公司在2019年提出的一種基于Transformer的雙向語言模型BERT預(yù)訓(xùn)練模型。由于該模型與傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)模型在文本特征方式上不同,使得BERT非常適合遷移學(xué)習(xí),將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)之中,該模型在命名實體識別、詞性標(biāo)注、情感分類和智能問答等方面都曾一度取得前所未有的效果。BERT的非線性表征向量可以有效解決“一詞多義”問題,并行運算的能力可以極大提升訓(xùn)練和預(yù)測效率,經(jīng)受過海量語料庫訓(xùn)練的BERT將以極高的魯棒性適應(yīng)本項目輿情分析需求。

此外,數(shù)據(jù)分析系統(tǒng)提供了功能和模塊:①詞庫配置功能。對常用詞、褒義詞和貶義詞庫進行配置,方便對文本的分析。②分詞模塊。使用前向后向最大匹配算法對文本進行分詞,然后根據(jù)常用詞庫去除無意義的常用詞匯。③詞頻統(tǒng)計模塊。使用該模塊可以對分詞以后的結(jié)果進行詞頻統(tǒng)計,得出不同詞匯出現(xiàn)的詞頻,得到詞匯和詞頻的鍵值對,方便進一步的分析。④數(shù)據(jù)管理模塊。通過該模塊可以對文本處理的中間數(shù)據(jù)進行管理,包括數(shù)據(jù)的增刪、復(fù)制、刪除和移動等操作。

4 系統(tǒng)實際應(yīng)用效果

本文基于PyTorch Transformers模型庫構(gòu)建BERT網(wǎng)絡(luò)模型,對來自網(wǎng)絡(luò)新聞、公眾號、博客、論壇、微博的輿情數(shù)據(jù)進行分析。本文基于優(yōu)化庫torch.optim通過lr_scheduler對學(xué)習(xí)率進行優(yōu)化,最終以0.000 01作為模型學(xué)習(xí)率,實現(xiàn)Adam優(yōu)化器,最終達到預(yù)測AUC值81.48%。

5 結(jié)語

本文介紹了一種教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)通過抓取海量的網(wǎng)絡(luò)數(shù)據(jù),對數(shù)據(jù)自動進行動態(tài)糾偏及實施校準(zhǔn),并搭建了面向用戶的多維度數(shù)據(jù)存儲與智能管理中心,通過動態(tài)融合多源數(shù)據(jù)并深度挖掘數(shù)據(jù)關(guān)聯(lián)特征,構(gòu)建了教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析平體系。在此基礎(chǔ)上,分別從多源數(shù)據(jù)的智能采集、數(shù)據(jù)預(yù)處理過程、數(shù)據(jù)融合分析過程提供動態(tài)交互的輔助決策分析服務(wù),并對云平臺的架構(gòu)需求進行設(shè)計,以提供快速實施系統(tǒng)的各類風(fēng)險預(yù)警及快速處置,從而全面搭建了多源數(shù)據(jù)融合的輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)構(gòu)建了多目標(biāo)導(dǎo)向的輿情數(shù)據(jù)融合分析體系,通過分析教育裝備產(chǎn)業(yè)導(dǎo)向和用戶服務(wù)需求導(dǎo)向下輿情數(shù)據(jù)融合分析過程中的各類影響因素,研究多種因素共同作用下用戶滿意度的動態(tài)演變規(guī)律。

猜你喜歡
分析模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
隱蔽失效適航要求符合性驗證分析
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
電力系統(tǒng)及其自動化發(fā)展趨勢分析
主站蜘蛛池模板: 久久久久久久97| av免费在线观看美女叉开腿| 性做久久久久久久免费看| 久久99国产乱子伦精品免| 国产成人高清精品免费5388| 本亚洲精品网站| 国产欧美亚洲精品第3页在线| 日本少妇又色又爽又高潮| 一级毛片免费观看久| 久久精品人人做人人爽电影蜜月 | 日本一本在线视频| 国产黄在线免费观看| 五月婷婷亚洲综合| 国产精品国产三级国产专业不| 日韩欧美综合在线制服| 亚洲中文字幕无码mv| 日本一区中文字幕最新在线| 欧洲av毛片| 欧美无专区| 国产理论一区| 亚洲美女高潮久久久久久久| 亚洲精品国偷自产在线91正片| 亚洲欧美h| 亚洲欧美成人在线视频| 福利视频一区| 在线观看av永久| 国产一二三区视频| 久久大香香蕉国产免费网站| 福利在线一区| 亚洲成人精品久久| 天天色天天综合| 无码专区国产精品第一页| 国产成人亚洲综合A∨在线播放| 97视频在线观看免费视频| 成人午夜视频免费看欧美| 国产视频久久久久| 亚洲va欧美ⅴa国产va影院| 亚洲高清中文字幕| 97超碰精品成人国产| 国产乱子伦视频在线播放| 免费全部高H视频无码无遮掩| 91在线一9|永久视频在线| 国模视频一区二区| 在线观看亚洲精品福利片| 精品久久蜜桃| 国产黄在线免费观看| 一级毛片无毒不卡直接观看| 97视频免费看| 国产亚洲精品资源在线26u| 99热国产这里只有精品无卡顿"| 人妻丰满熟妇AV无码区| 欧美特级AAAAAA视频免费观看| AV片亚洲国产男人的天堂| 全裸无码专区| 麻豆精品在线播放| 国产精品永久免费嫩草研究院| а∨天堂一区中文字幕| 亚洲无码高清视频在线观看 | 中文字幕第1页在线播| 亚洲国产中文精品va在线播放| 国产欧美一区二区三区视频在线观看| 国产亚洲欧美在线中文bt天堂| 欧美成人二区| 思思99热精品在线| 99色亚洲国产精品11p| 欧美午夜小视频| 日韩毛片免费观看| 无码一区18禁| 成年人福利视频| 久久香蕉国产线看观看精品蕉| 国产日韩av在线播放| 免费播放毛片| 伊人成人在线| 国内精自视频品线一二区| 国产欧美日韩资源在线观看 | 男女男免费视频网站国产| 色天堂无毒不卡| 国产一区二区三区夜色| 狠狠干综合| h网址在线观看| 国产原创第一页在线观看| 精品久久综合1区2区3区激情|