999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT模型的中文輿情文本分類應用

2020-07-04 15:34:50謝劍輝
科學與財富 2020年14期

謝劍輝

摘 要:BERT、ULMFiT等模型均采用了預訓練聯(lián)合微調的架構,能夠更深刻的解讀語句內涵,其在微調整階段表現(xiàn)出快捷、有效等特征,且模型的泛化性進一步增強,逐漸演變成自然語言處理領域中的最強、最新穎模型。文章在介紹BERT模型的基礎上,基于簡易的遷徙學習策略,將該模型用于中文輿情文本分類領域中,在比較中證實BERT模型的優(yōu)越性。

關鍵詞:文本分類;BERT;網(wǎng)絡輿情

在很長的一段時間內,自然語言處理(NLP)為人工智能領域中研究的重點、熱點,其面對的是繁雜多變的自然語言,希望基于精致的數(shù)學模型深度解讀語句內涵,進而實現(xiàn)人和機器之間的自然交互。2018年年末,谷歌團隊對外發(fā)布了以雙向Transformer預訓練語言模型(BERT),通過查閱相關文獻資料后發(fā)現(xiàn)[1],BERT用于中文NLP的研究處于早期探索階段,輿情數(shù)據(jù)類別劃分是該領域研究的熱點之一,若能利用一種較科學、完善模型,微調現(xiàn)存模型,則可早短期能提升對任務運作需求的適用度,優(yōu)化研究工作質量。本文主要探究BERT模型在輿情文本分類任務執(zhí)行中的訓練成效。

1、 BERT模型介紹

從本質上分析,BERT語言模型就是 Transformer 模型的編碼器部分。于在BERT的論文內,科研人員共計訓練了兩個BERT模型,即BERTBASE和BERTLARGE,參數(shù)量不同是以上兩個模型的主要區(qū)別,前者持有12個多頭自注意力層(L=12),各層均分布12個頭(A=12)中間向量維度768(H =768);參數(shù)量有110M。BERTLARGE有24個多頭自注意力層(L=24)各層有16個頭(A= 16),中間向量維度是1024(H = 1024),參數(shù)量340M。既往在諸多測試中,BERTLARGE的結果均優(yōu)于BERTBASE,這提示在預訓練任務和模型結構等同時,參數(shù)提高取得的成效是極為顯著的。

1.1輸入處理

BERT作為語言模型需面對眾多任務,督促要謹慎采用BERT進行輸入處理,基于詞向量增設位置向量,還需添加段落向量以應對一些和句子對相關的問題。圖1 為該過程的可視化圖[2]。

可以觀察到,一個特別表示被加入到序列首位,針對部分句子或句子對分類任務,該標識的最后輸出即是整個句子或句子對的表象特征。針對其他類型的任務,該標識盡管參與了序列編碼過程,但最后輸出情況不被重視。BERT能夠依照圖1所示的形式對句子對行“打包”處理,形成單一句子再做處置,且使用特殊標識[SEP]分隔句子、整合段向量,進而使模型精確區(qū)分兩個不同的句子。

1.2預訓練

(1)預測遮蔽詞

BERT模型采用的是雙向編碼器,綜合考慮前文以及后文詞,且在多層注意力機制的作用下,促使從第二個層面開始,各此的編碼均能捕獲到所有詞的信息。為更嚴格的訓練語言模型,創(chuàng)設新的預訓練法——遮蔽詞語言模型訓練。在該訓練內,特殊標識[MASK]會隨機取代輸入序列內的元素,借此方式屏蔽某一詞于層次編碼階段的所有信息。

(2)判斷下一句

很重關鍵的下游任務運作階段均需深度解讀不同句子對之間的關聯(lián)性,比如語義類似度、翻譯質量測評等。若只應用遮蔽詞訓練形式,則難以保證模型能精確捕獲句子對的關系,故而需基于另一種預訓練任務去強化模型在該方面的能力。預測一個句子是不是銜接另一個句子的下一句,實質上便是下一句判斷任務。該任務的達成過程較為簡易:經(jīng)語料庫內提取任一語句A,并捕獲其下一句B,基于50%的概率用B將語料庫內無關聯(lián)的句子C取代。

1.3微調

基于BERT模型能夠有效落實多樣化的NLP任務。而在面對不同NLP任務的處理需求時,無需調整BERT模型的內部結構,其只需要將指定的網(wǎng)絡層添加至最后編碼層上即可滿足任務處理要求,這在很大程度上也為BERT模型在處理眾多任務階段遷徙學習創(chuàng)造便利條件。

在處理不同的下游任務時,BERT模型會作出微調整。比如,針對句子對分類任務而言,可以將這兩個句子拼接成一個長句,而后依照上文闡述的方法處理后進行輸入,也可以對句子開頭部位的特別標識[CLS]作出編碼處理后,將獲得的向量設為語句表征。而若面對的是類似于智能問答任務時,要可以忽視特別標識[CLS]產(chǎn)出的編碼結果,也可以采用和單詞相配套的編碼結果去判斷準確答案的起始、終止位置[3]。

綜合如上論述的內容,我們發(fā)現(xiàn)BERT模型應用過程表現(xiàn)出較高的靈活度,可以結余不同的任務需求整頓差異性的輸出策略。盡管全部參數(shù)需要參與到微調整過程,但事實上其于預測訓練環(huán)節(jié)成熟度就已抵達較高水平了,可以較精準的捕獲語句的抽象特征,故而微調操作等同提升BERT模型應對不同人物的速度與準確度。

2、 BERT模型的訓練

筆者在研究階段,將全銜接網(wǎng)絡添加至BERT模型的輸出結果上,并且聯(lián)合使用softma作為分類器。選定的訓練數(shù)據(jù)是微博輿情數(shù)據(jù),數(shù)據(jù)集共計有10大類,涵蓋民生、文化、娛樂、體育、財經(jīng)、房地產(chǎn)、汽車、教育、科技、軍事。對應的樣本數(shù)依次為2116、、2258、6043、6192、4640、2102、5935、4505、5740、2780。

本模型的Fine-turning于Tesla K80 GPU內完成訓練,一輪訓練活動歷史大概為6min。表1是BERT模型后的記錄情況[4]。

筆者針對本次研究中模型訓練結果和楊艷等[5]提出的文本分類模型進行比較分析,采用雙向LSTM銜接卷尺神經(jīng)網(wǎng)絡(CNN),設定CNN的一維卷積核長為3,卷積核數(shù)是64,最大值池化層與softmax 銜接并作為分類器。表2是模型訓練期間數(shù)據(jù)的記錄情況[5]。

對比表1、2內數(shù)據(jù)信息整體分析后,發(fā)現(xiàn)BERT模型訓練時在準確率、召回率指標上均優(yōu)于基于LSTM銜接CNN模型的訓練結果,這可能是因為BERT對句子長距離特征持有更強的捕獲能力,且確保了被捕獲語言特征的相對完整性與多樣性。

3、 結束語

BERT模型基于特有的雙向編碼,在各層內部均形成了雙向邏輯關系,能夠完成十余個語言處理領域的任務,利用BooksCorps、英文維基百科量大語料庫,靈活的遷徙到下游各個任務內,接受以字作為embedding的輸入結果,單難以完全規(guī)避部分語義信息遺失的問題。這提示在后續(xù)研究中,應加大BERT 的 Transformer構思的參考力度,訓練出對詞語有強大動態(tài)編碼能力的模型,進而最大限度的強化語義闡述與特征提取能力。

參考文獻:

[1]龔韶,劉興均.網(wǎng)絡輿情安全監(jiān)測語義識別研究綜述[J].網(wǎng)絡安全技術與應用,2019,14(07):52-57.

[2]顧凌云.基于多注意力的中文命名實體識別[J].信息與電腦(理論版),2019,41(09):41-44+48.

[3]朱昶勝,孫欣,馮文芳.基于R語言的網(wǎng)絡輿情對股市影響研究[J].蘭州理工大學學報,2018,44(04):103-108.

[4]王璟琦,李銳,吳華意.基于空間自相關的網(wǎng)絡輿情話題演化時空規(guī)律分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(02):64-73.

[5]楊艷,徐冰,楊沐昀,等.一種基于聯(lián)合深度學習模型的情感分類方法[J].山東大學學報(理學版),2017,52(09):19-25.

主站蜘蛛池模板: 欧美日韩精品综合在线一区| 区国产精品搜索视频| 国产美女精品人人做人人爽| 五月天香蕉视频国产亚| 波多野结衣第一页| 免费人欧美成又黄又爽的视频| 香蕉视频国产精品人| 亚洲一区二区三区香蕉| 精品午夜国产福利观看| 中文字幕自拍偷拍| 88av在线看| 在线观看亚洲精品福利片| 无码内射在线| 天天干天天色综合网| 欧美国产菊爆免费观看| 欧美日韩第二页| 国产99热| 欧美高清国产| 亚洲天堂视频在线播放| 久久青草精品一区二区三区| 国产精品欧美在线观看| 国产尤物jk自慰制服喷水| 国产成人精品在线1区| 亚洲第一极品精品无码| 国产日韩丝袜一二三区| 超碰色了色| 亚洲视频a| 99激情网| 久久一级电影| 国产一在线观看| 乱人伦99久久| 国产男女免费完整版视频| 欧美性色综合网| 欧美黑人欧美精品刺激| 欧美综合成人| 日本午夜三级| 亚洲视频黄| 欧美午夜小视频| 久久视精品| 日本一区高清| 午夜小视频在线| 久久精品视频亚洲| 亚洲无线一二三四区男男| 亚洲精品不卡午夜精品| 五月天福利视频| 中文字幕在线欧美| 国产在线高清一级毛片| 国产精品第一区| 久久青青草原亚洲av无码| 欧美一区二区福利视频| 国产成人调教在线视频| 亚洲无码高清免费视频亚洲| 国产日韩丝袜一二三区| 欧美不卡二区| 99久久精品国产综合婷婷| 操国产美女| 亚洲国产无码有码| 丁香六月激情综合| 在线中文字幕日韩| 日本成人一区| 久久精品这里只有精99品| 国产爽歪歪免费视频在线观看| 国产精品女在线观看| 国产尹人香蕉综合在线电影| 国产情精品嫩草影院88av| 亚洲乱码在线播放| 日日碰狠狠添天天爽| 99久久精品国产自免费| 精品一区二区三区自慰喷水| 国产精品网址你懂的| 99精品一区二区免费视频| 国产成人亚洲无吗淙合青草| 成人毛片在线播放| 亚洲精品国产综合99久久夜夜嗨| 国产色婷婷| 亚洲男人天堂网址| 久草视频福利在线观看| 国产又粗又猛又爽| 精品视频一区在线观看| 伊伊人成亚洲综合人网7777| 毛片免费试看| 高清色本在线www|