999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學習的微博謠言檢測方法

2021-12-23 04:35:26沈瑞琳潘偉民張海軍
計算機工程與設計 2021年12期
關鍵詞:深度特征文本

沈瑞琳,潘偉民,張海軍

(新疆師范大學 計算機科學技術學院,新疆 烏魯木齊 830054)

0 引 言

由于網絡的開放性、微博平臺的言論自由性等特點,微博在方便人們日常生活的同時,也為謠言的產生提供了便利場所。本文中謠言指未經證實的信息,即在人與人之間傳播,與公眾關注的對象、事件或問題有關,并且在沒有被權威機構證實的情況下流傳的信息,因此,信息可能是真的,也可能是假的。

現有的謠言檢測方法大致分為3種:一是基于人工的方法,主要依靠人的經驗對事件的真實性做出判斷,例如@微博辟謠、@謠言粉碎機,不僅耗費大量的人力和物力,還導致了更長的延遲。二是基于傳統機器學習的方法,根據消息內容、用戶信息、傳播模式等進行分析來人工構造特征,通過人工特征提取數據中的關鍵信息[1-5]。三是基于深度學習的方法,該方法不需要特征工程,同時可以挖掘到不易被人們發現的深層特征[6-11]。深度學習方法需要依賴大量的帶標簽數據才能學到更深層的特征表示,目前在微博謠言檢測工作中僅有少量的帶標簽數據。因此,解決深度學習模型中帶標簽數據少的問題是如今熱點研究問題之一。對于標注數據少的問題,研究者展開了大量研究。起初采用無監督的方法,但是由于數據沒有標注,導致分類歧義性較高。近幾年,隨著遷移學習的應用,許多領域標注數據少的問題開始得到有效解決。遷移學習是運用已有知識對不同但相關領域問題求解的一種機器學習方法[12],打破了傳統機器學習中訓練數據和測試數據必須滿足獨立同分布的假設,并且解決了標注數據不足的問題。如可以用來辨識自行車的知識也可以用來提升識別摩托車的能力。采用遷移學習方法借助相關領域豐富的數據資源,對于解決微博謠言檢測中帶標簽數據少的問題提供了很好的研究思路。本文將遷移學習技術應用于微博謠言檢測中,利用相關領域中充足的帶標簽數據輔助微博中少量的標簽數據,進行謠言檢測。

1 相關工作

社交媒體上的謠言自動檢測一直是近年來的一個研究熱點。傳統的謠言檢測方法主要利用人工構造特征,再采用機器學習模型學習文本的淺層特征。最早的自動謠言檢測方法源于2011年Castillo等[1]對Twitter中信息可信度的檢測,該方法首先利用特征工程構造特征,然后采用支持向量機(SVM)對文本進行檢測。Yang等[2]在2012年提出基于微博的謠言檢測方法,該方法利用微博中涉及的地理位置、發文客戶端信息、文本符號的情感極性等特征,采用SVM構造微博謠言分類器模型。后人在此基礎上展開了對Twitter和微博中謠言檢測的研究[3-5]。以上方法都需要特征工程的參與,不僅耗時費力,且僅能學到文本的淺層特征。

隨著深度神經網絡模型在很多領域取得了不錯的成果[13,14],研究者開始將深度神經網絡應用到微博謠言檢測領域。Ma等[6]提出基于深度神經網絡模型的微博謠言檢測方法,作者實現了tanh-RNN、長短期記憶網絡(LSTM)、門控循環單元(GRU)、雙層GRU這4種模型,由于循環神經網絡(RNN)存在梯度消失和梯度爆炸的問題,其它3種模型的性能普遍高于tanh-RNN,在單層網絡模型中GRU比LSTM性能略好,與雙層網絡模型比較,由于雙層GRU可以提取更深層的語義特征,因此性能最優,這也說明,使用相同的神經網絡,網絡層數越多模型性能越好。Sampson等[7]通過利用少量會話之間的隱式鏈接提高了早期謠言的檢測精度。Ruchansky等[8]提出了一種將文章文本、用戶的響應以及來源用戶3種特征結合起來的混合模型,結果優于僅使用單一特征和模型的方法。Yu等[9]將各時間段文本向量拼接成事件的特征矩陣,并采用卷積神經網絡(CNN)學習事件的隱層表示。Zhou等[10]通過強化學習實現謠言早期檢測。Li等[11]利用內容、用戶可信度和傳播信息在社交媒體上發現謠言。這些方法主要依靠公開數據集進行實驗,也有研究者對數據進行了擴充,但都是有限的數據擴充。微博謠言檢測仍然面臨數據少的困境。雖然基于深度學習的方法在微博謠言檢測任務取得了一定的進展,但是深度學習模型對大量標注數據的需求也制約了深度學習在該領域的進一步發展。

近幾年,隨著遷移學習的不斷發展[12-16],研究者開始將其應用于謠言檢測領域。Ma等[17]將多任務學習應用于Twitter謠言檢測任務,通過共享多個任務的通用知識,使多個任務同時獲得較好的效果。Wen等[18]提出了一種基于跨語言跨平臺的社交媒體謠言檢測方法,在謠言檢測中加入其它平臺與該事件相關的信息,來提高檢測結果的真實性。劉等[19]將多任務學習應用于Twitter中的分領域謠言檢測,通過領域適配技術使源領域數據與目標領域的數據分布趨于相似。郭[20]將模型遷移應用于Twitter謠言檢測任務,首先利用包含大量標簽數據的評論數據集對模型進行訓練,然后利用模型遷移,使模型適用于Twitter謠言檢測任務,提高了Twitter謠言檢測任務的準確率,同時驗證了評論數據對謠言檢測任務的有用性。

為解決帶標簽數據少和檢測準確率不高的問題,本文將模型遷移應用到微博謠言檢測領域,利用大量帶標簽的評論數據輔助微博謠言檢測任務。在模型遷移中,微調學習率的設置決定了遷移效果的好壞,本文將區分微調和斜三角學習率兩種微調策略相結合,為每一層設置不同的學習率,以保留先前的知識,避免災難性遺忘,并根據目標任務的需求對學習率進行調整。

2 基于遷移學習的微博謠言檢測模型

本文提出的基于遷移學習的微博謠言檢測模型(transferring learn-BiGRU-2-CNN,TB2GC)模型如圖1所示。按照自下而上、自左到右的順序對模型進行介紹,大致有4個模塊,分為3個步驟。首先利用豐富的評論數據對模型進行預訓練,然后將訓練好的特征提取層遷移到目標任務中,再通過微調策略對特征提取模塊進行調整,使其適應于目標任務。

圖1 TB2GC模型結構

2.1 詞嵌入

使用低維向量代替文本中詞的表示是目前自然語言處理中的常見方式。本文將微博文本數據輸入到開源的word2vec模型對文本進行向量化,向量的維數為300,該模型由Google News利用1000億個單詞訓練而成,并使用字結構的連續文本進行訓練[21]。未出現在預先訓練的詞集合中的詞是隨機初始化的。

2.2 特征提取

鑒于BiGRU2和CNN各自的特點,本文采用雙層BiGRU和CNN的聯合模型作為特征提取器,特征提取網絡模型如圖2所示。將World2vec輸出的詞向量輸入到BiGRU2-CNN聯合神經網絡中,提取文本數據的全局特征,提取的特征將用于后續分類器的分類工作。

圖2 聯合神經網絡模型

雙層雙向門控循環單元(BiGRU2):通過BiGRU2模型獲取微博文本在時間序列上的深層特征。循環神經網絡(RNN)中兩個節點之間的連接形成了一個內部循環結構,這種結構使它能夠捕捉文本的動態時間信號特征。由于RNN模型存在梯度消失和梯度爆炸的問題,通過改進得到了LSTM模型結構,LSTM模型結構復雜、模型參數多、訓練時間長。隨著樣本數量的增加,導致訓練時間延長,參數變多,內部計算復雜度提高。對此研究者提出了GRU網絡模型,GRU模型不僅可以達到LSTM的效果,并且結構簡單、參數少、收斂性好。GRU模型由兩個門組成,一個更新門和一個重置門,更新門決定了前一個輸出隱藏層對當前層的影響程度,值越大,影響越大。重置門決定忽略以前隱藏層信息的范圍,值越小,信息就越容易被忽略。

GRU只能從前到后獲取信息,不能從后到前對信息間的依賴關系進行提取。BiGRU是由兩個方向相反的GRU模型組成的雙向網絡結構,可以雙向的獲取前后文的依賴關系,這對獲得更多與任務相關的特征非常有利。研究表明,深層網絡結構有助于獲取深層特征,可以提高分類的效果,因此本文采用雙層的BiGRU網絡結構獲取數據的全局特征。

CNN:通過CNN模型獲取微博文本的局部特征。CNN模型最初是為計算機視覺而發明的,后來被證明對自然語言處理(NLP)領域有效,已經在語義分析、搜索查詢檢索、句子建模和其它傳統NLP任務中取得了優異的成果。CNN利用由多個相互轉換的層組成的計算模型來學習具有多個抽象級別的數據表示,通過發現大數據集中復雜的結構,極大地提高了圖像識別、視覺對象識別和句子分類的技術水平。CNN常用的體系結構包括卷積層、池化層和全連接層,本文將帶濾波器的卷積層應用于局部特征的提取,將池化層用來提高模型的容錯性,然后通過全連接層輸出隱層特征,再利用Softmax函數進行分類結果的輸出。

2.3 模型遷移

首先利用豐富的評論數據對TB2GC神經網絡模型進行預訓練,預訓練可以獲取文本的通用語言信息,如情感傾向、上下與依賴關系、深層語義表示等。然后針對目標謠言檢測任務對特征提取層進行微調,由于不同的層捕獲不同類型的信息,因此應該根據情況為每一層設置不同的學習率,對此本文采用區分性微調策略。為了使模型在訓練開始時就能夠快速收斂到合適的參數空間,本文采用斜三角形學習率(slanted triangle learning rates,STLR)[22]策略。

區分性微調:與對模型的所有層使用相同的學習率不同,區分性微調能夠用不同的學習率來調整每個層,從而根據不同層對目標任務的貢獻設置不同的學習率,貢獻大的層設置較小的學習率,貢獻小的層設置較小的學習率。第L層模型的參數θ在時間t的更新如式(1)所示

(1)

由于神經網絡具有淺層網絡提取文本的淺層特征,深層網絡提取文本的深層隱含特征的特點,而且深層特征在NLP中更具有通用性,因此選擇最后一層的學習率設為ηL,較低層的學習率為ηl-1=ηl/2.3。

斜三角形學習率:與微調過程中使用相同的學習率或僅遞增或僅遞減的方式不同,斜三角形學習率先線性增加學習率,然后再線性衰減,有助于模型快速收斂到合適的范圍,并在學習率下降的過程中達到適應目標任務的最佳準確率,具體方案如式(2)所示

(2)

式中:T是訓練迭代次數,cut_frac是使學習率增加的迭代次數占總迭代次數的比例,cut是學習率開始下降時的迭代次數,ratio指最小學習率與最大學習率的比值,ηt是迭代t時的學習率。通常使用cut_frac=0.1,radio=32,ηmax=0.01。

在學習率不斷增加的過程中觀察準確率的變化,當準確率第一次出現下降時,學習率也開始線性減小。即學習率出現拐點。

通過斜三角學習率和區分微調,已經將初始模型的特征提取層有效遷移到了微博謠言檢測任務中。

2.4 分類器

將微調后的特征提取層提取的特征輸入到softmax層,神經元的激活函數使用線性修正單元函數(rectified linear units,ReLU)。ReLU函數定義為f(x)=Softmax(0,x),該激活函數在具有深層體系結構的網絡中通常會使網絡學習的更快。最后輸出對一條事件是否為謠言的檢測結果。

3 實驗與分析

3.1 實驗數據集

源數據集選用Zhang等[23]在2014年收集的評論數據,該數據集來自DianPing.com,包括510 071個用戶對209 132個商家的3 605 300條評論。

目標數據集選用Ma等[7]在2016年公開的新浪微博數據,該數據集包含微博和Twitter兩部分,微博謠言數據來自新浪微博平臺已經確認的微博謠言事件,作者按照謠言數據的數量利用網絡爬蟲在微博平臺爬取了相似數量的非謠言數據。共包含2313個謠言和2351個非謠言。本文保留10%的事件作為驗證集,其余數據按照3∶1的比例分割用于訓練集和測試集。

為了提高數據的質量,對源數據和目標數據集進行了去噪處理。利用正則表達式去除了數據中的@符號、@的內容、空格、空行、URL信息等。本文中并沒有去掉表情符號,因為如今表情符號已經成為人們在網絡平臺表達自己感情傾向的一種重要形式,深度神經網絡也可以根據表情符號挖掘深層情感特征,因此,這里保留了文本中的表情符號。

3.2 實驗對比

(1)本模型和其它基線模型對比

本文將TB2GC模型方法與以下幾個基線方法進行比較:

DT-Rank[1]:該方法通過對有爭議的微博信息進行聚類,然后根據統計特征對聚類結果進行排序,以識別趨勢性謠言。

DTC[4]:該方法對15個評判特征進行分析,并將J48決策樹應用于謠言檢測任務。

SVM-TS[3]:該方法利用時間序列對人工構造的特征集進行建模,利用線性支持向量機分類器進行分類預測。

GRU、GRU-2[6]:Ma等在2016年提出的基于深度學習的模型中,分別實現了LSTM、單層GRU和雙層GRU,證明了深度學習模型在謠言檢測中的優勢。

CNN[8]:該方法設計3CAMI模型,將各時間段文本向量拼接成事件的特征矩陣,采用CNN學習事件的隱層表示。

TB2GC模型與各基線模型的實驗結果對比見表1。

表1 TB2GC模型與基線模型的實驗對比結果

表1展示了本文模型與各基線模型的對比結果。為了更全面分析傳統機器學習方法、深度學習方法、遷移學習在微博謠言檢測中的效果,本文在傳統機器學習方法和深度學習方法中各選取了3個基線模型,表1從上到下依次為傳統機器學習模型、傳統深度學習模型、本文的遷移學習模型。

在3種傳統機器學習模型中,SVM-TS的效果最佳,準確率達到了85.7%,在3種深度學習方法中CNN的效果最佳,準確率達到了93.3%。相比于3種深度學習方法,SVM-TS的效果卻是最差的,深度學習模型GRU的準確率比SVM-TS高出5.1個百分點,由此可見,通過深度神經網絡模型提取的特征優于人工構造的特征。本文提出的基于遷移學習的方法在準確率上比最好的基線模型CNN高出2.9個百分點,在精確率上高出3.2個百分點,在召回率上高出1.8個百分點,在F1值上高出2.5個百分點。實驗結果表明,本文提出的神經網絡模型表現出了良好的性能。原因可能在于深度學習基線方法中,研究者僅在現有的公開數據集上進行研究,忽略了數據集對深層特征提取的重要性,因此效果不佳。

(2)模型組合對比

為了驗證提出的聯合模型的組合方式的有效性,將模型拆分為不同的形式,再結合遷移學習進行實驗,與本文聯合模型進行對比,結果見表2。

表2 TB2GC模型與分解模型的實驗對比結果

表2通過對模型的拆分部分進行實驗,驗證了本文所提出的模型組合的有效性。可以看出,3種使用單一神經網絡模型的方法中BiGRU的效果最佳,準確率達到了95.3%,當增加CNN模塊時,聯合模型的準確率增加了0.2個百分點,因為CNN有利于提取文本中的局部特征,使特征提取更全面。當再增加第二層BiGRU時,準確率提高了0.5個百分點,由此可見,在數據量足夠的情況下,深層神經網絡模型對檢測結果更有利。

(3)源數據集的數量對遷移效果的影響

為了探究源數據集的數量對遷移效果的影響,隨機抽取源數據中的60萬條、120萬條、180萬條和240萬條數據進行實驗,觀察不同數據量對遷移學習效果的影響,對比結果如圖3所示。

圖3 源數據的數量對遷移效果的影響

圖3展示了不同量的源數據對遷移效果的影響,實驗結果顯示隨著源數據集數據量的增加,準確率也在增加,表明使用大量帶標簽數據進行遷移學習的效果更好。

(4)目標數據集的數量對遷移效果的影響

圖4 目標數據的數量對遷移效果的影響

圖4展示了遷移學習在不同量的目標數據集中的效果,實驗結果顯示隨著目標數據量的減少,準確率也在減小,當數據量為400條時,準確率首次出現低于基準模型的現象,表明本文模型適用于目標數據大于400條的自然語言處理任務。

3.3 實驗結果分析

通過分析TB2GC模型與各基線模型的對比實驗和聯合神經網絡的各種拆解模型的對比實驗,表明采用聯合神經網絡模型比僅采用單一的神經網絡能獲取更全面的特征,并且表明更深層的神經網絡模型可以提取更多的特征。遷移學習的應用則是有助于進一步加深神經網絡的深度,這對學習更深層的特征表示提供了幫助,解決了基于深度學習中的微博謠言檢測中帶標簽數據少的問題。實驗結果表明,無論是遷移學習方法的應用,還是神經網絡模型的組合,在微博謠言檢測任務中都表現出了良好的效果。

此外,本文還對數據集的數量對遷移效果的影響進行了分析。通過將源數據集和目標數據集進行分割實驗,結果表明,在本文提出的神經網絡模型中,無論是源數據集還是目標數據集,更多的數據量,會使遷移效果更好。

4 結束語

本文將遷移學習方法應用到微博謠言檢測領域,利用豐富的電商評論數據輔助微博謠言檢測任務進行學習,解決了微博謠言檢測領域帶標簽數據少的問題。實驗結果顯示基于遷移學習的方法在準確率、精確率和F1值3個方面都優于基線方法,表明使用相關數據集進行遷移是一種很好的策略。當然,所提出的方法還有很多不足,例如微調策略、源數據集的選擇、特征提取網絡的設計等方面都可以做進一步的調整。

猜你喜歡
深度特征文本
深度理解一元一次方程
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品99久久久久久董美香| 成人中文在线| 国产美女一级毛片| 老司机午夜精品网站在线观看| 国产欧美日韩18| 国产美女自慰在线观看| 亚洲视频无码| 亚洲综合精品第一页| 99在线观看免费视频| 国产在线麻豆波多野结衣| 亚洲天堂视频在线观看| 亚洲欧美日韩动漫| 国产理论精品| 国产亚洲成AⅤ人片在线观看| 伊人查蕉在线观看国产精品| 色播五月婷婷| 91在线国内在线播放老师| 看av免费毛片手机播放| a色毛片免费视频| 亚洲欧美另类中文字幕| 2021国产精品自产拍在线| 日韩区欧美区| 99在线国产| 国产在线一区二区视频| 国产在线八区| 亚洲精品色AV无码看| 天天操精品| 日韩精品视频久久| 无码人妻热线精品视频| 无码区日韩专区免费系列| 国产成人h在线观看网站站| 亚洲成年人网| 又猛又黄又爽无遮挡的视频网站| 免费在线色| 在线精品亚洲国产| 免费女人18毛片a级毛片视频| 最新国语自产精品视频在| 日韩成人在线网站| 国产91透明丝袜美腿在线| 亚洲欧洲日本在线| 亚洲天堂成人在线观看| 午夜三级在线| 丰满人妻久久中文字幕| 欧美日韩一区二区在线播放| 亚洲欧美日韩中文字幕在线| 欧美日韩亚洲国产| 2021无码专区人妻系列日韩| 青草91视频免费观看| 国产中文一区a级毛片视频| 日韩视频免费| 国产精品手机视频| 亚亚洲乱码一二三四区| 91无码国产视频| 深爱婷婷激情网| 欧美一区二区精品久久久| 亚洲国产黄色| 成人亚洲天堂| 无码又爽又刺激的高潮视频| 99久久精品美女高潮喷水| 免费高清毛片| 99伊人精品| 成人国产一区二区三区| 午夜无码一区二区三区在线app| 欧美另类一区| 国产视频一区二区在线观看 | 国产呦精品一区二区三区网站| 精品国产中文一级毛片在线看| 中国一级特黄大片在线观看| 一边摸一边做爽的视频17国产| 欧美一级高清免费a| 欧美无专区| 婷婷成人综合| 国产91透明丝袜美腿在线| 欧美三级自拍| 在线va视频| 日本爱爱精品一区二区| 亚洲欧洲日韩久久狠狠爱| 四虎国产精品永久一区| 国产精品无码一二三视频| 色天天综合久久久久综合片| 无码国产偷倩在线播放老年人| 2019国产在线|