999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)暴力言論檢測的技術(shù)和實(shí)踐

2024-09-04 00:00:00張冬瑜盧俊宇閔昶榮林鴻飛
語言戰(zhàn)略研究 2024年1期

關(guān)鍵詞網(wǎng)絡(luò)語言治理;暴力言論檢測;大語言模型;語料庫建設(shè)

一、引言

隨著移動互聯(lián)網(wǎng)和社交媒體平臺的發(fā)展與普及,網(wǎng)絡(luò)上的用戶生成內(nèi)容呈現(xiàn)出快速增長的態(tài)勢,互聯(lián)網(wǎng)成為網(wǎng)民抒發(fā)個人情感的重要場所。然而,自媒體的自主性、隨意性和多樣性,以及網(wǎng)絡(luò)傳播的難以控制,使得網(wǎng)絡(luò)上語言暴力現(xiàn)象比較嚴(yán)重,帶來的不良影響有日益擴(kuò)大的趨勢。因此,對網(wǎng)絡(luò)暴力言論的語言治理勢在必行。

暴力言論是基于種族、宗教、性別、地域等特征對特定群體或個體表達(dá)仇恨、煽動傷害的不良言論,容易導(dǎo)致沖突,引發(fā)網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)暴力言論發(fā)生頻度較高,傳播范圍較廣,造成危害較大,因此是網(wǎng)絡(luò)語言治理的重點(diǎn)(向承才,王彬彬2022)。

面對社交媒體上日益泛濫的暴力言論,各個國家與相關(guān)的互聯(lián)網(wǎng)平臺企業(yè)紛紛采取了法律與技術(shù)手段予以治理(石佳友2023;吳穎妍2020)。德國、法國等歐洲國家較早通過立法禁止暴力言論的發(fā)布和傳播,并且對互聯(lián)網(wǎng)服務(wù)提供商進(jìn)行了明確的法律限制,要求互聯(lián)網(wǎng)平臺必須在規(guī)定時間內(nèi)進(jìn)行有效處理(Jordans2017)。我國的多部法律也明確禁止包含誹謗、煽動民族仇恨、民族歧視與侮辱、破壞國家宗教政策等較為嚴(yán)重的暴力言論(方澗2020;趙玉現(xiàn),胡春莉2019)。近年來,我國大力加強(qiáng)了對網(wǎng)絡(luò)空間綜合治理的實(shí)踐探索,《攜手構(gòu)建網(wǎng)絡(luò)空間命運(yùn)共同體》白皮書指出,構(gòu)建良好秩序是構(gòu)建網(wǎng)絡(luò)空間命運(yùn)共同體的基本原則。2020年,中共中央網(wǎng)絡(luò)安全和信息化委員會辦公室和國家互聯(lián)網(wǎng)信息辦公室發(fā)布《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》,要求網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者不得制作、復(fù)制、發(fā)布含有煽動民族仇恨、違背宗教政策、鼓吹兇殺暴力等違法信息。國家網(wǎng)信辦連續(xù)多年?duì)款^開展“清朗”專項(xiàng)行動,整治網(wǎng)絡(luò)生態(tài)環(huán)境。其中于2022年4月開展了“清朗·網(wǎng)絡(luò)暴力專項(xiàng)治理行動”,于2023年6月開展了“清朗·網(wǎng)絡(luò)戾氣整治”專項(xiàng)行動。2023年7月,國家網(wǎng)信辦發(fā)布了《網(wǎng)絡(luò)暴力信息治理規(guī)定(征求意見稿)》,進(jìn)一步加強(qiáng)了對網(wǎng)絡(luò)語言暴力信息的治理力度。

在網(wǎng)絡(luò)平臺層面,為了遏制網(wǎng)絡(luò)暴力言論在社交媒體平臺的擴(kuò)散,網(wǎng)絡(luò)社交平臺也在其社區(qū)規(guī)章中對網(wǎng)絡(luò)語言表達(dá)進(jìn)行了不同的界定,詳見表1。

鑒于社交媒體的信息量巨大,單憑人力不可能及時處理。因此,運(yùn)用自然語言處理等人工智能技術(shù)進(jìn)行自動檢測是及時阻止網(wǎng)絡(luò)暴力言論傳播擴(kuò)散、嚴(yán)格執(zhí)行法律法規(guī)與各項(xiàng)限制措施的必然要求。對網(wǎng)絡(luò)暴力言論檢測領(lǐng)域進(jìn)行全面總結(jié)和系統(tǒng)梳理,有利于各個學(xué)科領(lǐng)域的研究者了解相關(guān)研究的前沿與進(jìn)展,為構(gòu)建風(fēng)清氣正的網(wǎng)絡(luò)環(huán)境貢獻(xiàn)力量。本文將對暴力言論檢測的最新研究進(jìn)展進(jìn)行了系統(tǒng)梳理,闡述暴力言論檢測的任務(wù),并通過構(gòu)建的中文暴力言論語料庫,提出暴力言論檢測方法,對大語言模型(LargeLanguageModel,以下簡稱“大模型”)時代的暴力言論檢測進(jìn)行前瞻性的分析。

二、暴力言論檢測的研究進(jìn)展

網(wǎng)絡(luò)暴力言論的相關(guān)研究近些年受到了國內(nèi)外研究者的廣泛關(guān)注。鑒于本文的目的是利用人工智能技術(shù)進(jìn)行網(wǎng)絡(luò)暴力言論的檢測,因此將從以下3個方面對于暴力言論的國內(nèi)外研究進(jìn)展進(jìn)行回溯,即暴力言論與負(fù)面情感、暴力言論的語料庫建設(shè)以及暴力言論的檢測方法。

(一)暴力言論與負(fù)面情感

暴力言論廣泛存在于人類的日常生活中,可以看作仇恨、嫉妒、厭惡等負(fù)面情感在社交媒體中的具體表現(xiàn)形式。暴力言論具有多樣性與復(fù)雜性,難以給出精確而統(tǒng)一的定義,對其進(jìn)行進(jìn)一步的細(xì)分,可以更清晰地進(jìn)行討論。

姜永(2015)嘗試確立符合我國國情的暴力言論類型理論,將我國的暴力言論分成種族、地域、宗教、性別等4個領(lǐng)域。鑒于暴力言論危及人格尊嚴(yán)與言論自由價值,可對其進(jìn)行比一般言論更為嚴(yán)格的限制,但從合憲性的角度考慮,這種限制還需符合3個原則:限制的法定主義原則、更多言論的自我凈化原則、針對政府的最少限制原則。

Khuranaetal.(2022)提出了一個對暴力言論進(jìn)行評價的框架,指出暴力言論可以依據(jù)攻擊目標(biāo)、攻擊目標(biāo)的社會特征、攻擊者的特征、負(fù)面評價的來源、可能造成的后果這5個方面進(jìn)行分類。Liuetal.(2019)根據(jù)攻擊對象的特征將暴力言論分成宗教性言論、種族性言論、殘疾性言論和性取向言論4類。Luetal.(2023)在其創(chuàng)建的ToxicCN數(shù)據(jù)集中根據(jù)目標(biāo)對象將暴力言論分為性別歧視、種族歧視、地域歧視、反對性少數(shù)4種類型,根據(jù)表達(dá)方式將暴力言論分為顯式表達(dá)、隱式表達(dá)、報道式表達(dá)3種類型。

R?ttgeretal.(2021)對暴力言論進(jìn)行了細(xì)致的分類,將暴力言論分成貶損性語言、威脅性語言、誹謗性語言、褻瀆性語言、利用代詞表達(dá)的暴力、利用否定句表達(dá)的暴力、以問題或觀點(diǎn)的形式表達(dá)的暴力、拼寫變化等8種類型,并且對典型的非暴力言論也進(jìn)行了分類,一共提出了11種類型和29種具體情況。此后,根據(jù)非英語暴力言論的獨(dú)有特征,R?ttgeretal.(2022)又將其擴(kuò)充到了34種具體類型。Ayuningtiasetal.(2021)則從詞匯語法的角度,運(yùn)用情態(tài)語氣的分析將暴力言論分為陳述語氣、祈使語氣、疑問語氣、感嘆語氣和呼格語氣5種類型,分析了不同類型暴力言論的頻率。

(二)暴力言論的語料庫建設(shè)

暴力言論的語料庫建設(shè)能夠?yàn)楸┝ρ哉摍z測任務(wù)提供充分的數(shù)據(jù)支撐,同時通過從多元化渠道搜集暴力言論,豐富數(shù)據(jù)的多樣性,使得研究者們對于暴力言論的特征有更加全面的認(rèn)知。在暴力言論語料庫構(gòu)建中,標(biāo)注方案決定著語料庫類型及后續(xù)研究方向。常見標(biāo)注項(xiàng)包括對象、特征、強(qiáng)度和負(fù)面情感類型等。Basileetal.(2019)從Twitter收集與種族和性別仇恨相關(guān)的英語和西班牙語推文,發(fā)布了HatEval評測。該評測包含兩個子任務(wù),仇恨與非仇恨識別任務(wù)和仇恨特征識別任務(wù)。Hadaetal.(2021)創(chuàng)建了細(xì)粒度的基于英語網(wǎng)絡(luò)社區(qū)Reddit評論的暴力言論語料庫,將冒犯程度轉(zhuǎn)化為-1到1連續(xù)分布的數(shù)值,并且對多種暴力言論檢測方法進(jìn)行了評估。

國內(nèi)相關(guān)的中文暴力言論語料庫在種類和數(shù)量上比較匱乏。Jiangetal.(2022)從新浪微博獲取數(shù)據(jù),標(biāo)注項(xiàng)為是否具有厭女癥、厭女癥類別和厭女癥對象,構(gòu)建了中文厭女癥語料庫SWSR,提出了針對女性的中文侮辱性詞表,對中文侮辱性語言的詞法和語法特點(diǎn)進(jìn)行分析總結(jié)。Chungetal.(2021)構(gòu)建了較大規(guī)模的暴力言論語料庫TOCAB,包含性別、政治和地域等多種類型的暴力言論,每條文本標(biāo)注了是否為侮辱性言論及攻擊對象。

暴力言論的表達(dá)不僅僅局限于文本模態(tài),也包括圖像和聲音等多模態(tài)內(nèi)容,模因圖作為網(wǎng)絡(luò)上的一種新興交流方式,其中的暴力內(nèi)容也與日俱增。為此,F(xiàn)acebookAI發(fā)起了冒犯性模因挑戰(zhàn)賽(Kielaetal.2020),任務(wù)是識別模因圖是否具有冒犯性,這需要一定的推理能力。Fersinietal.(2022)發(fā)布了MAMI厭女癥語料庫,作為SemEval-2022評測任務(wù)。該任務(wù)不僅僅需要識別詞語和語句是否表達(dá)了厭女情感,還需要識別厭女癥的類型,后者具有更高的難度。

(三)暴力言論的檢測方法

早期,由于文本是暴力言論最主要的載體,針對文本的暴力言論檢測經(jīng)常采取基于機(jī)器學(xué)習(xí)的方法,通過詞典、構(gòu)建規(guī)則和特征工程來完成暴力言論檢測任務(wù)(Kiritchenkoetal.2021)。機(jī)器學(xué)習(xí)方法所構(gòu)建的特征包括以詞袋模型和TF-IDF為代表的文本統(tǒng)計(jì)特征、以詞嵌入為代表的語義特征、以詞性標(biāo)注和人稱分析為代表的句法特征和以情感詞典為代表的情感特征(Alrashidietal.2022)。

近期,隨著深度學(xué)習(xí)的迅速發(fā)展,在暴力言論檢測領(lǐng)域涌現(xiàn)出大量基于深度學(xué)習(xí)特別是預(yù)訓(xùn)練語言模型的方法。Rizwanetal.(2020)將4個卷積神經(jīng)網(wǎng)絡(luò)模型連接起來,并在其間加入池化層以捕捉不同領(lǐng)域范圍內(nèi)的文本信息。Kimetal.(2022)針對暴力言論檢測任務(wù)的特點(diǎn)對預(yù)訓(xùn)練語言模型BERT進(jìn)行再次微調(diào),增強(qiáng)了暴力言論檢測任務(wù)的可解釋性。Casellietal.(2021)則使用從Reddit中因?yàn)榘l(fā)布暴力言論被封禁的板塊中獲取的語料對BERT進(jìn)行了重新訓(xùn)練,顯著提高了BERT在暴力言論檢測任務(wù)中的性能。Zhouetal.(2021)以BERT為基礎(chǔ),在多任務(wù)學(xué)習(xí)框架下,通過在情感分析任務(wù)與暴力言論檢測任務(wù)之間進(jìn)行知識共享,提升了暴力言論檢測任務(wù)的性能。

根據(jù)表達(dá)方式的不同,暴力言論可以分為顯式暴力言論和隱式暴力言論兩類(王任華2018)。上述方法通常都側(cè)重于具有明顯侮辱性詞語的顯式暴力言論檢測,而在現(xiàn)實(shí)中網(wǎng)絡(luò)上蔓延的暴力言論卻不一定具有明顯的標(biāo)志性詞語。ElSheriefetal.(2021)發(fā)現(xiàn)相較于具有明顯侮辱性詞語的顯式暴力言論,隱式暴力更加普遍。Hartvigsenetal.(2022)建立了包含隱式暴力言論的英文數(shù)據(jù)集,并且比較了常用的預(yù)訓(xùn)練語言模型檢測暴力言論的性能。Minetal.(2023)在多任務(wù)學(xué)習(xí)框架下,利用暴力言論與情感之間的內(nèi)在關(guān)聯(lián),提出了一種多標(biāo)簽自訓(xùn)練的暴力言論檢測方法,能夠在隱式暴力言論檢測數(shù)據(jù)集上取得良好的表現(xiàn)。

另外,對于網(wǎng)絡(luò)暴力言論出現(xiàn)的不規(guī)范、短文本、錯別字等外部表現(xiàn)形式,也有研究者給出了具體的解決方法。丁玉霞(2020)對于粗粒度的謾罵型語言分類問題,提出了在遷移學(xué)習(xí)方法下的注意力有序神經(jīng)網(wǎng)絡(luò)模型;對于細(xì)粒度的謾罵型語言分類問題,提出了注意力選擇機(jī)制下多層級嵌入模型。在HASOC-2019子任務(wù)數(shù)據(jù)集上,達(dá)到目前比較理想的結(jié)果。劉林斌(2022)針對暴力言論往往不夠規(guī)范,文中往往含有許多表情、俚語和錯別字詞的現(xiàn)象,提出了一種基于文本質(zhì)量和單詞分布偏差糾正的暴力言論識別方法;針對暴力言論文本長度常常較短,導(dǎo)致語義過于稀疏的現(xiàn)象,提出了一種基于語義概念擴(kuò)展的暴力言論識別方法。陳靜(2022)針對一詞多義問題給暴力言論檢測帶來的困難,提出了基于主題記憶和注意力機(jī)制的暴力言論和攻擊性言論識別方法。

(四)暴力言論檢測研究面臨的挑戰(zhàn)

由于暴力言論主題和時空分布的廣泛性和表達(dá)的隱匿性,使得暴力言論檢測面臨嚴(yán)峻的挑戰(zhàn)。

1.如何區(qū)分正當(dāng)批評言論與暴力言論

在社交媒體上發(fā)表言論,表達(dá)自己對于某些事物的負(fù)面情感,例如批評、憤怒、譴責(zé)、抨擊等,是每一個網(wǎng)民的自由。由于這個過程當(dāng)中會出現(xiàn)大量負(fù)面詞語,而這些詞語往往也是鑒別暴力言論常用的語言特征,因此會使自動檢測系統(tǒng)產(chǎn)生混淆,造成“誤傷”批評的言論,或者“放過”有害的言論。

2.如何識別生成內(nèi)容的暴力言論

隨著人工智能技術(shù)的發(fā)展,基于自然語言處理技術(shù)的生成技術(shù)得到廣泛的應(yīng)用,由此帶來的挑戰(zhàn)就是如何識別這些生成內(nèi)容可能包含的暴力言論。近期生成式大模型十分火爆,雖然開發(fā)者已經(jīng)對它們施加了嚴(yán)格的控制策略,但在訓(xùn)練階段、生成階段都有可能產(chǎn)生暴力言論。

3.如何利用背景知識和隱式語言特征

暴力言論的表達(dá)往往與各個民族、國家、地區(qū)的制度、宗教、民俗和表達(dá)習(xí)慣乃至各個社交媒體平臺的相關(guān)規(guī)定有關(guān),甚至不同的民族和區(qū)域之間在語言使用方面存在某些沖突。此外,個體的語言運(yùn)用也往往采取隱晦的表達(dá)方式。這些都造成暴力言論檢測的困難,必須引入經(jīng)過適當(dāng)語義表示之后的背景知識。

三、暴力言論檢測任務(wù)與實(shí)現(xiàn)

(一)暴力言論語料庫構(gòu)建

暴力言論語料庫構(gòu)建主要依據(jù)認(rèn)知語言學(xué)和心理學(xué)理論,圍繞暴力言論檢測的需求,確定語料庫構(gòu)建原則。從社交媒體采集原始語料,確定數(shù)據(jù)收集和標(biāo)注范圍,構(gòu)建完整的暴力言論語料庫標(biāo)注體系,包含對象、特征、強(qiáng)度和負(fù)面情感類型等細(xì)粒度信息,最終完成標(biāo)注,形成一個可供訓(xùn)練的標(biāo)準(zhǔn)語料庫。

為了規(guī)避媒體平臺的審查機(jī)制,網(wǎng)民們常常采用隱晦的方式來表達(dá)對特定群體的厭惡和偏見,這種言論被稱為隱式暴力言論。例如,在“小仙女的事兒你少管”這一表述中,“小仙女”被用來諷刺女性。相較于含有明顯侮辱性詞語的顯式暴力言論,隱式暴力言論的檢測更為困難,需要結(jié)合中文特有的詞匯知識進(jìn)行檢測。然而,現(xiàn)有的中文數(shù)據(jù)集常常忽視了含有隱式暴力言論的樣本,并且缺乏對隱式暴力言論類型和表達(dá)方式的細(xì)粒度注釋。這給研究者在此領(lǐng)域的工作帶來了不小的挑戰(zhàn)。為此,我們研發(fā)了針對隱式暴力言論的檢測系統(tǒng)。

首先,我們制定了一個多層次的分類框架,作為數(shù)據(jù)標(biāo)注的準(zhǔn)則,以便深入分析樣本的暴力言論類型和表達(dá)方式。如圖1所示,該分類框架共分為3個層級:第一層級提供了二分類的標(biāo)簽,用以判斷給定文本是否包含暴力言論內(nèi)容;第二層級對于暴力言論類型進(jìn)行分析,區(qū)分包含特定攻擊對象的暴力言論和不包含特定對象的一般性侮辱性言論;第三層級指明暴力言論的攻擊群體和表達(dá)類型。

在此基礎(chǔ)上,我們構(gòu)建了一個細(xì)粒度中文暴力言論數(shù)據(jù)集,從性別、種族、地域和LGBTQ等4個方面進(jìn)行考察。該數(shù)據(jù)集總共包含12011條樣本。首先,劃分為暴力言論和非暴力言論。然后,根據(jù)有無特定的攻擊對象,將暴力言論劃分為一般侮辱性言論(即包含明顯的侮辱性但不具有特定對象)和仇恨言論(具有特定的攻擊對象)。從仇恨表達(dá)的角度來看,一般侮辱性言論都是顯式表達(dá),仇恨言論則可以進(jìn)一步劃分為顯式、隱式和中性3類。具體的數(shù)據(jù)分布如表2所示:

在數(shù)據(jù)標(biāo)注階段,我們采取了一系列措施以降低標(biāo)注者的主觀性偏見并提升數(shù)據(jù)的標(biāo)注質(zhì)量:首先,確保標(biāo)注者的性別、地域、學(xué)歷、民族等個人因素的多樣性;其次,對標(biāo)注者進(jìn)行統(tǒng)一培訓(xùn),使他們充分理解并準(zhǔn)確執(zhí)行標(biāo)注規(guī)則;最后,通過幾輪小規(guī)模的數(shù)據(jù)測試,對邊緣樣本進(jìn)行深入分析,從而迭代式地優(yōu)化和確定最終的標(biāo)注規(guī)則。這一系列的嚴(yán)謹(jǐn)措施都是為了確保數(shù)據(jù)集的高質(zhì)量和可靠性。

此外,我們還構(gòu)建了一個包含隱式褻瀆詞語的侮辱性詞典,進(jìn)一步豐富了中文暴力言論研究的資源。此項(xiàng)工作不僅為中文暴力言論的自動檢測提供了重要的數(shù)據(jù)基礎(chǔ),也為理解暴力言論的表達(dá)方式和特征提供了新的視角。

(二)暴力言論檢測方法

1.基于雙重對比學(xué)習(xí)的暴力言論檢測方法

現(xiàn)有的暴力言論檢測模型過度依賴訓(xùn)練過程中獲取的詞匯先驗(yàn)知識。它們常常將一些高頻侮辱性詞語作為決策判斷的依據(jù),而忽視了語境信息的重要性。因此,這些模型往往會誤將包含這些詞語的樣本統(tǒng)一視為暴力言論,導(dǎo)致對樣本的誤判,進(jìn)而降低了模型的準(zhǔn)確度。例如,在樣本“Whatafuckingday!”(真是糟糕的一天!)中,fucking僅是用來加強(qiáng)“糟糕”之意,然而,由于這個詞同樣是常見的褻瀆語,模型可能因此將該樣本誤判為暴力言論。

為了解決這一問題,我們提出了一種新的雙重對比學(xué)習(xí)框架DCL(ViolentSpeechDetectionBasedonDualContrastiveLearning)。該模型融合了自監(jiān)督和有監(jiān)督的對比學(xué)習(xí),不僅豐富了對暴力言論的語義表示,還通過對樣本內(nèi)部語境信息和標(biāo)簽監(jiān)督信號的利用,對侮辱性詞語在樣本中的含義進(jìn)行了深入分析。這種方法有效減少了模型對含有侮辱性詞語的非暴力言論進(jìn)行錯誤分類的情況,同時也顯著提升了模型的檢測準(zhǔn)確性。在SemEval2019(SE)和Davidson(DV)兩個開源數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在基線模型BERT的基礎(chǔ)上引入DCL,實(shí)驗(yàn)采用準(zhǔn)確率和F1值作為評價指標(biāo)。實(shí)驗(yàn)結(jié)果如表3所示:

相比于其他基線模型,DCL在SE數(shù)據(jù)集上表現(xiàn)最佳,性能相比于BERT模型提升約7個百分點(diǎn),并且超越了最有競爭力的基線模型SKS。在DV數(shù)據(jù)集上,DCL在準(zhǔn)確率指標(biāo)上取得了最好的表現(xiàn),而在weighted-F1上僅次于SKS,但明顯優(yōu)于其他基線模型。SKS使用了外部資源來提高性能,而DCL雖然沒有使用任何外部數(shù)據(jù),卻依然在DV數(shù)據(jù)集上取得了與之相當(dāng)?shù)男阅堋?/p>

為了進(jìn)一步驗(yàn)證DCL的有效性,我們對非暴力言論“IcanbeabitchandanassholebutIwillloveyouandcareaboutyoumorethananyotherpersonyouhavemet.”進(jìn)行了實(shí)例分析,對訓(xùn)練后的DCL和BERT模型中的注意力權(quán)重進(jìn)行了可視化,如圖2所示。其中,顏色的深度表示模型對單詞的注意力權(quán)重,單詞的顏色越深,這個單詞對模型檢測的重要性就越大。相比于BERT,DCL更多地關(guān)注詞集{I,will,love,you},而對侮辱性的詞語{bitch,asshole}的注意力權(quán)重更低。這一結(jié)果表明,DCL可以更好地捕捉上下文信息以做出正確的決策,對暴力言論檢測任務(wù)具有一定的指導(dǎo)意義。

2.基于情緒輔助的多標(biāo)簽自訓(xùn)練暴力言論檢測方法

盡管現(xiàn)有的暴力言論檢測方法取得了一些進(jìn)步,但是它們大多是基于文本內(nèi)容的。從心理學(xué)與語言認(rèn)知的角度出發(fā),暴力言論是一種復(fù)雜的心理認(rèn)知現(xiàn)象。對于暴力言論的理解與判斷,最終依賴于人類的認(rèn)知能力。同時,暴力言論的產(chǎn)生伴隨著說話者心理狀態(tài)以及情緒的變化。根據(jù)暴力-情緒關(guān)聯(lián)理論,暴力言論的產(chǎn)生往往伴隨著一些特定的負(fù)面情緒狀態(tài),比如憤怒、蔑視、羞辱以及厭惡。

基于這一理論,我們提出了一種基于情緒輔助的多標(biāo)簽自訓(xùn)練暴力言論檢測方法EMoVSD(Emotion-enrichedMulti-labelViolenceSpeechDetector)。該方法主要由底部暴力檢測分類器、情緒檢測分類器以及頂部暴力檢測分類器三部分構(gòu)成,見圖3。其中,底部暴力檢測分類器與情緒檢測分類器位于基于BERT的共享編碼層之上。對于輸入的情緒檢測任務(wù)樣本,情緒檢測分類器能夠預(yù)測其情緒標(biāo)簽。對于輸入的暴力言論樣本,我們認(rèn)為該樣本包含一個額外的負(fù)面情緒標(biāo)簽。所以我們借鑒多標(biāo)簽學(xué)習(xí)思想,利用頂部暴力檢測分類器從標(biāo)簽層面實(shí)現(xiàn)兩個任務(wù)之間的語義交互。

具體來講,首先采用底部暴力檢測分類器與情緒檢測分類器分別給出其暴力預(yù)測標(biāo)簽以及情緒預(yù)測標(biāo)簽。然后,考慮到暴力言論樣本缺少真實(shí)情緒標(biāo)簽,所以通過銳化操作構(gòu)建偽情緒標(biāo)簽,將其與真實(shí)情緒標(biāo)簽拼接,形成多標(biāo)簽樣本的真實(shí)標(biāo)簽。最后,在偽多標(biāo)簽數(shù)據(jù)的基礎(chǔ)上,以自訓(xùn)練的方式,使得頂部暴力檢測分類器能夠充分利用情緒檢測任務(wù)的標(biāo)簽信息來捕捉暴力言論樣本的語義。我們采用端到端的方式來訓(xùn)練該方法,并且將頂部暴力檢測分類器預(yù)測的結(jié)果作為最終的暴力預(yù)測標(biāo)簽。

我們選取HatEval-Relabeled(HER)、Davidson(DVS)和ImplicitHatred(IH)3個暴力言論檢測數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。這3個數(shù)據(jù)集中的樣本均從社交媒體平臺采集得到。對于HER數(shù)據(jù)集,本文遵循原文獻(xiàn)中的劃分方式,訓(xùn)練集、驗(yàn)證集以及測試集對應(yīng)的數(shù)量分別為9000,1000和2971。對于其他兩個數(shù)據(jù)集,采用五折交叉驗(yàn)證,實(shí)驗(yàn)采用準(zhǔn)確率和F1值作為評價指標(biāo)。見表4。

結(jié)果表明,我們所提出的方法在3個數(shù)據(jù)集上相比于現(xiàn)有的暴力言論檢測方法性能均有明顯提升。在準(zhǔn)確率上,相比于之前的最優(yōu)結(jié)果分別提升了1.60、0.12和0.09個百分點(diǎn)。這些提升能夠說明該方法能夠充分利用情緒狀態(tài)與暴力言論之間的內(nèi)在關(guān)聯(lián)來有效提升暴力言論檢測任務(wù)的表現(xiàn),在多標(biāo)簽學(xué)習(xí)技術(shù)的支撐下將暴力標(biāo)簽與情緒標(biāo)簽關(guān)聯(lián)起來,實(shí)現(xiàn)對于暴力言論樣本內(nèi)蘊(yùn)情緒的有效建模。同時,相比基于多任務(wù)的AbuseGNN方法,EMoVSD方法在F1值上分別提升5.78、1.51和1.46個百分點(diǎn)。這說明除了多任務(wù)學(xué)習(xí)的方式,從多標(biāo)簽學(xué)習(xí)的角度利用暴力言論與情緒標(biāo)簽之間的共現(xiàn)特征同樣能夠提升任務(wù)表現(xiàn)。

四、大模型時代的暴力言論檢測

(一)應(yīng)用大模型進(jìn)行暴力言論檢測

隨著基于大模型的生成式人工智能服務(wù)的迅速發(fā)展,大模型技術(shù)也被應(yīng)用于暴力言論檢測的任務(wù)中。大模型從海量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到語言知識和背景信息,通過識別并理解文本中的情感、偏見、歧視等不良內(nèi)容的線索和上下文,辨別出潛在的暴力信息,同時生成決策的解釋,告知使用者輸入的文本為何被判斷為暴力言論。利用大模型進(jìn)行暴力言論檢測的示例如圖4所示,通過給定提示信息(請判斷以下內(nèi)容是否是暴力言論)和待檢測文本(南方蠻子真不要臉),模型可以判斷輸入內(nèi)容為暴力言論,并給出解釋。

(二)大模型與以往暴力言論檢測技術(shù)的比較

使用大模型可以充分結(jié)合背景知識更準(zhǔn)確地檢測暴力言論。研究表明,大模型英文暴力言論的檢測能力與人類的檢測水平基本相當(dāng),可以生成更具有邏輯性和可信度的決策解釋(Huangetal.2023);同時,大模型能夠處理不同語言和多樣化的表達(dá)方式,使得暴力言論檢測可以覆蓋更廣泛的用戶群體和文化背景,具有更強(qiáng)的泛化性。

但是,大模型在低資源語料上的檢測效果依然有限,對中文等非英文暴力言論的檢測能力不及傳統(tǒng)方法。這是因?yàn)楝F(xiàn)有大模型的訓(xùn)練數(shù)據(jù)大多以英文為主,模型對非英文語言的理解能力仍有待提高。因此,暴力言論檢測依然是大模型研究的重點(diǎn)問題。

(三)大模型生成內(nèi)容與人類價值觀對齊

由于大模型的本質(zhì)依然是針對訓(xùn)練數(shù)據(jù)中單詞的出現(xiàn)頻率和語言模式進(jìn)行決策,因此,如果訓(xùn)練數(shù)據(jù)中包含對弱勢群體的偏見內(nèi)容,模型在誘導(dǎo)下也會生成相應(yīng)的言論(Mayetal.2019)。同時,因?yàn)橛?xùn)練數(shù)據(jù)非常豐富并且涵蓋多樣化的文化觀和價值觀,所以也存在潛在的種族、文化和價值觀之間的沖突風(fēng)險,導(dǎo)致大模型輸出的內(nèi)容與人類價值觀不一致,引發(fā)道德和倫理問題,最終造成誤導(dǎo)、誤解、歧視或其他不良后果。通過與人類價值觀對齊,可以確保生成的內(nèi)容符合社會的道德標(biāo)準(zhǔn),不會損害個人、群體或社會的利益。因此,大模型研發(fā)人員需要保護(hù)用戶隱私,并確保平衡言論自由與限制暴力言論之間的關(guān)系。

五、未來研究方向

針對暴力言論檢測的理論和應(yīng)用價值、現(xiàn)實(shí)需求以及時代背景,基于上述的調(diào)研分析和技術(shù)路線,我們認(rèn)為,暴力言論檢測研究在未來有以下4個主要方向。

(一)多模態(tài)暴力言論檢測研究

當(dāng)前,隨著以抖音、快手為代表的視頻社交媒體的興起,網(wǎng)絡(luò)社交媒體的信息傳播不再以文字為唯一的主要載體,圖片、視頻、音頻也成為重要的網(wǎng)絡(luò)信息傳播載體。暴力言論的制造者為了逃避監(jiān)管,很可能會運(yùn)用圖片、畫面、配音等方式來傳達(dá)暴力色彩。因此,有必要加大對于多模態(tài)的暴力言論檢測的方法研究。

(二)基于大模型的暴力言論檢測方法研究

基于預(yù)訓(xùn)練大模型的微調(diào)成為暴力言論檢測正在興起的方法,但是如何運(yùn)用大模型的能力進(jìn)行暴力言論檢測仍是一個重要的研究方向。網(wǎng)絡(luò)信息浩如煙海,每天產(chǎn)生的新內(nèi)容不計(jì)其數(shù),形式千變?nèi)f化,甚至有“喂毒”行為,這給基于大模型的暴力言論檢測研究提出了挑戰(zhàn)。

(三)基于大模型的暴力言論監(jiān)管機(jī)制研究

受到來源各異的訓(xùn)練數(shù)據(jù)的影響,大模型中有可能蘊(yùn)含著大量的偏見與暴力言論信息。因此,僅僅在社交媒體平臺的監(jiān)管中進(jìn)行暴力言論的檢測已經(jīng)不足以遏制暴力言論的傳播,必須對于大模型的生成內(nèi)容進(jìn)行有效監(jiān)管,從源頭遏止大模型生成含有暴力言論的內(nèi)容。

(四)暴力言論檢測的可解釋性研究

如果暴力言論檢測方法不具備可解釋性,在實(shí)際應(yīng)用落地中就必將面臨缺乏說服力的問題。更為關(guān)鍵的問題是自由表達(dá)的邊界與暴力言論監(jiān)管的規(guī)則如何有效地統(tǒng)一,既能維護(hù)網(wǎng)民言論自由,也能及時阻止暴力言論的傳播。因此,需要對暴力言論檢測方法開展可解釋性研究,以解釋自動監(jiān)管的合理性。

六、結(jié)論

綜上所述,暴力言論檢測對于網(wǎng)絡(luò)空間綜合治理至關(guān)重要,能夠有效地提高網(wǎng)絡(luò)社交媒體平臺管理的效率,防范網(wǎng)絡(luò)暴力言論的擴(kuò)散與傳播。因此,網(wǎng)絡(luò)暴力言論檢測具有較高理論價值與應(yīng)用價值。但是,網(wǎng)絡(luò)暴力言論問題是一個復(fù)雜的社會問題,需要多方面的努力和合作來解決。應(yīng)著眼于消除網(wǎng)絡(luò)暴力言論滋生的土壤,完善監(jiān)測識別、實(shí)時保護(hù)、干預(yù)處置、溯源追責(zé)、宣傳曝光等全鏈條治理。相信隨著全社會對于暴力言論的重視以及人工智能技術(shù)的進(jìn)步,基于人工智能的暴力言論檢測將會成為網(wǎng)絡(luò)空間治理中不可或缺的一環(huán),為建設(shè)網(wǎng)絡(luò)空間命運(yùn)共同體、營造清朗網(wǎng)絡(luò)環(huán)境貢獻(xiàn)出重要的一份力量。

主站蜘蛛池模板: 成人va亚洲va欧美天堂| 免费啪啪网址| 黄色网页在线播放| 福利一区在线| 久热re国产手机在线观看| 尤物精品视频一区二区三区| 日韩在线播放欧美字幕| 激情网址在线观看| 免费xxxxx在线观看网站| 国产美女久久久久不卡| 亚洲AV无码不卡无码| 亚洲精品国产精品乱码不卞| AⅤ色综合久久天堂AV色综合| 狠狠ⅴ日韩v欧美v天堂| 亚洲国产欧美自拍| 91丝袜美腿高跟国产极品老师| 国产日本欧美在线观看| 青草视频免费在线观看| 亚洲成人免费看| 福利小视频在线播放| 免费a级毛片视频| 狼友av永久网站免费观看| 亚洲中文字幕在线精品一区| 精品国产99久久| 中文字幕人妻av一区二区| 丁香婷婷综合激情| 青青草原偷拍视频| 91青青视频| 久久久久人妻一区精品色奶水| 久精品色妇丰满人妻| 99视频只有精品| 天天色天天操综合网| 国产亚洲欧美另类一区二区| 亚洲中文在线看视频一区| 玖玖精品在线| 久久亚洲美女精品国产精品| 亚洲专区一区二区在线观看| 欧美一级在线播放| 国产女人在线观看| 亚洲天堂在线免费| 久久这里只有精品免费| 色婷婷久久| 四虎精品黑人视频| 亚洲天堂视频在线观看免费 | 国产男人天堂| 99激情网| 国产不卡在线看| 极品私人尤物在线精品首页 | 国产欧美精品一区二区| 综合亚洲网| 久久青草视频| 精品国产美女福到在线不卡f| 亚洲床戏一区| 欧美精品在线免费| 91麻豆国产视频| 国产麻豆91网在线看| 久久综合亚洲色一区二区三区| 国产精品偷伦在线观看| 中文字幕亚洲精品2页| 久久夜色精品| 亚洲天堂首页| 午夜成人在线视频| 久久香蕉国产线看精品| 久久一日本道色综合久久| 成年网址网站在线观看| 久久精品日日躁夜夜躁欧美| 国产特级毛片aaaaaaa高清| 久久婷婷六月| 97超碰精品成人国产| 欧美黄网在线| 精品国产一区二区三区在线观看| 国产精品视频久| 青青国产成人免费精品视频| 97在线国产视频| 第九色区aⅴ天堂久久香| 91在线播放国产| 又爽又大又光又色的午夜视频| 国产欧美日韩在线在线不卡视频| 亚洲成人77777| 四虎免费视频网站| 欧美成人亚洲综合精品欧美激情 | 婷婷成人综合|