999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向主流價值觀的文本質(zhì)量評價研究

2023-05-24 09:06:44崔丁潔
智能計算機與應(yīng)用 2023年5期
關(guān)鍵詞:價值觀監(jiān)督文本

崔丁潔,徐 冰

(哈爾濱工業(yè)大學(xué) 計算學(xué)部,哈爾濱 150001)

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)用戶的溝通方式發(fā)生了明顯變化,越來越多的用戶喜歡通過網(wǎng)絡(luò)論壇、博客、微博、社交網(wǎng)站等網(wǎng)絡(luò)平臺瀏覽、發(fā)布和轉(zhuǎn)發(fā)消息,以此與其他用戶進行交流。網(wǎng)絡(luò)上出現(xiàn)了越來越多用戶生成的內(nèi)容,逐漸形成了草根創(chuàng)作、廣泛參與、多元互動的網(wǎng)絡(luò)傳播新局面。這不僅拓展了文化產(chǎn)品生產(chǎn)、傳播的深度和廣度,也為主流價值觀傳播提供了新的路徑。

主流價值觀是國家文化軟實力的重要體現(xiàn),其傳播的廣度和踐行的深度直接影響著國家意識形態(tài)安全和社會穩(wěn)定。因此,傳播主流價值觀是中國各大媒體需要承擔(dān)的責(zé)任與義務(wù)。

然而,用戶生成內(nèi)容良莠不齊、信息過載等現(xiàn)象,為主流價值觀的傳播帶來了挑戰(zhàn)。如何承擔(dān)社會責(zé)任,傳播積極向上的主流價值觀,營造良好的網(wǎng)絡(luò)輿論氛圍,成為國家和社交媒體平臺共同關(guān)注的問題。

面向主流價值觀的文本質(zhì)量評價任務(wù)需要對文本質(zhì)量從正能量、主流價值觀等角度進行定義。將其定義為一個五分類問題,即將面向主流價值觀的文本質(zhì)量劃分為1~5 個等級。這一研究和文本的情感分類存在差別,積極的情感并不一定代表正能量的價值觀。如:某明星發(fā)帖稱‘日本血統(tǒng)真的好酷,穿和服走在雪里感覺好高貴!’,這一帖子表達的情感是積極的,但卻明顯不符合‘愛國’這一社會主義核心價值觀。

龐大的用戶生成內(nèi)容是新時代的產(chǎn)物,但也承擔(dān)著一定的社會責(zé)任,以正能量作品暖人心、聚民心。通過主流價值觀來駕馭算法,減少泛娛樂化、低俗類內(nèi)容傳播,增加符合社會主義核心價值觀的內(nèi)容,讓算法服務(wù)于主流價值導(dǎo)向。

1 相關(guān)工作

面向主流價值觀的文本質(zhì)量評價是一個全新的任務(wù),同時也是一個富有新時代中國特色的任務(wù)。除了缺乏統(tǒng)一技術(shù)框架之外,如何獲取大規(guī)模的域內(nèi)數(shù)據(jù)、如何標(biāo)注數(shù)據(jù),以及如何利用未標(biāo)注數(shù)據(jù)也是文本質(zhì)量評價任務(wù)一大難點。因此,這一任務(wù)主要與文本增強和半監(jiān)督學(xué)習(xí)兩個研究方向存在重合。

1.1 文本增強研究現(xiàn)狀

文本增強主要分為無條件增強和條件增強兩種方法。

1.1.1 無條件增強方法

由于不需要強制引入標(biāo)簽信息,無條件增強方法既可以對標(biāo)注數(shù)據(jù)進行增強,又可以針對無標(biāo)注數(shù)據(jù)進行增強。主要包括詞匯/短語替換、隨機噪音注入和混合交叉方法。在對標(biāo)注數(shù)據(jù)進行增強后,不會改變數(shù)據(jù)的標(biāo)簽,但可能會造成文本主旨發(fā)生變化,帶來一定的噪音。

對于詞匯/短語的替換方法:文獻[1]提出基于詞典從文本中選擇詞匯或短語進行同義詞替換;文獻[2]基于詞向量在嵌入空間中找尋相鄰詞匯進行替換;文獻[3]根據(jù)TF-IDF 分值,對非核心詞進行替換。

對于隨機噪音注入方法:文獻[3]根據(jù)Unigram 詞頻分布進行采樣,從而隨機插入一個詞匯;文獻[1]除了進行同義詞替換外,同時采用上述隨機插入詞匯、隨機交換詞匯或交換句子、隨機刪除詞匯或句子等隨機注入噪音。文獻[4]提出了一種應(yīng)用于圖像領(lǐng)域的表示增強方法(Mixup)。借鑒Mixup 的思想,文 獻[5]提出了wordMixup 和sentMixup,將詞向量和句向量進行混合;文獻[6]利用交叉增強方法將相同極性的文本進行交叉。

此外,回譯也是一種應(yīng)用非常廣泛的無條件增強方法。該方法基于機器翻譯技術(shù),文獻[3]中就采用了回譯技術(shù)進行數(shù)據(jù)增強。此外,對抗訓(xùn)練方法對模型魯棒性的提升也是基于數(shù)據(jù)增強原理的。但是不同于CV 領(lǐng)域GAN 生成對抗進行數(shù)據(jù)增強[7],NLP 中通常在詞向量上添加擾動并進行對抗訓(xùn)練。

1.1.2 條件增強方法

條件增強方法需要強制引入“文本標(biāo)簽”信息到模型中,再產(chǎn)生數(shù)據(jù)。隨著BERT 等預(yù)訓(xùn)練語言模型在NLP 領(lǐng)域取得巨大成功,近來許多研究者對預(yù)訓(xùn)練語言模型用做文本增強進行了有益嘗試。

文獻[8]利用條件變分自編碼模型進行增強。文獻[9]基于LSTM 進行雙向語言模型預(yù)訓(xùn)練,將標(biāo)簽信息融入網(wǎng)絡(luò)結(jié)構(gòu)進行微調(diào),使替換生成的詞匯與標(biāo)簽信息兼容一致。在此基礎(chǔ)之上,文獻[10]基于BERT 進行微調(diào),將段嵌入轉(zhuǎn)換為融入標(biāo)簽指示的標(biāo)簽嵌入。文獻[11]基于GPT-2 將標(biāo)簽信息與原始文本拼接,當(dāng)作訓(xùn)練數(shù)據(jù)進行微調(diào),同時采用一個判別器,對生成數(shù)據(jù)進行了過濾降噪。

1.2 半監(jiān)督學(xué)習(xí)研究現(xiàn)狀

半監(jiān)督學(xué)習(xí)方法是指利用少量標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù)進行學(xué)習(xí)。相關(guān)研究主要著力于如何針對未標(biāo)注數(shù)據(jù)構(gòu)建無監(jiān)督信號,與監(jiān)督學(xué)習(xí)聯(lián)合建模。簡單來說,就是如何在損失函數(shù)中添加針對未標(biāo)注數(shù)據(jù)相關(guān)的正則項,使模型能夠充分利用大量的未標(biāo)注數(shù)據(jù)不斷迭代,最終增強泛化性能。半監(jiān)督學(xué)習(xí)方法主要有熵最小化和一致性正則兩種方法。

文獻[12]提出Π-Model 和 時間集成(Temporal Ensembling)。Π-Model 對無標(biāo)注數(shù)據(jù)輸入進行兩次不同的隨機數(shù)據(jù)增強,并通過不同dropout 輸出得到結(jié)果,引入一致性正則到損失函數(shù)中。時間集成采用時序融合模型,避免同一個訓(xùn)練步進行兩次前向計算,從而提高訓(xùn)練速度。文獻[13]提出的Mean Teacher 模型認為采用在訓(xùn)練步驟上的平均模型會比直接使用單一模型權(quán)重更精確,于是對時間集成方法進行改進,對模型參數(shù)而不是預(yù)測結(jié)果進行平均。文獻[14]提出的虛擬對抗訓(xùn)練(Virtual Adversarial Training,VAT)仍然采用一致性正則,采取對抗訓(xùn)練的方式添加噪音,不同于傳統(tǒng)的有監(jiān)督學(xué)習(xí)下的對抗訓(xùn)練,其沒有標(biāo)簽信息,而是構(gòu)建一個虛擬標(biāo)簽,并根據(jù)這個虛擬標(biāo)簽計算對抗擾動方向。Google 在文獻[3]中提出了無監(jiān)督數(shù)據(jù)增強方法(Unsupervised Data Augmentation,UDA),也采用一致性正則,同時結(jié)合了熵最小化正則:對無監(jiān)督信號構(gòu)建人工標(biāo)簽,使其趨近于One-Hot 分布。此外,還直接計算了熵損失。將人工標(biāo)簽與增強后的預(yù)測標(biāo)簽共同構(gòu)建一致性正則,并計算損失時采用基于置信度的訓(xùn)練信號退火(TSA)方法防止對標(biāo)注數(shù)據(jù)過擬合。

MixMatch[15]同樣來自Google,與UDA 類似,同樣結(jié)合了熵最小化和一致性正則。對標(biāo)注數(shù)據(jù)進行一次增強,對于未標(biāo)注數(shù)據(jù)作K次弱增強輸入模型得到average 后的概率。并將無標(biāo)注數(shù)據(jù)得到的人工標(biāo)簽與標(biāo)注數(shù)據(jù)混合在一起并進行MixUp[16]操作,進而得到增強后的無標(biāo)注數(shù)據(jù)以及標(biāo)注數(shù)據(jù)。ReMixMatch[17]是MixMatch 原作者對自己工作的改進,一方面進行了分布對齊,另一方面,引入強增強,將弱增強后的人工標(biāo)簽與強增強后的預(yù)測標(biāo)簽共同構(gòu)建一致性正則。FixMatch[18]結(jié)合了UDA和ReMixMatch,舍棄了sharpen 操作和UDA 的訓(xùn)練信號退火、ReMixMatch 的分布對齊和旋轉(zhuǎn)損失等,直接利用Pseudo-Label 構(gòu)建人工標(biāo)簽。

以上方法大多引入了一致性正則,其關(guān)鍵在于如何注入噪聲,一個好的模型對于輸入擾動的任何細微變化也都應(yīng)具有魯棒性。所以半監(jiān)督學(xué)習(xí)經(jīng)常和文本增強方法結(jié)合。半監(jiān)督學(xué)習(xí)方法能充分挖掘未標(biāo)注數(shù)據(jù)中潛在的價值,最終增強泛化性能。在少樣本場景下甚至可以比肩充分樣本下的監(jiān)督學(xué)習(xí)模型性能,而在充分樣本場景下,性能仍然繼續(xù)提升。

2 基于無監(jiān)督數(shù)據(jù)增強框架的文本質(zhì)量評價方法

2.1 模型結(jié)構(gòu)

模型的整體框架來源于UDA,其結(jié)構(gòu)如圖1 所示:

圖1 UDA 模型結(jié)構(gòu)Fig.1 UDA model structure

圖中:M 表示一個模型,可以在給定x的條件下預(yù)測y的分布。本文采用BERT-base。

UDA 模型的輸入包括有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)。對于帶有標(biāo)簽的數(shù)據(jù),模型M 可以得到其預(yù)測的標(biāo)簽分布;對于無標(biāo)簽數(shù)據(jù),采用反向翻譯方法進行數(shù)據(jù)增強,x'表示經(jīng)數(shù)據(jù)增強的無標(biāo)簽數(shù)據(jù)。

模型的總損失=標(biāo)簽數(shù)據(jù)的交叉熵損失(Cross-entropy loss)(有監(jiān)督)+λ?無標(biāo)簽數(shù)據(jù)的一致性損失(無監(jiān)督)。總損失公式如式(1):

其中,q(x'|x)表示數(shù)據(jù)增強變換,x'由x經(jīng)數(shù)據(jù)增強得到;θ是模型參數(shù);是θ的復(fù)制。

由于實驗數(shù)據(jù)集存在嚴重的不平衡問題,在實驗中采用Focal loss 代替上文中的Cross-entropy loss,F(xiàn)ocal loss 通過改變正類、負類的權(quán)重,使其能應(yīng)用于不平衡的分類中,如式(2):

其中,αc表示第c類樣本的權(quán)重,pθ(y|x)c表示第c類樣本的概率值。

2.2 數(shù)據(jù)集構(gòu)建

2.2.1 獲取數(shù)據(jù)集

基于scrapy 框架,自主開發(fā)爬蟲工具,在人民網(wǎng)強國論壇板塊下爬取1 887條評論數(shù)據(jù),部分評論數(shù)據(jù)見表1。

表1 人民網(wǎng)數(shù)據(jù)集示例Tab.1 Examples of people's daily online dataset

由于爬蟲獲取的公開數(shù)據(jù)都是符合主流價值觀的,而本文的研究工作需要獲取反例,即不符合主流價值觀的數(shù)據(jù)。經(jīng)調(diào)研,采用SemEval 2019 Task 6攻擊性語言檢測數(shù)據(jù)集(Offensive Language Identification Dataset,OLID)。該數(shù)據(jù)集收集了14 120條推特,并對有無攻擊性進行了標(biāo)注。部分數(shù)據(jù)見表2,數(shù)據(jù)集統(tǒng)計信息見表3。

表2 OLID 數(shù)據(jù)集示例Tab.2 Examples of OLID datasets

表3 OLID 數(shù)據(jù)集統(tǒng)計信息Tab.3 OLID dataset statistics

從OLID 數(shù)據(jù)集中隨機選擇2 500 條攻擊性數(shù)據(jù)與613 條非攻擊性數(shù)據(jù),并將其翻譯成中文,再結(jié)合爬取的人民網(wǎng)評論,構(gòu)成最終數(shù)據(jù)集。數(shù)據(jù)集統(tǒng)計信息見表4。

2.2.2 數(shù)據(jù)集的人工標(biāo)注

數(shù)據(jù)標(biāo)注的標(biāo)準(zhǔn)見表5。

表5 數(shù)據(jù)集標(biāo)注標(biāo)準(zhǔn)Tab.5 Data set labeling standards

從表中可以看出,本文面向主流價值觀的文本質(zhì)量評價研究和情感分析存在明顯差別。如:例(2)、例(4)雖然表達了積極的情感,但卻是負能量的價值觀;例(8)雖然表達了消極情感,但卻是正能量的價值觀。

從收集的數(shù)據(jù)中選取585 條數(shù)據(jù)作為種子進行人工標(biāo)注,標(biāo)注后的初始數(shù)據(jù)分布見表6。

表6 初始數(shù)據(jù)集統(tǒng)計信息Tab.6 Initial dataset statistics

為了統(tǒng)一不同人標(biāo)注帶來的主觀性和誤差,采用十折交叉驗證進行數(shù)據(jù)糾錯。糾錯后的數(shù)據(jù)分布見表7。

表7 糾錯后數(shù)據(jù)集統(tǒng)計信息Tab.7 Dataset statistics after error correction

2.2.3 基于自訓(xùn)練的數(shù)據(jù)集自動標(biāo)注

利用以上人工標(biāo)注數(shù)據(jù)作為訓(xùn)練集,基于selftraining 對其余數(shù)據(jù)進行自動標(biāo)注。實現(xiàn)過程如下:

根據(jù)觀察,選取0.7 作為置信度閾值,基于BERT 進行數(shù)據(jù)迭代標(biāo)注。針對數(shù)據(jù)集嚴重不平衡的問題,分別采用Focal loss 和重采樣方案,將3 個模型標(biāo)注結(jié)果有差異的并集,由人工進行再標(biāo)注,最終得到的數(shù)據(jù)集分布見表8。

表8 最終數(shù)據(jù)集統(tǒng)計信息Tab.8 Final dataset statistics

2.3 基于檢索的數(shù)據(jù)集擴充方法

半監(jiān)督學(xué)習(xí)方法需要獲取大規(guī)模的域內(nèi)數(shù)據(jù)。然而,在許多場景下收集大規(guī)模域內(nèi)數(shù)據(jù)非常困難。為了解決這一問題,采用檢索的方法進行域內(nèi)數(shù)據(jù)的擴充。

利用句子編碼器對數(shù)據(jù)集中的句子進行編碼,得到其向量表示,將每一條數(shù)據(jù)的向量表示作為檢索向量,在大規(guī)模語料庫中進行檢索,以得到相似的句子。為保證檢索到的句子可以作為域內(nèi)數(shù)據(jù),從而減少通用語料對下游特定任務(wù)的噪聲干擾,每次檢索只抽取Top-K個句子,并且對抽取的句子需滿足能取得較高的置信度。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

采用本文2.2 節(jié)構(gòu)建的數(shù)據(jù)集,其中訓(xùn)練集包含3 956條數(shù)據(jù),測試集包含441 條數(shù)據(jù)。另外,為了構(gòu)建大規(guī)模檢索庫,本文收集了9 個來源于微博的數(shù)據(jù)集,其中包括公開的數(shù)據(jù)集Weibosenti100k,以及來自人民網(wǎng)數(shù)據(jù)平臺的數(shù)據(jù)集:新浪微博數(shù)據(jù)集_鳳凰周刊_202110-11、新浪微博數(shù)據(jù)集_頭條新聞_202110-11、新浪微博數(shù)據(jù)集_環(huán)球時報_202110-11等。將以上數(shù)據(jù)集進行清洗和去重,共獲得1 905 039條數(shù)據(jù),采用上述數(shù)據(jù)擴充方法,共檢索得到6 331條數(shù)據(jù)。部分數(shù)據(jù)見表9。

表9 檢索得到的部分數(shù)據(jù)及其匹配分數(shù)Tab.9 Some of the retrieved data and their matching scores

從表中例子可以看出,檢索到的擴充數(shù)據(jù)和原數(shù)據(jù)在語義上存在明顯的相似性。如:第三條,原數(shù)據(jù)和擴充數(shù)據(jù)都和抗疫相關(guān)。另外,擴充得到的數(shù)據(jù)和原數(shù)據(jù)的主流價值觀質(zhì)量標(biāo)簽也是相似的。于是,除了無監(jiān)督的數(shù)據(jù)增強方法,本文也嘗試將query 的標(biāo)簽賦予檢索得到的數(shù)據(jù),進行有監(jiān)督的數(shù)據(jù)增強。

3.2 實驗設(shè)置

3.2.1 面向主流價值觀的文本質(zhì)量評價實驗設(shè)置

回歸層的dropout rate 為0.1。訓(xùn)練過程采用AdaGrad,初始學(xué)習(xí)率為1-10,在訓(xùn)練過程中預(yù)熱學(xué)習(xí)率以加速模型收斂。Focal loss 中,將γ值設(shè)置為2。由于顯卡內(nèi)存所限,帶標(biāo)簽數(shù)據(jù)的batch size 取16或者32 中較好的結(jié)果,無標(biāo)簽數(shù)據(jù)的batch size 隨兩種數(shù)據(jù)的比例變化而變化。實驗結(jié)果通過準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值進行評估。

3.2.2 數(shù)據(jù)集擴充實驗設(shè)置

由于構(gòu)建的檢索庫較大,直接檢索非常耗時,于是數(shù)據(jù)集擴充實驗基于ANYQ 框架進行。對ANYQ框架源代碼進行改寫,只保留問題分析和檢索模塊。以全部訓(xùn)練集作為query,對query 和檢索庫均基于百度開源的LAC2 分詞工具進行分詞,對檢索庫添加基于PaddleSimAdapter 的語義表示模型,配置SimNet 語義檢索。每次檢索只抽取Top-10 個句子,同時滿足置信度>0.7。

3.3 結(jié)果分析

為了驗證本文提出的數(shù)據(jù)增強方法的性能,選擇如下幾種模型并設(shè)計了相應(yīng)內(nèi)容進行對比實驗,實驗結(jié)果見表10。

表10 主要實驗結(jié)果對比Tab.10 Main results

其中:BERT 模型僅使用帶標(biāo)簽的訓(xùn)練集,將文本作為BERT 的輸入,將[CLS]對應(yīng)位置的輸出作為評論表示輸入分類層中,優(yōu)化Focal loss 損失。BERT_DA 模型在基于檢索的數(shù)據(jù)集擴充方法中,將每一條訓(xùn)練數(shù)據(jù)作為查詢條件進行檢索,將query的標(biāo)簽賦予檢索得到的數(shù)據(jù),從而進行有監(jiān)督的數(shù)據(jù)增強。BERT+無標(biāo)簽數(shù)據(jù)模型增加無標(biāo)簽訓(xùn)練集(6 331 條)作為輸入,并對無標(biāo)簽數(shù)據(jù)應(yīng)用熵最小化損失,從而達到數(shù)據(jù)增強效果。BERT_UDA 模型即本文提出的方法。

由表中數(shù)據(jù)可見:在本文構(gòu)建并標(biāo)注的訓(xùn)練集上,其BERT_UDA 方法在準(zhǔn)確率、精確率、F1 值3個指標(biāo)上都超過了BERT。與一般的無監(jiān)督數(shù)據(jù)增強方法(BERT+無標(biāo)簽數(shù)據(jù))相比,BERT_UDA 在F1 值上提高1.22%,表明了本文采用數(shù)據(jù)增強方法的有效性。其次,雖然BERT_UDA 相比BERT 的F1 值提升了0.55%,但效果并不明顯,可能是構(gòu)建的檢索庫不夠大所致(獲取到的無監(jiān)督擴充數(shù)據(jù)數(shù)量僅為原數(shù)據(jù)的1.6 倍)。BERT+無標(biāo)簽數(shù)據(jù)與BERT 相比,準(zhǔn)確率有所提升,但F1 值卻有所下降;BERT_DA 相比BERT 在各項評估指標(biāo)上都有明顯下降。究其原因可能是因為引入了大量噪音,這表明數(shù)據(jù)增強也有可能會降低模型的性能。

3.4 無監(jiān)督損失函數(shù)權(quán)重分析

為了驗證總損失中無監(jiān)督損失函數(shù)的權(quán)重λ對實驗結(jié)果的影響,選取λ ={0,0.5,0.7,1} 進行實驗。實驗結(jié)果見表11。

實驗結(jié)果表明,當(dāng)λ取0.5 時,F(xiàn)1 值最高。

3.5 無監(jiān)督數(shù)據(jù)增強框架有效性分析

在不使用擴充數(shù)據(jù)集的情況下,僅在訓(xùn)練集中隨機選取一部分數(shù)據(jù)作為標(biāo)注數(shù)據(jù),其余作為未標(biāo)注數(shù)據(jù)。在損失函數(shù)中,將無標(biāo)簽數(shù)據(jù)的一致性損失函數(shù)權(quán)重設(shè)置為1。實驗結(jié)果見表12。

表12 F1 值實驗結(jié)果Tab.12 Results of F1 value

由表中數(shù)據(jù)可見:BERT 和BERT_UDA 的分類效果隨著帶標(biāo)簽數(shù)據(jù)比例的增大而提高,且在任何比例的帶標(biāo)簽數(shù)據(jù)中,BERT_UDA 的表現(xiàn)均優(yōu)于BERT。由此表明,BERT_UDA 可以從無標(biāo)簽數(shù)據(jù)中學(xué)到知識,尤其在僅僅使用10%的訓(xùn)練數(shù)據(jù)(396條)時,BERT_UDA 的提升達到4.77%。

3.6 基于檢索的數(shù)據(jù)集擴充方法有效性分析

分別采用原數(shù)據(jù)和檢索得到的數(shù)據(jù)基于BERT_UDA進行實驗,對數(shù)據(jù)集擴充的有效性進行分析,各實驗所用模型和數(shù)據(jù)集見表13。

實驗結(jié)果如圖2 所示。由此可見,在擴充數(shù)據(jù)集時,采用相同數(shù)量的原數(shù)據(jù)集和檢索得到的數(shù)據(jù)集的F1 值幾乎相同,表明了基于檢索的數(shù)據(jù)集擴充方法的有效性;另外,基于BERT 的模型大約從第二個epoch 開始收斂,而基于BERT_UDA 的模型,大約在第12 個epochF1 值才穩(wěn)定下來。由于訓(xùn)練集比較小,訓(xùn)練過程中模型會很快過擬合于訓(xùn)練數(shù)據(jù),但在測試數(shù)據(jù)上卻表現(xiàn)欠佳。BERT_UDA 之所以能提高模型的表現(xiàn),可能是因為增加的無標(biāo)簽數(shù)據(jù)延緩了模型的收斂。

圖2 訓(xùn)練過程中測試集F1 值隨訓(xùn)練輪次變化曲線Fig.2 F1 value of the test set changes with the training rounds during the training process

4 結(jié)束語

本文針對面向主流價值觀的文本質(zhì)量評價任務(wù),依據(jù)主流價值觀對文本質(zhì)量進行定義,自主爬取和構(gòu)建了一個面向主流價值觀的文本質(zhì)量評價數(shù)據(jù)集。為了緩解人工標(biāo)注數(shù)據(jù)的壓力,以及解決域內(nèi)數(shù)據(jù)獲取困難的問題,本文提出了基于無監(jiān)督數(shù)據(jù)增強框架的文本質(zhì)量評價方法,采用一致性框架,利用反向翻譯對文本進行增強。實驗證明,在數(shù)據(jù)量較小時,能顯著提升模型性能。另外,本文自主構(gòu)建了一個大規(guī)模中文微博檢索庫,并基于該檢索庫對構(gòu)建的數(shù)據(jù)集進行擴充,加入擴充數(shù)據(jù)后,模型在F1 值上提高1.22%。對于未來的工作,一方面是收集更多域內(nèi)數(shù)據(jù),或者構(gòu)建更大規(guī)模的中文檢索庫;另一方面是構(gòu)建主流價值觀的表示,思考將主流價值觀以知識的形式融入模型的新方法。

猜你喜歡
價值觀監(jiān)督文本
我的價值觀
圖說 我們的價值觀
突出“四個注重” 預(yù)算監(jiān)督顯實效
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
監(jiān)督見成效 舊貌換新顏
夯實監(jiān)督之基
知名企業(yè)的價值觀
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
價值觀就在你我的身邊
主站蜘蛛池模板: 国产日韩久久久久无码精品 | 全部毛片免费看| 亚洲午夜国产精品无卡| 国产极品嫩模在线观看91| 在线国产欧美| 亚洲成人在线免费观看| 狠狠亚洲五月天| 中文字幕1区2区| 亚洲一区波多野结衣二区三区| 成人韩免费网站| 亚洲国产综合精品中文第一| 久久精品丝袜| 亚洲国产精品无码久久一线| 九九视频免费看| 少妇被粗大的猛烈进出免费视频| 色婷婷在线播放| 国产成人亚洲欧美激情| 国产一区在线视频观看| 国产成人高清精品免费软件 | 国产一级毛片高清完整视频版| 欧美精品1区| 五月婷婷精品| 亚洲国模精品一区| 一本大道香蕉久中文在线播放 | AV不卡在线永久免费观看| 亚洲成综合人影院在院播放| 亚洲美女操| 久久a毛片| 亚洲六月丁香六月婷婷蜜芽| 色播五月婷婷| 欧美啪啪网| 久久国产成人精品国产成人亚洲| 国产凹凸一区在线观看视频| 亚洲美女一级毛片| 国产精品制服| 国产色图在线观看| 2021无码专区人妻系列日韩| 最新国产麻豆aⅴ精品无| 好紧好深好大乳无码中文字幕| 伊人激情综合网| 午夜成人在线视频| 九九热免费在线视频| 免费人欧美成又黄又爽的视频| 日韩无码真实干出血视频| 亚洲日本中文字幕乱码中文| 亚洲第一成年网| 91麻豆国产精品91久久久| 草草影院国产第一页| 国内精品久久久久久久久久影视| 国产成a人片在线播放| 人妻精品久久无码区| 国产精品亚洲一区二区在线观看| 91在线一9|永久视频在线| 国产一级α片| 在线一级毛片| 久久性视频| 亚洲人成色在线观看| 最新午夜男女福利片视频| 99热这里只有精品国产99| 久久女人网| 午夜精品影院| 综合久久五月天| 亚洲欧洲国产成人综合不卡| 欧美一级高清免费a| 色综合中文综合网| 国产精品第一区在线观看| 亚洲三级影院| 国产黑丝视频在线观看| 热99re99首页精品亚洲五月天| 亚洲精品在线影院| 欧美区一区| 亚洲第一av网站| 国产偷国产偷在线高清| 国产国模一区二区三区四区| 国产丝袜91| hezyo加勒比一区二区三区| 欧美人人干| 波多野结衣中文字幕一区| 九九九九热精品视频| 精品国产自在现线看久久| 日韩专区第一页| 国产成人禁片在线观看|