999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM寫作風(fēng)格識別方法研究*

2021-10-08 13:55:48陳艷平
計算機(jī)與數(shù)字工程 2021年9期
關(guān)鍵詞:語義分類實驗

劉 莎 陳艷平

(貴州大學(xué) 貴陽 550025)

1 引言

不管是文學(xué)著作還是新聞報道,不同的作者有不同的寫作風(fēng)格,如何根據(jù)作者各自獨有的特點來正確識別他們的文章寫作風(fēng)格呢?這是一直以來備受關(guān)注的話題。寫作風(fēng)格識別主要就是識別類型之間的差異性,包括文章的體裁、語言表達(dá)以及時代背景等。通過文章的寫作風(fēng)格研究,不僅有助于作品風(fēng)格分析、言語測定,還能用于文章作者的識別、垃圾電子郵件的身份鑒定、人物畫像分析、剽竊監(jiān)測、網(wǎng)絡(luò)輿情監(jiān)測等多方面的研究。

傳統(tǒng)的文章寫作風(fēng)格識別常用的方法有很多。第一,研究文章中虛詞出現(xiàn)頻率的分布,采用多種不同的規(guī)格化方法來減輕文章長度上的差異,并使用多種不同的分類方法,從而達(dá)到很好的效果;第二,利用文章的句法、語義來進(jìn)行訓(xùn)練,形成作者寫作風(fēng)格分類器;第三,利用模板匹配方法、支持向量機(jī)(SVM)等方法也可以進(jìn)行識別。

目前,有關(guān)神經(jīng)網(wǎng)絡(luò)算法研究相對較少。因此,本文提出了關(guān)于BiLSTM的識別方法。要想更加準(zhǔn)確地識別文章的寫作風(fēng)格還具有一定的難度,它的主要挑戰(zhàn)在于以下三個方面。

第一,風(fēng)格差異。風(fēng)格是文學(xué)作品從整體上表現(xiàn)出來的獨特而鮮明的風(fēng)貌和格調(diào),影響風(fēng)格的因素有很多,比如:時代、環(huán)境、地域、文化背景、各個地方語言表達(dá)、藝術(shù)情感及作者的主觀思維等,每一部分的改變都有可能影響文章的寫作風(fēng)格。

第二,特征差異。不同作家在寫作特點都有所不同,包括使用的修辭手法、詞匯、句型等,這些寫作特點有的時候會相對穩(wěn)定,有的時候會不斷變化,我們很難準(zhǔn)確把握作者的寫作風(fēng)格意圖。

第三,表示困難。寫作風(fēng)格是一個主觀性的描述,目前還沒有一個嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型能夠表達(dá)寫作風(fēng)格,而且不同的識別工具,最終得到的識別結(jié)果也千差萬別。

基于以上的研究難點,本篇文章提出一種基于神經(jīng)網(wǎng)絡(luò)雙向長短時記憶(LSTM)的文章寫作風(fēng)格識別的方法,該方法可以在實驗中達(dá)到很好的識別效果。LSTM是一種特殊的RNN(Recurrent Neural Networks),相比其他模型來說,它有很多優(yōu)點。首先它能夠?qū)W習(xí)到長期依賴關(guān)系;其次,它可以用來解決梯度消失,梯度爆炸問題;最后,它能夠解決長距離的句子的學(xué)習(xí)效果不好的問題。

2 相關(guān)工作

有關(guān)寫作風(fēng)格在國內(nèi)外都有許多類似的研究。在國外,1938年,Yule George Udny[1]使用他所提出的Yule圖的方法推斷匿名文章的作者。自2000年以來,Stamatatos,F(xiàn)akotakis和Kokkinakis[2]討論了作者驗證的問題,他使用了樣式特征并基于多元回歸為給定作者產(chǎn)生響應(yīng)函數(shù)。該方法在希臘報紙文章生成的文本語料庫中進(jìn)行了測試,產(chǎn)生了良好的效果。2003年Argamon,Shlomo[3]等對英國國家語料庫中涵蓋一系列類型的大部分男性和女性寫作的差異進(jìn)行了探索。2018年Amelin,Konstantin[4]提出了一種利用動態(tài)相似度對書寫風(fēng)格進(jìn)化進(jìn)行模式化的新方法,希望通過當(dāng)前文本塊與其前任之間的關(guān)聯(lián)來對寫入過程進(jìn)行建模。

在國內(nèi),類似的研究也相繼浮出水面。多數(shù)研究都是利用語料庫進(jìn)行模板匹配,還有使用文本特征,比如:詞組進(jìn)行劃分來判別彼此之間的差異性。2001年龐劍鋒,卜東波[5]主要聚焦在文本分類這一模塊,其中對文本分類中所涉及的關(guān)鍵技術(shù)進(jìn)行研究,提出了關(guān)于向量空間的文本分類系統(tǒng),并給出了相應(yīng)的評判方法,這些都取得了一定的進(jìn)展。2008年張運(yùn)良[6]等提出,利用向量空間模型,以句類作為特征,形成作者的寫作風(fēng)格分類器進(jìn)行風(fēng)格識別。

3 研究動機(jī)及解決方案

3.1 研究動機(jī)

以上這些研究雖然可以進(jìn)行識別工作,但由于缺乏準(zhǔn)確而又可靠的分類手段,大多數(shù)用了詞頻分布的方法,這些只能基于可量化的特征進(jìn)行人為的統(tǒng)計推斷,所以無法較好地對文章寫作風(fēng)格進(jìn)行有效的識別。為了達(dá)到實驗效果,提出一種基于雙向LSTM神經(jīng)網(wǎng)絡(luò)的文章寫作風(fēng)格識別方法,能夠更有效地處理句子中單詞間的長距離影響。

3.2 解決方案

為了達(dá)到更好的識別效果,將通過預(yù)處理數(shù)據(jù)集,詞向量訓(xùn)練,LSTM訓(xùn)練,風(fēng)格識別這四個方面進(jìn)行詳細(xì)的討論。

1)預(yù)處理數(shù)據(jù)集。將數(shù)據(jù)集進(jìn)行句子語義識別并劃分為多種語義結(jié)構(gòu)的分類,將所劃分好的語義結(jié)構(gòu)數(shù)據(jù)集每隔n句(n可以取1,2,3等正整數(shù))作為一個實例(本次實驗中n=5),在此需要注意的是所有情況下的句子長度序列都沒有預(yù)先指定的約束,從而得到預(yù)處理數(shù)據(jù)集。

2)詞向量訓(xùn)練。利用Word Embedding方法用高維向量表示詞語,提取預(yù)處理數(shù)據(jù)集中每個句子的每個詞的詞向量,構(gòu)建句子矩陣集,它能夠自動實現(xiàn):第一,單詞語義相似性的度量;第二,詞匯的語義的類比。

3)LSTM訓(xùn)練。以句子為單位,將句子矩陣集中的每個詞對應(yīng)的詞向量按照順序輸入至雙向LSTM網(wǎng)絡(luò),經(jīng)訓(xùn)練得到句子向量集,利用句子向量集對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到句子的分類模型。

4)風(fēng)格識別。在輸出結(jié)束后,再加一個全連接層,它將每句話中的最后一個雙向LSTM模型得到的輸出作為全連接層的輸入,用來把前邊提取到的特征綜合起來,獲取句子語義具有的高層含義,再通過定義損失函數(shù)來判別預(yù)測和實際之間的差異,從而達(dá)到更好分類的效果。

4 模型

模型主要分為三大點來進(jìn)行描述,分別是詞嵌入(Word Embedding)、BiLSTM、全連接層、損失函數(shù)。對于詞嵌入,是一個詞的低維向量表示,是將自然語言表示的單詞轉(zhuǎn)換為計算機(jī)能夠理解的向量或矩陣形式的技術(shù)。比如“我喜歡楊木”它是一句話,通過詞嵌入技術(shù)就可以將每個字用向量來表示,根據(jù)向量之間的相似度來捕獲它們之間的語義信息及相關(guān)性。對于全連接層,它在其中起的是分類器的作用,將學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間,通俗來講就是對BiLSTM的輸出結(jié)果進(jìn)行矩陣向量的乘積,如式(1)所示。

其中W、B分別為兩個參數(shù),W為系數(shù),B為偏置項,x、y分別為輸入和輸出。

本篇論文將重點討論BiLSTM。由于一般的循環(huán)神經(jīng)網(wǎng)絡(luò)在時序處理上,經(jīng)常會忽略上下文信息,因此,我們所希望的是在輸入和目標(biāo)之間增加延遲,從而獲得更加有益的輸出。為了解決這個問題,我們采用了BiLSTM,它是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò),能夠?qū)W習(xí)長期依賴關(guān)系。它的核心在于它有三個門與一個記憶單元,來保護(hù)和控制元胞狀態(tài),包括輸入門,輸出門和遺忘門,而元胞狀態(tài)就像一個傳送帶,可以控制信息傳遞給下一時刻。LSTM可以通過門的結(jié)構(gòu)對元胞狀態(tài)進(jìn)行添加信息或者刪除信息。具體的框架如圖1所示。

圖1 風(fēng)格識別框架圖

現(xiàn)在,對圖1中的工作具體細(xì)節(jié)進(jìn)行討論,其步驟可總結(jié)如下。

1)遺忘門,讓循環(huán)神經(jīng)網(wǎng)絡(luò)“忘記”之前沒有用的信息,它會根據(jù)輸入xt、上一時刻狀態(tài)ct-1和上一時刻的輸出ht-1共同決定哪一部分記憶需要被遺忘,從而輸出一個在0~1之間的數(shù)值。1表示“完全保留”,0表示“完全舍棄”。具體如式(2)所示。

2)輸入門,在循環(huán)神經(jīng)網(wǎng)絡(luò)“忘記”了部分之前的狀態(tài)后,它還需要從當(dāng)前的輸入補(bǔ)充最新的記憶,這個過程就是“輸入門”完成的。輸入門是將信息選擇性的新的信息加入到細(xì)胞狀態(tài)中來。實現(xiàn)這個過程需要包括兩個步驟:首先,輸入門層的sigmoid層決定哪些信息需要更新;tanh層生成一個向量-Ct,用來更新所產(chǎn)生的新內(nèi)容,把這兩部分聯(lián)合起來,對細(xì)胞的狀態(tài)進(jìn)行一個更新。具體如式(3)和式(4)所示。

現(xiàn)在更新舊細(xì)胞狀態(tài)Ct-1更新為Ct。把舊狀態(tài)Ct-1與ft相乘,丟棄掉確定需要丟棄的信息,接著加上,這就是新的候選值,根據(jù)決定更新每個狀態(tài)的程度進(jìn)行變化,其中ft*Ct-1表示希望刪除的信息,表示新增的信息,如式(5)所示。

3)輸出門,是用來確定最終需要輸出什么值。首先運(yùn)行一個sigmoid層來確定細(xì)胞狀態(tài)的哪個部分將輸出,從而得到一個初始輸出。接著使用細(xì)胞狀態(tài)通過tanh進(jìn)行處理,將Ct縮放到一個在-1~1之間的值,再與sigmoid層得到的輸出逐對相乘,最終將會輸出所要確定輸出的那部分,如式(6)和式(7)所示。

在輸出結(jié)束后,再加一個全連接層,它將每句話中的最后一個雙向LSTM模型得到的輸出作為全連接層的輸入,用來把前邊提取到的特征綜合起來,獲取句子語義具有的高層含義,再將每句的輸出值作為softmax函數(shù)的輸入得到最大的分類概率值,所有概率值加起來剛好等于1,通過訓(xùn)練該神經(jīng)網(wǎng)路模型得到其最好的準(zhǔn)確率,同時也優(yōu)化參數(shù)。此步驟調(diào)用softmax函數(shù),實現(xiàn)句子的語義分類。

最后,為了使預(yù)測的結(jié)果與實際值差值越小越好,所以在softmax層就定義了一種衡量模型好壞的方式,即損失函數(shù)(用來表現(xiàn)預(yù)測與實際數(shù)據(jù)的差距程度),本文中使用的是交叉熵函數(shù),具體如式(8)所示:

其中y代表真實值,a代表softmax求出的值,i代表的是輸出結(jié)點的標(biāo)號。交叉熵的值越小,兩個概率分布越接近,識別風(fēng)格也就越明顯,從而更好地、更準(zhǔn)確地識別和預(yù)測句子語義信息,達(dá)到文章寫作風(fēng)格識別的目的。

5 實驗及結(jié)果分析

論文將通過兩個大的實驗來討論作品寫作風(fēng)格的研究。實驗一是利用我們的方法判定《紅樓夢》前八十回和后四十回是不是同一個作者寫的,并且給出測試集,看是否能正確分類,從而通過判定作者來進(jìn)行作者風(fēng)格識別;實驗二為了進(jìn)一步證明我們的方法的有效性,通過收集五大名家的作品數(shù)據(jù)集進(jìn)行實驗,因為不同的作者都有不同的寫作風(fēng)格,因此通過作者的正確分類來進(jìn)行更好的風(fēng)格識別。

5.1 實驗數(shù)據(jù)

實驗數(shù)據(jù)主要來源于http://www.shuku.net.cn/,http://www.dtnets.com/,http://www.shulu.net/,《紅樓夢》小說全文電子下載https://www.qisuu.la/。

5.2 實驗過程

5.2.1 數(shù)據(jù)預(yù)處理

本次實驗數(shù)據(jù)量大,語言格式錯綜復(fù)雜,需提前對數(shù)據(jù)集進(jìn)行預(yù)處理,從而減少噪音,降低實驗復(fù)雜度,具體過程如下:

1)在文檔中,首先將每條評論通過標(biāo)點符號來進(jìn)行分隔,比如{,。;!?:};

2)LIWC2015詞典中包含了19,281個停用詞,用LIWC2015詞典來檢查分隔開的數(shù)據(jù)集,如果在詞典中,就將其作為邊界以生成候選句子。

3)輸出生成的候選句子以獲得整個語料庫的候選句子。

5.2.2 LSTM訓(xùn)練

LSTM主要通過遺忘門、輸入門、輸出門實現(xiàn)信息的保護(hù)和控制。以句子為單位(長度設(shè)為5),通過Word Embedding將輸出的詞向量按照順序輸入至雙向LSTM網(wǎng)絡(luò),正向、反向LSTM同時進(jìn)行訓(xùn)練,捕獲數(shù)據(jù)集更多上下文信息,經(jīng)訓(xùn)練得到句子向量集,利用句子向量集對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到句子的分類模型。

5.3 實驗結(jié)論

5.3.1 《紅樓夢》識別

實驗一主要研究《紅樓夢》前八十回與后四十回的關(guān)系,根據(jù)文章寫作風(fēng)格,從而判定《紅樓夢》是否為一人所寫。實驗總共收集《紅樓夢》前八十回合和后四十回合數(shù)據(jù)集,作品序列1是將第一回到第四十回劃分成一個集合,作品序列2是將第四十一回到第八十回劃分成一個集合,作品序列3是將第八十一回到第一百二十回劃分成一個集合,具體劃分見表1。

表1 《紅樓夢》數(shù)據(jù)集劃分

將實驗分為兩類:第一類,先將序列1和3作為訓(xùn)練集,序列2為測試集。訓(xùn)練樣本17568,測試樣本5856,通過實驗,可以看出F為86.04,它歸為第一類中,從而表明兩者各有自己的寫作風(fēng)格,兩者寫作風(fēng)格不是出自同一個人。第二類實驗同第一類實驗類似,將序列2和序列3作為數(shù)據(jù)集,序列1為測試集。訓(xùn)練樣本數(shù)為30889,測試樣本數(shù)為15661,通過實驗,可以看出F高達(dá)91.73,進(jìn)一步驗證了兩者之間寫作風(fēng)格的不同,前八十回和后四十回不是出自同一作者。具體實驗結(jié)論如表2。

表2 實驗一風(fēng)格識別

《紅樓夢》作品的研究大多是通過語料庫中詞頻統(tǒng)計分析進(jìn)行的。比如參考文獻(xiàn)[15]的選用者、乎、焉、哉、乃等詞。我們的實驗采用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行論證,得到了和參考文獻(xiàn)[7]一樣的論證結(jié)果,作品序列1、作品序列2與作品序列3相比,文章寫作風(fēng)格具有很大的相似性,可將前八十回分為一類,后四十回分為一類。有些研究學(xué)者認(rèn)為后四十回有曹雪芹的殘稿,因目前沒有更多的語料庫,所以無法做進(jìn)一步的深入研究。

5.3.2 關(guān)系驗證

為了進(jìn)一步驗證我們的研究方法的有效性,我們同時對巴金、老舍、朱自清、金庸、張愛玲的部分文學(xué)作品進(jìn)行了對比試驗,作家作品分類語料庫詳情如表3。

表3 作家作品分類語料庫詳情

主要進(jìn)行五次實驗將其他作家的作品作為訓(xùn)練集,其中一個比如巴金,朱自清,金庸分別作為測試集。文獻(xiàn)[9]中的實驗分類方法有三種,分別是模板匹配,分類結(jié)果為51;K近鄰,分類結(jié)果為91.14;SVM,分類結(jié)果為93.58;利用BiLSTM方法識別出作者風(fēng)格的F高達(dá)到93.80,相比文獻(xiàn)[9]中的實驗結(jié)果有很大的提升效果,由此可以看出利用我們的神經(jīng)網(wǎng)絡(luò)的方法能夠相對準(zhǔn)確地判定作者的正確性以及他們的寫作風(fēng)格。實驗結(jié)果如表4。

表4 實驗二風(fēng)格識別

6 結(jié)語

本文提出基于BiLSTM寫作風(fēng)格識別方法,它不同于傳統(tǒng)的風(fēng)格識別。將預(yù)處理數(shù)據(jù)集通過Word Embedding提取預(yù)處理數(shù)據(jù)集中每個句子的每個詞的詞向量,從而構(gòu)建句子矩陣集,將句子矩陣集輸入到雙向LSTM中進(jìn)行訓(xùn)練,再添加一層全連接層,用來把前邊提取到的特征綜合起來,從而獲取句子語義具有的高層含義。從實驗中可以發(fā)現(xiàn),基于BiLSTM文章寫作風(fēng)格識別方法在實驗效果上可以達(dá)到很好的提升,有利于更加高效地進(jìn)行研究。

猜你喜歡
語義分類實驗
記一次有趣的實驗
分類算一算
語言與語義
做個怪怪長實驗
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
主站蜘蛛池模板: 波多野结衣亚洲一区| 精品视频第一页| 国产激情第一页| 欧美高清视频一区二区三区| 亚洲天堂色色人体| 无码在线激情片| 伊人福利视频| 国产精选自拍| 日本欧美视频在线观看| 91精品啪在线观看国产91| 国产人前露出系列视频| 好紧好深好大乳无码中文字幕| 久久无码高潮喷水| 国产jizz| 少妇露出福利视频| 色欲综合久久中文字幕网| 国产爽歪歪免费视频在线观看| 精品超清无码视频在线观看| 免费视频在线2021入口| 天天色天天综合网| 中文字幕在线欧美| 秘书高跟黑色丝袜国产91在线| 久久黄色免费电影| 香蕉视频在线观看www| 国产精品国产三级国产专业不| 高清久久精品亚洲日韩Av| 亚洲欧美日本国产综合在线| 国产精品美女网站| 亚洲性一区| 国产农村妇女精品一二区| 精品国产Av电影无码久久久| 99在线视频免费观看| 国产哺乳奶水91在线播放| 午夜天堂视频| 亚洲精品午夜无码电影网| 国产在线一区视频| 视频一区亚洲| 国产99视频精品免费视频7| 亚洲午夜天堂| 国产精鲁鲁网在线视频| 国内精品伊人久久久久7777人| 欧美三级自拍| 欧美精品二区| 日本高清视频在线www色| 91午夜福利在线观看| 亚洲欧美精品一中文字幕| 午夜爽爽视频| 五月天香蕉视频国产亚| jizz国产视频| 亚瑟天堂久久一区二区影院| 日韩国产黄色网站| 国产精品99一区不卡| 五月婷婷丁香综合| 亚洲天堂精品在线| 超清人妻系列无码专区| 九九热这里只有国产精品| 国产一区二区三区免费观看| 国内精自视频品线一二区| 国产福利在线观看精品| 久久五月视频| 国产91全国探花系列在线播放| 国产美女在线观看| 日本免费精品| 欧美日韩一区二区在线免费观看| 无码免费试看| 亚洲男女在线| 亚洲第一中文字幕| 精品成人一区二区| 国产美女91视频| 日本一区二区三区精品视频| 91久草视频| 亚洲第一极品精品无码| 黑色丝袜高跟国产在线91| 中文成人在线| 久久精品无码国产一区二区三区| 国产麻豆aⅴ精品无码| 好久久免费视频高清| 毛片久久网站小视频| 免费99精品国产自在现线| 中文字幕在线看| 妇女自拍偷自拍亚洲精品| 日韩色图在线观看|