999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的劇本角色情感識別研究

2023-04-07 14:47:03蔡校育邱美蘭李德旺
軟件工程 2023年4期

蔡校育 邱美蘭 李德旺

關(guān)鍵詞:劇本角色;支持向量機;樸素貝葉斯;情感識別

中圖分類號:TP181 文獻標(biāo)識碼:A

1引言(Introduction)

對于影視制片人來說,劇本的好壞直接決定其商業(yè)價值和社會意義,因此,對劇本文本分析成為不可或缺的環(huán)節(jié),其中劇本角色的情感識別是劇本分析中一個非常重要的任務(wù)。劇本角色情感識別是將劇本中涉及角色的對白和動作描述識別為某一種具體的情感傾向,屬于情感分析[1]中句子級別的范疇,輸入為劇本中的角色對白或動作描述的句子,輸出其對應(yīng)的情感傾向。

基于機器學(xué)習(xí)的情感分析是一種有監(jiān)督的學(xué)習(xí)方法,屬于文本機器學(xué)習(xí)[2]的范疇,目前常見的基于機器學(xué)習(xí)情感分析的算法有支持向量機(SVM)[3]、樸素貝葉斯[4]和邏輯回歸[5]等,研究人員也開展了與此相關(guān)的大量研究工作[6]。本文將對非結(jié)構(gòu)化的劇本數(shù)據(jù)使用情感分析技術(shù)進行處理,從而減少人工處理數(shù)據(jù)的工作量,利用機器學(xué)習(xí)算法快速挖掘非結(jié)構(gòu)化數(shù)據(jù)中的價值,依據(jù)情感預(yù)測的結(jié)果為劇本分析提供有價值的參考,對影視作品的發(fā)展具有一定的指導(dǎo)意義。

2 劇本角色情感識別(Emotion recognition ofscreenplay characters)

2.1數(shù)據(jù)集介紹

本文研究所需數(shù)據(jù)來源于DataFountain平臺舉辦的劇本角色情感識別競賽所提供的數(shù)據(jù)集,該數(shù)據(jù)集的主要數(shù)據(jù)來源于一部電影劇本,通過人工的情感標(biāo)注,同時對數(shù)據(jù)進行相應(yīng)的處理,使之劃分為三種情感(1:正向情感;0:中性;-1:負向情感)。該數(shù)據(jù)集共有36,612 條數(shù)據(jù)樣本,而中性數(shù)據(jù)對于本文模型的研究用處不大,也易產(chǎn)生分歧,所以剔除中性數(shù)據(jù),只保留正、負向情感,共10,143 條數(shù)據(jù)樣本,部分?jǐn)?shù)據(jù)內(nèi)容如表1所示。

2.2數(shù)據(jù)預(yù)處理

因為中文語篇中詞語不存在空隙,所以必須采用分詞的方法進行識別,而在分詞過程中,某些對分類不起作用的信息也要去掉,即刪除停用詞,最后將那些能傳達重要信息的關(guān)鍵詞從文本中抽取出來,并將文本表示為這些關(guān)鍵詞的集合。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、文本分詞、刪除停用詞等。

2.2.1文本分詞

由于中文文本與英文不同,中文文本分詞是預(yù)處理中不可缺少的關(guān)鍵步驟,因此在分類過程中使用詞語表示文本時必須先進行分詞處理。目前的分詞技術(shù)已經(jīng)逐步完善,其中jieba分詞具有準(zhǔn)確率高、性能優(yōu)越及可擴展性等特點,是一款當(dāng)下流行的中文分詞技術(shù)。

jieba分詞可以分為三種類型:精確模式、全模式和搜索引擎模式。其中,精確模式實現(xiàn)了對被分詞文本的準(zhǔn)確分割,并且不存在冗余詞,本文將運用jieba分詞工具中的精確模式進行分詞操作,分詞效果如表2所示。

2.2.2去停用詞

對于文本分類而言,有些詞語在文本中出現(xiàn)的次數(shù)并不能反映該詞語在文本中的重要性。比如“一二三四”“你我他”“這個”“的”,這些沒有特殊語義并且出現(xiàn)頻繁的詞語,即停用詞。本文主要研究中文文本所體現(xiàn)的情感,這些停用詞在很大程度上會對該研究產(chǎn)生影響,因此應(yīng)該將這些停用詞從文本中清除掉,避免它們對后續(xù)分類產(chǎn)生干擾。去停用詞效果如表3所示。

通過對本文的數(shù)據(jù)集內(nèi)容進行相應(yīng)的預(yù)處理之后,可以繪制正、負向情感關(guān)鍵詞詞云圖,如圖1和圖2所示。

從圖1和圖2兩個詞云圖中可以看出,“看著”“坐在”“我要”“畫外音”“爸爸”等詞語在兩種情感中都是高頻詞,對本文的研究會產(chǎn)生相應(yīng)的影響。因此,在停用詞表中需添加這些詞語,可以減少誤差,提升模型預(yù)測的準(zhǔn)確率。

2.4模型建立

本文將使用Sklearn庫(python中的機器學(xué)習(xí)庫)中的支持向量機和樸素貝葉斯兩種分類算法構(gòu)建分類模型。因此,在完成數(shù)據(jù)預(yù)處理和特征工程相關(guān)工作后,接下來需對數(shù)據(jù)集進行劃分、交叉檢驗、模型訓(xùn)練及分類預(yù)測等相關(guān)操作。

2.4.1劃分?jǐn)?shù)據(jù)集

機器學(xué)習(xí)的分類方法需要大量的數(shù)據(jù)用于訓(xùn)練,特別是對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。在進行機器學(xué)習(xí)時,數(shù)據(jù)集被分為兩類,一類是訓(xùn)練集,另一類是測試集。本次實驗選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集。有時為了保證模型的精度,往往需要先進行k 折交叉驗證。k 折交叉驗證實質(zhì)上是把一個數(shù)據(jù)集分成k 份,每次選k-1 份為訓(xùn)練集,剩余的1 份作為驗證集,然后取k 個模型的平均測試結(jié)果作為最終的模型效果。本文將以10 折交叉驗證為基礎(chǔ),嘗試探索兩種分類模型的有效性。

2.4.2 交叉驗證及結(jié)果

通過對樸素貝葉斯(Naive Bayes)和支持向量機(SVM)兩種機器學(xué)習(xí)模型進行10 折交叉驗證,并將10 次的交叉驗證的準(zhǔn)確率作為最終的結(jié)果。兩種分類模型10 次運行對應(yīng)的準(zhǔn)確率如表4所示,根據(jù)表4的結(jié)果繪制如圖3所示的箱型圖。

從圖3中可以看出,兩種模型相比,線性支持向量機的平均準(zhǔn)確率要比樸素貝葉斯的準(zhǔn)確率略高,但準(zhǔn)確率較為分散,即存在不穩(wěn)定性。因此,本文通過設(shè)置超參數(shù)的不同取值,進一步研究樸素貝葉斯算法的綜合性能。

2.5模型評估

本文利用混淆矩陣對樸素貝葉斯分類算法的性能進行評估,其中包括準(zhǔn)確率、精確率、召回率、F1值和AUC指標(biāo)[8-9]。

根據(jù)樸素貝葉斯的拉普拉斯平滑法[10]選取不同的拉普拉斯平滑系數(shù)α ,對樸素貝葉斯分類模型進行實驗,得到實驗結(jié)果如表5所示。從表5可以看出,最佳的拉普拉斯平滑系數(shù)介于0.1—0.5。通過調(diào)整超參數(shù),可以使算法的性能變得更好。

通過前面模型分析及超參數(shù)的對比實驗,運用樸素貝葉斯算法以及設(shè)置超參數(shù)拉普拉斯平滑系數(shù)α = 0.2進行學(xué)習(xí),分別采用訓(xùn)練集和測試集進行預(yù)測[11],得到如圖4和圖5所示的兩種情況預(yù)測結(jié)果。

從圖4和圖5兩個混淆矩陣得出,樸素貝葉斯算法對測試集樣本的預(yù)測結(jié)果準(zhǔn)確度接近于80%,訓(xùn)練集樣本的預(yù)測結(jié)果高達93%。

3結(jié)論(Conclusion)

本文主要建立了基于支持向量機和樸素貝葉斯算法的兩種情感分類與識別模型,對劇本中每句對白和動作描述中涉及的每個角色從多個維度進行分析并識別出情感。

首先,根據(jù)劇本角色情感文本的特點,對所獲取的數(shù)據(jù)文本進行預(yù)處理,包括文本分詞、去停用詞、繪制詞云圖、特征抽取等,建立了基于支持向量機和樸素貝葉斯算法的兩種情感分類與識別模型。其次,利用10 折交叉驗證得出兩種模型的預(yù)測準(zhǔn)確率,分析了兩種機器學(xué)習(xí)情感識別模型的預(yù)測效果,并通過不斷調(diào)整模型中超參數(shù)的取值對模型進行優(yōu)化。最后,根據(jù)研究結(jié)果得出樸素貝葉斯識別模型在劇本角色情感識別方面的效果要優(yōu)于支持向量機的識別模型,并且,當(dāng)超參數(shù)拉普拉斯平滑系數(shù)α = 0.2時,樸素貝葉斯識別模型的預(yù)測準(zhǔn)確率接近于80%。

本研究的不足之處是盡管模型的訓(xùn)練有較好的擬合效果,但由于數(shù)據(jù)存在樣本不均衡的現(xiàn)象,正向情感數(shù)據(jù)在總樣本數(shù)據(jù)中所占的比重偏低,存在一定的過擬合現(xiàn)象。因此,在后續(xù)的研究中,應(yīng)該增大正向情感的樣本數(shù)據(jù)量,從而對本文的研究做進一步的改進和優(yōu)化,使得預(yù)測結(jié)果更加準(zhǔn)確、更具有可解釋性。

作者簡介:

蔡校育(1998-),男,本科生.研究領(lǐng)域:機器學(xué)習(xí),大數(shù)據(jù)分析.

邱美蘭(1980-),女,博士,講師,人工智能高級工程師.研究領(lǐng)域:數(shù)據(jù)科學(xué)與計算,機器學(xué)習(xí),深度學(xué)習(xí).本文通信作者.

李德旺(1976-),男,博士,講師.研究領(lǐng)域:經(jīng)濟統(tǒng)計,大數(shù)據(jù)統(tǒng)計分析.

主站蜘蛛池模板: 欧美一级高清视频在线播放| 欧美在线伊人| 久久国产亚洲欧美日韩精品| 国产一级妓女av网站| 试看120秒男女啪啪免费| 精品久久久久久成人AV| 亚洲自偷自拍另类小说| 亚洲国产精品无码AV| 97青青青国产在线播放| 国产人碰人摸人爱免费视频| 2022国产91精品久久久久久| 日韩经典精品无码一区二区| 高h视频在线| 美女一区二区在线观看| 无码AV日韩一二三区| 亚洲 欧美 中文 AⅤ在线视频| 亚洲无码在线午夜电影| 高h视频在线| 国产福利免费视频| 欧美精品亚洲日韩a| 欧美精品一二三区| 欧美一级夜夜爽www| 欧美另类视频一区二区三区| 91亚瑟视频| 午夜国产理论| 狠狠做深爱婷婷久久一区| 亚洲人成网址| 色偷偷综合网| 精品天海翼一区二区| 亚洲色大成网站www国产| 美女被操91视频| 成人精品视频一区二区在线| 综合网久久| 国产成人福利在线视老湿机| 国产一级特黄aa级特黄裸毛片| 一级成人欧美一区在线观看| 精品一区二区三区视频免费观看| 成人av专区精品无码国产| 欧美在线中文字幕| 欧美成人免费午夜全| 久久黄色视频影| 免费激情网址| 色国产视频| 国产主播一区二区三区| 亚洲系列中文字幕一区二区| 亚洲视屏在线观看| 亚洲91在线精品| 成人国产三级在线播放| 亚洲综合中文字幕国产精品欧美| 国产一区二区精品福利| 天天综合网色| 国产精品主播| 刘亦菲一区二区在线观看| 香蕉久久国产精品免| 亚洲欧洲综合| 91成人免费观看| 夜夜爽免费视频| 麻豆AV网站免费进入| 国产精品久久久久久久久久98 | 无码不卡的中文字幕视频| 99精品欧美一区| 夜色爽爽影院18禁妓女影院| 欧美成人怡春院在线激情| 91一级片| 色偷偷综合网| Aⅴ无码专区在线观看| 无码国产偷倩在线播放老年人| 国产成人亚洲精品色欲AV| 五月丁香伊人啪啪手机免费观看| 欧美一级大片在线观看| 亚洲天堂视频网站| 欧美精品一区在线看| 在线免费看片a| 国产成人综合日韩精品无码不卡 | 欧美日本在线| 免费一级毛片不卡在线播放 | 人妻精品全国免费视频| 色欲综合久久中文字幕网| 五月婷婷丁香色| 在线观看免费黄色网址| 一级黄色网站在线免费看| 国产高颜值露脸在线观看|