999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的電影主題自動分類方法的研究

2023-05-30 09:08:42李璐王妍王艷娥楊倩
計算機與網絡 2023年3期

李璐 王妍 王艷娥 楊倩

摘要:針對傳統采用人工方式對電影主題進行分類存在主觀性強、分類標準不統一的問題,提出了一種基于LDA的電影主題自動分類方法,通過對電影簡介數據進行建模,計算出電影主題的概率主題模型的聯合分布公式,使用Gibbs采樣算法求解聯合分布公式,得出電影的主題分布及電影主題關鍵詞的分布,并根據這2個分布完成電影主題的自動分類及類別的自動標識,使用電影簡介數據對電影主題進行分類實驗。實驗結果表明,該方法能夠對電影主題進行準確分類,精確度達到95%,從根本上消除了人工分類方法中存在的主觀性強、分類標準不統一的問題。

關鍵詞:LDA;Gibbs采樣;電影主題;自動分類

中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2023)03-58-4

0引言

電影在娛樂、教育及文化傳播等領域具有重要作用,對電影進行主題分類,可以加深電影的宣傳也方便用戶按類別篩選感興趣的電影。目前電影主題都由導演或制片人設定,由于制片人設定主題的標準不統一,導致電影主題設定存在主觀性強、偏差較大的問題,因此采用數理統計、數據挖掘等技術對電影主題進行科學分類已經成為一種趨勢[1-2]。傳統文本情感分類分為2種:機器學習與語義指向。文獻[3]試圖根據文檔中不同詞語的共現頻率訓練分類器;文獻[4]把詞語分為正面與負面2類,通過計算文本中所有情感詞的正負來判斷文檔的分類;文獻[5]提出的英文文本分類模型,使用詞向量構建文本輸入框,一定程度上提高了文本分類指標;文獻[6]使用音頻識別方式進行文本分類。現有研究多數針對挖掘文本本身的好壞程度,忽略主題特征詞及隱含主題的選擇,主題模型LDA可以挖掘文本隱含主題,提升分類準確率。

1電影主題分類的整體流程

電影主題分類步驟一般可分為3步[7]:一是數據預處理階段,在數據預處理階段主要是對電影簡介內容分詞、去停止詞等;二是構建LDA算法模型;三是使用LDA算法模型電影主題分類。電影主題分類步驟如圖1所示。

2 LDA主題模型

使用LDA主題模型對電影主題分類的核心思想是:利用電影簡介的文本信息挖掘文本與詞語之間所隱含的隱含主題,然后利用主題分布刻畫電影主題,進而計算電影之間的關系。LDA主題模型利用貝葉斯理論,先假設電影簡介內容中的每一個詞的先驗共軛分布為Dirichlet分布,電影簡介樣本數據服從多項分布,后驗概率也服從Dirichlet分布。通過統計得到詞的分布,然后使用Gibbs采樣去計算電影主題分布和主題中詞的分布[8-9]。

電影主題主旨的概率分布在LDA算法模型中是通過每篇電影中的信息內容簡介來表示的,概率分布則是通過電影主題主旨中諸多單詞來構成的。所以LDA算法的核心機理如下:

①電影簡介內容信息總計篇,包括個主題。

②任意一個長度為的電影簡介內容信息都有自身的主題分布規則,服從參數為的Dirichlet多項分布。

③每個主題也有不同的詞分布,服從參數為的Dirichlet多項分布。

④整篇電影內容簡介中的第個詞的描述是通過隨機采樣生成詞來描述的,首先根據主題分布中進行采樣主題,其次在被采樣的主題中針對詞分布采樣詞。隨機采樣詞結束的條件是篇電影簡介內容信息全部執行。

LDA算法的貝葉斯圖模型如圖2所示。

LDA圖模型的參數說明如表1所示。

3采用Gibbs采樣求解LDA

4實驗結果與分析

電影主題分類的第一步是對數據進行預處理,首先將電影簡介內容進行分詞操作,常用的分詞工具有LTP-cloud、ICTCLAS和Stanford漢語分詞工具等,而且該工具包還具有免安裝、節省硬件、跨平臺和支持多種編程語言的特點,因此本系統使用LTP-cloud作為分詞工具。然后去停止詞,停止詞是指一篇電影簡介內容中的“的”“也”“在”“和”等,在自然環境中出現頻率非常高,但是對電影內容介紹沒有實質影響的那類詞。經過前兩步預處理后的文本,并不能直接放到計算機中進行計算,還需要把文本編碼成計算機可以識別的格式,具體做法是構建詞袋模型,把文本中的每一詞匯用數字index指代,并把原來的電影簡介內容變成一條長數組。電影簡介數據如表2所示,該數據集來自于豆瓣電影8 253部電影的簡介數據。

將電影簡介數據進行預處理,給定主題一個初始值10,主題的取值是一個先驗值需要提前給定,接著把預處理好的數據放入搭建好的算法模型中,得出每個電影的主題分布與每個主題的詞分布,圖3是每個主題對應的詞分布,從圖中可以看出,每個主題中每個詞出現的概率是不一樣。圖4是電影1~電影10對應的主題分布,從圖中可以看出,電影1屬于一個主題,電影2,4,5,6,7,8屬于一類主題,電影3,9,10屬于一類主題。

通過豆瓣電影8 253部電影實驗數據表明,基于LDA的電影主題自動分類方法是有效的,該模型利用LDA主題模型獲得單詞的主題分布,計算單詞與其上下文詞的主題相似度,通過統計得到詞的分布,然后使用Gibbs采樣去計算電影主題分布和主題中詞的分布,能夠對電影主題進行準確分類,且分類準確率達到95%,可以從根上上消除人工分類的一些主觀性問題。

5結束語

針對傳統電影分類存在主觀性強、分類標準不統一及分類忽略主題隱藏含義等問題,引入LDA主題模型對豆瓣電影8 253部電影的簡介數據進行電影自動分類。首先對電影簡介數據去除冗余無用信息進行數據預處理,其次通過對電影簡介數據進行建模,計算出電影主題的概率主題模型的聯合分布公式,使用Gibbs采樣算法對聯合分布公式求解,從而得出電影的主題分布及電影主題關鍵詞的分布,并根據這2個分布進行電影無標簽數據進行標識,最后使用8 253部電影簡介數據分類模型實驗,精度達到95以上,可以作為電影自動化分類的研究基礎。

參考文獻

[1]周強.中國電影分類理念與類型電影特性研究[J].電影文學, 2021(9):39-42.

[2]蔡夢楠.基于分類模型的電影票房影響因素研究[D].南京:南京師范大學,2021.

[3] LINDSAY G W. Feature-based Attention in Convolutional Neural Networks[J/OL].[2022-10-20].https://arxiv. org/abs/1511.06408.

[4] MENG J E, ZHANG Y, WANG N, et al.Attention Pooling-based Convolutional Neural Netwaok for Sentence Modelling[J].Information Science and International Journal, 2016,373(C):388-403.

[5] KIM Y. Convolutional Neural Networks for Sentence Classifica-tion[J/OL].[2022-10-11].https://arxiv.org/abs/1408. 5882.

[6]肖建.基于Spark并行LDA主題模型的研究[D].重慶:重慶大學,2016.

[7]鄭涵.基于遷移主題模型的文本分類方法研究[D].煙臺:山東工商學院,2021.

[8]胡楚君.基于Hadoop的微博輿情分類的研究與實現[D].北京:北京郵電大學,2016.

[9]鄭飛,韋德壕,黃勝.基于LDA和深度學習的文本分類方法[J].計算機工程與設計,2020,41(8):2184-2189.

主站蜘蛛池模板: 国产精品无码AⅤ在线观看播放| 精品伊人久久久大香线蕉欧美| 黄色免费在线网址| 91国语视频| 四虎影视8848永久精品| 国产精品美女免费视频大全 | 国产乱人伦AV在线A| 呦视频在线一区二区三区| 99热这里只有精品免费| 无码乱人伦一区二区亚洲一| 国产精品亚洲va在线观看| 亚洲国产精品日韩欧美一区| 国产免费一级精品视频| 欧美一级视频免费| 真人免费一级毛片一区二区| 国产成人无码久久久久毛片| 老色鬼欧美精品| 欧美中出一区二区| 一边摸一边做爽的视频17国产| 欧美精品伊人久久| 免费国产小视频在线观看| 亚洲伦理一区二区| 日本手机在线视频| 国产在线拍偷自揄拍精品| 综合网天天| 欧美精品影院| 亚洲午夜国产精品无卡| 制服丝袜亚洲| 国内精品久久人妻无码大片高| 萌白酱国产一区二区| 色播五月婷婷| 欧美一区二区人人喊爽| 国产精品无码AⅤ在线观看播放| 网久久综合| 日韩成人午夜| 黄色在线网| 国产精品香蕉| 久久综合亚洲色一区二区三区| 精品无码一区二区在线观看| 免费视频在线2021入口| 欧美日本在线| 亚洲日本中文字幕天堂网| 无码精品福利一区二区三区| 精品视频91| 69免费在线视频| 国产亚洲欧美日韩在线一区二区三区 | 成年人视频一区二区| 日本三区视频| 久久人搡人人玩人妻精品一| 中国毛片网| 国产最爽的乱婬视频国语对白| 久久精品无码国产一区二区三区| 国产成人精品亚洲日本对白优播| 国产精品无码翘臀在线看纯欲| 午夜丁香婷婷| 色综合中文综合网| 精品视频一区在线观看| 日韩欧美网址| 亚洲国产成人精品无码区性色| 亚洲伦理一区二区| 成人午夜视频网站| 日韩精品免费在线视频| 中文字幕有乳无码| 亚洲天堂网视频| 天天躁日日躁狠狠躁中文字幕| 色偷偷男人的天堂亚洲av| 欧美第二区| 亚洲av无码久久无遮挡| 国产91熟女高潮一区二区| 在线视频精品一区| 久久综合五月婷婷| 亚洲人成网站在线播放2019| 国产精品一区二区在线播放| 免费 国产 无码久久久| 婷婷综合色| 亚洲第一页在线观看| 日本在线亚洲| 五月婷婷综合色| 亚洲欧美不卡中文字幕| 国产成人精品优优av| 亚洲成a人片在线观看88| www.99精品视频在线播放|