999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法

2023-04-29 00:00:00韓開旭袁淑芳

摘要: 為提高短文本語義相似性度量準(zhǔn)確性, 設(shè)計(jì)一種基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法. 先對短文本實(shí)施預(yù)處理, 基于混合機(jī)器學(xué)習(xí)模型構(gòu)建短文本的字詞向量模型, 對短文本進(jìn)行特征擴(kuò)展; 然后組合短文本的多樣度量特征, 對多樣度量特征進(jìn)行維度規(guī)約; 最后通過構(gòu)建一個集成學(xué)習(xí)模型, 計(jì)算語義相似性結(jié)果, 實(shí)現(xiàn)語義相似性的度量. 使用“Quora Question Pairs”比賽數(shù)據(jù)集測試該方法的性能, 測試結(jié)果表明, 該方法的準(zhǔn)確性較高, 對數(shù)損失和度量均方差均較低, 說明該方法的相似性度量準(zhǔn)確性較高.

關(guān)鍵詞: 混合機(jī)器學(xué)習(xí)模型; 短文本; 文本分詞; 語義相似性; 卡方檢驗(yàn); 相似性度量

中圖分類號: TP391 文獻(xiàn)標(biāo)志碼: A 文章編號: 1671-5489(2023)04-0909-06

Short Text Semantic Similarity Measurement Algorithm Based on Hybrid Machine Learning Model

HAN Kaixu1, YUAN Shufang2

(1. College of Electronics and Information Engineering, Beibu Gulf University,

Qinzhou 535011, Guangxi Zhuang Autonomous Region, China;

2. College of Sciences, Beibu Gulf University, Qinzhou 535011, Guangxi Zhuang Autonomous Region, China)

Abstract: In order to improve the accuracy of short text semantic similarity measurement, we designed a short text semantic similarity measurement algorithm based on a hybrid machine learning model. Firstly, we preprocessed the short text, constructed a word vector model of the short text based on the hybrid machine learning model, and extended the" features of the short text. Secondly, we" combined the various metric features of the short text, implemented dimensional reduction on the various metric features. Finally, we constructed an ensemble learning" model to calculate the semantic similarity results and achieve the" semantic similarity measurement. We tested the performance of the method by using the “Quora Question Pairs” competition dataset, the test results show that the accuracy of the" method is high, the logarithmic loss, and the measurement mean square error are both low, indicating that the similarity measurement accuracy of the method is high.

Keywords: hybrid machine learning model; short text; text segmentation; semantic similarity; Chi-square test; similarity measurement

短文本雖然文本較短, 但其內(nèi)容能容納很微妙的語言表達(dá), 在很多實(shí)際應(yīng)用中, 都需要批量處理短文本數(shù)據(jù)[1]. 但對于大規(guī)模數(shù)據(jù), 通常難以分辨短文本的語義相似性, 基于該背景對短文本語義相似性度量問題進(jìn)行研究.

在自然語言處理技術(shù)中, 文本相似性度量一直是研究重點(diǎn). 文本相似性度量的傳統(tǒng)算法更適合在長文本上應(yīng)用, 對于短文本常無法取得滿意的效果, 因此需要對短文本相似性度量進(jìn)行專門研究. 目前, 關(guān)于該問題的研究已有許多成果. 石彩霞等[2]提出了一種準(zhǔn)確率較高的短文本語義相似性度量算法, 從短文本的稀疏特性出發(fā), 通過多重檢驗(yàn)加權(quán)融合實(shí)現(xiàn)相似性度量, 并取得了合理準(zhǔn)確的計(jì)算結(jié)果. 本文應(yīng)用混合機(jī)器學(xué)習(xí)模型對該問題進(jìn)行研究, 設(shè)計(jì)一種基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法, 以實(shí)現(xiàn)更準(zhǔn)確的相似性度量.

1 算法設(shè)計(jì)

1.1 短文本預(yù)處理

2.3 實(shí)驗(yàn)結(jié)果與分析

首先將數(shù)據(jù)集中的數(shù)據(jù)平均分成5份, 在每份數(shù)據(jù)中隨機(jī)劃分出80%作為訓(xùn)練集, 剩下的數(shù)據(jù)作為測試集. 在不同的提取特征數(shù)量下分別對訓(xùn)練集和測試集的Accuracy數(shù)值進(jìn)行測試, 測試結(jié)果如圖4所示. 由圖4可見, 在不同的提取特征數(shù)下, 本文方法的Accuracy數(shù)值都較高, 說明該方法的短文本語義相似性度量準(zhǔn)確率較高. 在提取特征數(shù)為3時, 訓(xùn)練集和測試集的Accuracy數(shù)值最高.

其次分別對訓(xùn)練集和測試集的Log loss數(shù)值進(jìn)行測試, 測試結(jié)果如圖5所示. 由圖5可見, 本文方法訓(xùn)練集和測試集的Log loss數(shù)值均較低, 說明該方法在語義相似性度量中的對數(shù)損失較低, 度量性能較好.

最后對設(shè)計(jì)方法的度量均方差進(jìn)行測試, 測試結(jié)果列于表2. 由表2可見, 通過該方法進(jìn)行短文本語義相似性度量后, 訓(xùn)練集和測試集的度量均方差都較低, 表明本文方法的度量準(zhǔn)確率較高.

綜上所述, 本文在對短文本語義相似性度量問題進(jìn)行研究的過程中, 應(yīng)用了混合卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型和全連接神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型的混合機(jī)器學(xué)習(xí)模型, 設(shè)計(jì)了一種基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法, 經(jīng)過測試其在Accuracy,Log loss和度量均方差3個指標(biāo)上均較優(yōu), 提高了短文本相似性度量準(zhǔn)確率, 有一定的應(yīng)用價值.

參考文獻(xiàn)

[1]鄭志蘊(yùn), 吳建萍, 李鈍, 等. 一種基于短文本相似度計(jì)算的知識子圖融合方法 [J]. 小型微型計(jì)算機(jī)系統(tǒng), 2020, 41(1): 6-11. (ZHENG Z Y, WU J P, LI D, et al. A Knowledge Subgraph Fusion Method Based on Short Text Similarity Calculation [J]. Small Microcomputer Systems, 2020, 41(1): 6-11.)

[2]石彩霞, 李書琴, 劉斌. 多重檢驗(yàn)加權(quán)融合的短文本相似度計(jì)算方法 [J]. 計(jì)算機(jī)工程, 2021, 47(2): 95-102. (SHI C X, LI S Q, LIU B. Short Text Similarity Calculation Method Based on Weighted Fusion of Multiple Tests [J]. Computer Engineering, 2021, 47(2): 95-102.)

[3]趙雅欣, 鄭明洪, 石林鑫, 等. 面向電力審計(jì)領(lǐng)域的兩階段短文本分類方法研究 [J]. 西南大學(xué)學(xué)報(自然科學(xué)版), 2020, 42(10): 1-7. (ZHAO Y X, ZHENG M H, SHI L X, et al. Research on Two-Stage Short Text Classification Method for Electric Power Auditing [J]. Journal of Southwest University (Natural Science Edition), 2020, 42(10): 1-7.)

[4]寇菲菲, 杜軍平, 石巖松, 等. 面向搜索的微博短文本語義建模方法 [J]. 計(jì)算機(jī)學(xué)報, 2020, 43(5): 781-795. (KOU F F, DU J P, SHI Y S, et al. A Search-Oriented Approach to Semantic Modeling of Microblog Short Texts [J]. Chinese Journal of Computers, 2020, 43(5): 781-795.)

[5]唐善成, 張雪, 張鏷月, 等. 融合中文字形和字義的字向量表示方法 [J]. 科學(xué)技術(shù)與工程, 2021, 21(32): 13787-13792. (TANG S C, ZHANG X, ZHANG P Y, et al. A Word Vector Representation Method Integrating Chinese Character Shape and Character Meaning [J]. Science Technology and Engineering, 2021, 21(32): 13787-13792.)

[6]陶玥, 余麗, 吳振新. CoTransH: 科技文獻(xiàn)知識圖譜中語義關(guān)系預(yù)測的翻譯模型 [J]. 情報理論與實(shí)踐, 2021, 44(11): 187-196. (TAO Y, YU L, WU Z X. CoTransH: A Translation Model for Semantic Relationship Prediction in Knowledge Graphs of Scientific and Technological Documents [J]. Information Theory and Practice, 2021, 44(11): 187-196.)

[7]葉俊民, 羅達(dá)雄, 陳曙. 基于短文本情感增強(qiáng)的在線學(xué)習(xí)者成績預(yù)測方法 [J]. 自動化學(xué)報, 2020, 46(9): 1927-1940. (YE J M, LUO D X, CHEN S. Online Learner Performance Prediction Method Based on Short Text Sentiment Enhancement [J]. Journal of Automation, 2020, 46(9): 1927-1940.)

[8]高云龍, 吳川, 朱明. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的短文本分類模型 [J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2020, 58(4): 923-930. (GAO Y L, WU C, ZHU M. Short Text Classification Model Based on Improved Convolutional Neural Network [J]. Journal of Jilin University (Science Edition), 2020, 58(4): 923-930.)

[9]湯凌燕, 熊聰聰, 王嫄, 等. 基于深度學(xué)習(xí)的短文本情感傾向分析綜述 [J]. 計(jì)算機(jī)科學(xué)與探索, 2021, 15(5): 794-811. (TANG L Y, XIONG C C, WANG Y, et al. A Review of Short Text Sentiment Analysis Based on Deep Learning [J]. Computer Science and Exploration, 2021, 15(5): 794-811.)

[10]饒毓和, 凌志浩. 一種結(jié)合主題模型與段落向量的短文本聚類方法 [J]. 華東理工大學(xué)學(xué)報(自然科學(xué)版), 2020, 46(3): 419-427. (RAO Y H, LING Z H. A Short Text Clustering Method Combining Topic Model and Paragraph Vector [J]. Journal of East China University of Science and Technology (Natural Science Edition), 2020, 46(3): 419-427.)

[11]劉嬌, 李艷玲, 林民. 膠囊網(wǎng)絡(luò)用于短文本多意圖識別的研究 [J]. 計(jì)算機(jī)科學(xué)與探索, 2020, 14(10): 1735-1743. (LIU J, LI Y L, LIN M. Research on Capsule Networks for Multi-intent Recognition of Short Texts [J]. Computer Science and Exploration, 2020, 14(10): 1735-1743.)

[12]繆亞林, 姬怡純, 張順, 等. CNN-BiGRU模型在中文短文本情感分析的應(yīng)用 [J]. 情報科學(xué), 2021, 39(4): 85-91. (MIAO Y L, JI Y C, ZHANG S, et al. Application of CNN-BiGRU Model in Sentiment Analysis of Chinese Short Texts [J]. Information Science, 2021, 39(4): 85-91.)

[13]張博, 孫逸, 李孟穎, 等. 基于遷移學(xué)習(xí)和集成學(xué)習(xí)的醫(yī)學(xué)短文本分類 [J]. 山西大學(xué)學(xué)報(自然科學(xué)版), 2020, 43(4): 947-954. (ZHANG B, SUN Y, LI M Y, et al. Classification of Medical Short Texts Based on Transfer Learning and Ensemble Learning [J]. Journal of Shanxi University (Natural Science Edition), 2020, 43(4): 947-954.)

[14]孫洋, 粟栗, 張星, 等. 基于子語義空間的挖掘短文本策略方法 [J]. 電信科學(xué), 2020, 36(3): 83-92. (SUN Y, SU L, ZHANG X, et al. Strategy Method for Mining Short Text Based on Sub-semantic Space [J]. Telecommunications Science, 2020, 36(3): 83-92.)

[15]宋明, 劉彥隆. Bert在微博短文本情感分類中的應(yīng)用與優(yōu)化 [J]. 小型微型計(jì)算機(jī)系統(tǒng), 2021, 42(4): 714-718. (SONG M, LIU Y L. Application and Optimization of Bert in Microblog Short Text Sentiment Classification [J]. Small Microcomputer System, 2021, 42(4): 714-718.)

[16]王生生, 張航, 潘彥岑. 改進(jìn)的和積網(wǎng)絡(luò)自動編碼器及短文本情感分析應(yīng)用 [J]. 哈爾濱工程大學(xué)學(xué)報, 2020, 41(3): 411-419. (WANG S S, ZHANG H, PAN Y C. Improved Sum-Product Network Autoencoder and Short Text Sentiment Analysis Application [J]. Journal of Harbin Engineering University, 2020, 41(3): 411-419.)

(責(zé)任編輯: 韓 嘯)

收稿日期: 2022-04-15.

第一作者簡介: 韓開旭(1984—), 男, 漢族, 博士, 講師, 從事機(jī)器學(xué)習(xí)和自然語言處理的研究, E-mail: frog0696@163.com. 通信作者簡介: 袁淑芳(1988—), 女, 漢族, 碩士, 助理研究員, 從事機(jī)器學(xué)習(xí)的研究, E-mail: ysf20210605@126.com.

基金項(xiàng)目: 國家自然科學(xué)基金面上項(xiàng)目(批準(zhǔn)號: 61374127)和廣西高校中青年教師科研基礎(chǔ)能力提升項(xiàng)目(批準(zhǔn)號: 2021KY0434; 2020KY10019).

主站蜘蛛池模板: 亚洲第一黄片大全| 日韩成人午夜| 91麻豆国产视频| 日韩欧美中文字幕在线精品| 久久久亚洲色| 日韩免费毛片| 亚洲色图欧美一区| 亚洲天堂自拍| 蜜桃视频一区二区三区| 性欧美在线| 青草国产在线视频| 精品无码国产一区二区三区AV| 国产在线小视频| 日韩a级毛片| 亚洲福利视频一区二区| 第一页亚洲| 欧美精品色视频| 久久96热在精品国产高清| 97亚洲色综久久精品| 2022国产91精品久久久久久| 欧美成人A视频| 伊人精品成人久久综合| 亚洲人网站| 日韩大片免费观看视频播放| 国产区网址| 成人第一页| 欧美日韩精品一区二区视频| 国产资源免费观看| 欧洲一区二区三区无码| Aⅴ无码专区在线观看| 亚洲欧美成人在线视频| 亚洲品质国产精品无码| 中文字幕在线看| 中文字幕亚洲另类天堂| 国产成人精彩在线视频50| 久久国产精品国产自线拍| 欧美激情综合| 丝袜亚洲综合| 日本人又色又爽的视频| 国产欧美亚洲精品第3页在线| 国产va在线观看免费| 亚洲av无码人妻| 国产视频一二三区| 色国产视频| 国产综合欧美| 真实国产精品vr专区| 91无码国产视频| 91精品国产福利| 国产区免费| 亚洲免费播放| 青青草国产一区二区三区| 日韩毛片在线视频| 香蕉蕉亚亚洲aav综合| 日韩小视频在线播放| 亚洲美女久久| 日韩不卡高清视频| 国内精品自在自线视频香蕉| 婷婷成人综合| 国产91视频免费观看| 亚洲第一色网站| 成人福利在线观看| 色欲不卡无码一区二区| 久久精品电影| 99久久精品免费视频| 国产91九色在线播放| 国产成本人片免费a∨短片| 亚洲综合18p| 国产无码精品在线| 亚洲男人天堂久久| 日本AⅤ精品一区二区三区日| 免费人成在线观看视频色| 伊人国产无码高清视频| 国产成年无码AⅤ片在线| 日本午夜影院| 扒开粉嫩的小缝隙喷白浆视频| 亚洲成人精品久久| 又大又硬又爽免费视频| 久久精品国产精品国产一区| 97久久人人超碰国产精品| 成人伊人色一区二区三区| 亚洲精品亚洲人成在线| 国产精品林美惠子在线观看|