999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于智能優(yōu)化算法的自然語言語義相關(guān)度計算模型

2023-09-20 02:19:56行久紅
信息記錄材料 2023年8期
關(guān)鍵詞:語義文本智能

行久紅

(鄭州科技學(xué)院大數(shù)據(jù)與人工智能學(xué)院 河南 鄭州 450064)

0 引言

語義相關(guān)度在廣義角度上分析,指的是兩個詞語之間的相關(guān)程度,能夠從某種程度上反映詞語之間的關(guān)聯(lián)性[1]。通俗來說,即能夠通過一個詞語,聯(lián)想到另外一個意思相近的詞語[2]。傳統(tǒng)的語義相關(guān)度多數(shù)采用布設(shè)語境的方式完成,在該語境下,計算并分析兩個詞語同時出現(xiàn)的可能性,進(jìn)而根據(jù)計算分析結(jié)果衡量詞語語義相關(guān)度[3]。此種計算衡量方式具有一定的弊端,容易將語義相關(guān)度與語義相似度混淆[4]。經(jīng)過眾多學(xué)者研究發(fā)現(xiàn),語義相似度指的是兩個不同詞語之間存在的相似性,而語義相關(guān)度指的是兩個不同詞語之間的關(guān)聯(lián),具有顯著差異[5]。根據(jù)以往學(xué)者的研究結(jié)論可以得知,若兩個不同的詞語語義相似,它們之間的語義也一定相關(guān),反之,若詞語語義相關(guān),但是其語義不一定相似。通過該結(jié)論可以得出:語言語義相似度屬于語義相關(guān)度計算的重要組成部分??茖W(xué)合理的語義相關(guān)度計算方法至關(guān)重要,能夠為現(xiàn)代化信息檢索、海量文本分析、自然語言處理研究、自然語言機(jī)器翻譯等領(lǐng)域提供有力的數(shù)據(jù)支持,屬于一項基礎(chǔ)性的研究工作。智能優(yōu)化算法能夠為語義相關(guān)度計算提供一定的幫助,通過簡單信息處理單元的交互作用,求解分布式問題,收斂速度較快,在多設(shè)計變量方面應(yīng)用優(yōu)勢顯著。

基于此,為了提高自然語言語義相關(guān)度計算方法的可行性,優(yōu)化相關(guān)度計算結(jié)果,本文引入智能優(yōu)化算法,設(shè)計了一種全新的自然語言語義相關(guān)度計算模型。

1 自然語言語義相關(guān)度計算模型設(shè)計

1.1 選取自然語言文本編碼器

本文設(shè)計的基于智能優(yōu)化算法的自然語言語義相關(guān)度計算模型中,首先,需要根據(jù)自然語言文本的具體情況與特征,選取與之適配度較高的編碼器,通過文本編碼器,解決后續(xù)語義相關(guān)度計算模型訓(xùn)練收斂問題,激勵模型的運(yùn)行。綜合考慮后,本文選取卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)文本編碼器,包含了卷積計算的前饋神經(jīng)網(wǎng)絡(luò),具有良好的性能優(yōu)勢。首先利用自然語言文本編碼器,選擇并創(chuàng)建一個完整的局部計算塊,將其遍歷在整個相關(guān)度計算網(wǎng)絡(luò)中。其次將計算塊包含的所有節(jié)點(diǎn),添加到網(wǎng)絡(luò)下層結(jié)點(diǎn)中,使用過濾器,掃描其他位置的輸出節(jié)點(diǎn),使各個節(jié)點(diǎn)的權(quán)重與偏移量共用。利用CNN編碼器,構(gòu)建自然語言文本矩陣,輸入相應(yīng)的數(shù)據(jù)信息,并陳列數(shù)據(jù)信息。在此基礎(chǔ)上,使用一個8×8的卷積核,對文本圖像進(jìn)行卷積計算,獲取其卷積特征,通過不同的通道(channels),匹配圖像RGB顏色模型。抓取圖像中的細(xì)小零件,組裝成完整的圖片信息。對自然語言文本進(jìn)行向量化操作,提取語言文本中的重要語義信息。由于多數(shù)自然語言的文本長度為固定值,在語義信息提取時,可以對卷積核的寬度進(jìn)行設(shè)定。施加不同權(quán)重的卷積核,在自然語言文本中滑動,盡量全面提取自然語言文本中的重要語義信息。最后添加maxpooling操作,減少CNN自然語言文本編碼器的擬合,提高自然語言文本中語義信息提取的精度。

1.2 自然語言文本數(shù)據(jù)集處理與融合

完成自然語言文本編碼器選取后,實現(xiàn)了自然語言文本中重要語義信息提取的目標(biāo)。接下來,對等待計算語義相關(guān)度的自然語言文本數(shù)據(jù)集進(jìn)行處理與融合,為后續(xù)語義相關(guān)度計算模型構(gòu)建提供基礎(chǔ)保障。

對自然語言文本數(shù)據(jù)集進(jìn)行全方位的識別與分析,找出語義相關(guān)度計算模型可能無法識別的文字化信息。自然語言文本數(shù)據(jù)集處理主要包括三個部分,分別為自然語言文本停用詞去除處理、自然語言文本歸一化處理、自然語言文本向量化處理,需要特別注意,以上處理方式僅針對中文自然語言文本數(shù)據(jù)集,而英文自然語言文本數(shù)據(jù)集處理中,需要采用Jieba工具包,進(jìn)行文本分詞操作。

(1)自然語言文本數(shù)據(jù)集停用詞去除處理。停用詞主要包括文本數(shù)據(jù)集中的部分功能詞,例如介詞、連詞等無任何實際意義的詞語,還有詞匯詞,即使用極其廣泛,但可有可無的詞語。采用MATLAB軟件,生成有針對性的停用詞表,以智能化與自動化的過濾方式,過濾刪除以上兩類停用詞,節(jié)省存儲空間,提高自然語言文本數(shù)據(jù)集詞語的搜索效率。

(2)自然語言文本數(shù)據(jù)集歸一化處理。將數(shù)據(jù)集中存儲格式不同的各個文本進(jìn)行歸一化處理,使文本長度保持一致,達(dá)到自然語言文本規(guī)定的長度。

(3)自然語言文本數(shù)據(jù)集向量化處理。將自然語言文本中的文字,經(jīng)過詞嵌入表的轉(zhuǎn)換作用,轉(zhuǎn)換為高維稠密向量,并將其作為輸入層,輸入到后續(xù)構(gòu)建的語義相關(guān)度計算模型中。設(shè)定自然語言文本數(shù)據(jù)集向量為固定長度,該長度需要囊括大部分自然語言文本的長度,在此基礎(chǔ)上,對各個文本的長度進(jìn)行補(bǔ)充,初步向量化文本的內(nèi)容,獲得文本一維向量,生成自然語言文本詞向量庫。

完成自然語言文本數(shù)據(jù)集處理后,接下來,對文本數(shù)據(jù)集進(jìn)行融合。將多個數(shù)據(jù)集進(jìn)行一致化處理,統(tǒng)一其內(nèi)容與特征,轉(zhuǎn)換器處理格式,將數(shù)據(jù)集中海量不同類型的數(shù)據(jù)進(jìn)行融合,進(jìn)而擴(kuò)大數(shù)據(jù)集。除了能夠融合數(shù)據(jù)類型以外,還能夠融合數(shù)據(jù)功能,逐步擴(kuò)充完善自然語言文本數(shù)據(jù)集,提高數(shù)據(jù)集的泛化能力。設(shè)定自然語言文本數(shù)據(jù)集融合采用的編程語言為python,采用的工具包為pandas。將用戶輸入的自然語言文本數(shù)據(jù)集作為孿生網(wǎng)絡(luò)模型的輸入層,通過孿生網(wǎng)絡(luò)模型,比對融合后的數(shù)據(jù)集文本特征,使自然語言文本數(shù)據(jù)集處理與融合的結(jié)果達(dá)到最優(yōu)化目的。

1.3 基于智能優(yōu)化算法構(gòu)建自然語言語義相關(guān)度計算模型

基于上述自然語言文本數(shù)據(jù)集處理與融合完成后,實現(xiàn)了文本數(shù)據(jù)格式一致化的目標(biāo),為相關(guān)度計算模型構(gòu)建提供了基礎(chǔ)保障。在此基礎(chǔ)上,利用智能優(yōu)化算法,計算自然語言語義相關(guān)度,構(gòu)建語義相關(guān)度計算模型。設(shè)計智能優(yōu)化算法的運(yùn)行流程,如圖1所示。

圖1 智能優(yōu)化算法運(yùn)行流程

如圖1所示,首先基于群體智能優(yōu)化算法,設(shè)置并初始化自然語言文本種群。其次根據(jù)文本種群初始化結(jié)果,計算種群的適應(yīng)度函數(shù)。設(shè)定智能優(yōu)化算法的終止條件,將種群的適應(yīng)度函數(shù)計算結(jié)果與設(shè)定的終止條件進(jìn)行對比。若符合智能優(yōu)化算法的終止條件,則輸出智能優(yōu)化算法的全局最優(yōu)解;若不符合智能優(yōu)化算法的終止條件,則更新種群,并刪除原始解決方案,尋找另一個全新的解決方案,再次計算種群適應(yīng)度,直至滿足算法終止條件為止。通過智能優(yōu)化算法的不斷迭代,獲取最終滿意度良好的最優(yōu)解,完成智能優(yōu)化算法的整體流程。在此基礎(chǔ)上,利用智能優(yōu)化算法,尋找自然語言文本的義原最優(yōu)解,根據(jù)文本義原的上下位關(guān)系,構(gòu)建自然語言義原層次結(jié)構(gòu)體系,利用語義相關(guān)度S表示。設(shè)定自然語言文本中2個義原在層次結(jié)構(gòu)體系中的路徑距離為d,其語義相關(guān)度計算表達(dá)式為:

S(p1,p2)=δ/(d+δ)

(1)

其中,p1、p2分別表示自然語言文本中的兩個義原;δ表示語義相關(guān)度計算中的一個可調(diào)節(jié)參數(shù)。通過計算,得出文本語義相似度。根據(jù)語義相關(guān)度,將自然語言文本中義原的重要性進(jìn)行分類,分類結(jié)果如表1所示。

表1 自然語言義原分類

由表1可知,本文設(shè)計的自然語言義原分類結(jié)果,將分類結(jié)果的4個義原值進(jìn)行線性疊加,得出2個自然語言詞語M1、M2的整體相關(guān)度,計算表達(dá)式為:

(2)

其中,β表示相關(guān)度計算模型的可調(diào)節(jié)參數(shù)。通過計算表達(dá)式,得出自然文本義原的綜合相關(guān)度結(jié)果,使其文本相關(guān)度依次遞減,全面提高自然語言語義相關(guān)度計算結(jié)果的精度,完成相關(guān)度計算模型設(shè)計的目的。

2 實驗分析

2.1 實驗準(zhǔn)備

上述內(nèi)容,便是本文利用智能優(yōu)化算法,設(shè)計的自然語言語義相關(guān)度計算模型的全部流程。在此基礎(chǔ)上,進(jìn)行了如下文所示的實驗分析,檢驗提出計算模型的可行性與應(yīng)用效果,避免直接投入使用后存在異常,降低相關(guān)度計算結(jié)果的精確度。此次實驗以自然語言領(lǐng)域本體作為實驗數(shù)據(jù),該領(lǐng)域本體是結(jié)合自然語言研究指南對語言的權(quán)威說明,通過protege生成的。在實驗開始前,選取實驗所需的工具,搭建實驗測試環(huán)境。本次實驗所需的工具及說明,如表2所示。

表2 實驗工具及說明

使用ThinkServer rd430服務(wù)器,搭建此次實驗測試的OpenStack環(huán)境。設(shè)置服務(wù)器的內(nèi)存為64 G DDR3;硬盤為2.8 T RAIDO;系統(tǒng)為Ubuntu 16.04LTS;網(wǎng)卡為1個萬兆網(wǎng)卡,3個千兆網(wǎng)卡;開發(fā)平臺為Tensorflow框架;開發(fā)語言為Python3.6;字向量訓(xùn)練工具為Word2vec。對自然語言本體概念數(shù)據(jù)集進(jìn)行全方位的存儲管理,通過Jena接口的解析功能,解析自然語言本體數(shù)據(jù)。利用自然語言信息內(nèi)容、語言屬性與語義距離等因素,分別計算自然語言領(lǐng)域中概念對之間的語義相關(guān)度。由于自然語言網(wǎng)頁文本較長,數(shù)量較多,為了避免影響實驗結(jié)果的準(zhǔn)確性,本文將所有語言詞語對劃分為了10組,避免實驗結(jié)果存在偶然性。

2.2 結(jié)果分析

為了提高實驗結(jié)果的說服性,在實驗中,引入對比分析的方法原理,將上述本文提出的基于智能優(yōu)化算法的自然語言語義相關(guān)度計算模型設(shè)置為實驗組,將黃承寧等[2]1152提出的基于深度學(xué)習(xí)表示的相關(guān)度計算方法、薛毅等[3]112-113提出的基于卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)度計算方法分別設(shè)置為對照組1與對照組2,分別對3種方法的應(yīng)用效果作出檢驗。選取斯皮爾曼相關(guān)系數(shù)作為此次實驗的評價指標(biāo),在廣義角度上指的是語言語義相關(guān)度等級變量之間的皮爾遜相關(guān)系數(shù),其數(shù)值越大,表示語言語義相關(guān)度計算結(jié)果精度越高,方法的有效性越高。評價指標(biāo)計算表達(dá)式為:

(3)

圖2 實驗評價指標(biāo)對比示意圖

圖2中,01表示rooster-voyage自然語言詞語對;02表示noon-string自然語言詞語對;03表示glass-magician自然語言詞語對;04表示forest-graveyard自然語言詞語對;05表示asylum-madhouse自然語言詞語對;06表示furnace -stove自然語言詞語對;07表示magician-wizard自然語言詞語對;08表示journey-voyage自然語言詞語對;09表示cemetery-woodland自然語言詞語對;10表示shore woodland自然語言詞語對。通過圖1的評價指標(biāo)對比結(jié)果可以看出,本文提出的基于智能優(yōu)化算法的自然語言語義相關(guān)度計算模型應(yīng)用后,較另外兩種方法相比,各組自然語言詞語對的斯皮爾曼相關(guān)系數(shù)值均較高,表明其語義相關(guān)度計算結(jié)果更加精確,提出計算模型的有效性與可行性均較高,可以投入大規(guī)模使用。

3 結(jié)語

綜上所述,為了改善傳統(tǒng)自然語言語義相關(guān)度計算模型在實際應(yīng)用過程中,計算結(jié)果精度較低、計算流程復(fù)雜的問題。本文在傳統(tǒng)相關(guān)度計算模型的基礎(chǔ)上,引入智能優(yōu)化算法,作出了改進(jìn)設(shè)計。通過研究,充分地利用了網(wǎng)絡(luò)資源,提高了語言語義相關(guān)度計算結(jié)果的精度,在自然語言文本聚類、分類方面優(yōu)勢顯著。提出計算模型的實用性較強(qiáng),能夠應(yīng)用于自然語言釋義識別任務(wù)中,結(jié)合義項向量使用,提取更深層次的語義特征,進(jìn)而形成完整的文本語義特征向量,性能表現(xiàn)良好,計算精度與效率較高,具有良好的應(yīng)用前景。

猜你喜歡
語義文本智能
語言與語義
在808DA上文本顯示的改善
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 97se亚洲综合不卡| 国产网站免费| www.av男人.com| 黄片一区二区三区| 亚洲视屏在线观看| 国产xx在线观看| 国产精品所毛片视频| 国产91线观看| 国模视频一区二区| 国产精品亚洲欧美日韩久久| 四虎国产永久在线观看| 久久精品无码一区二区日韩免费 | 欧美福利在线| 国产成熟女人性满足视频| 91美女在线| 国产第一页屁屁影院| 嫩草影院在线观看精品视频| yjizz视频最新网站在线| 黄色三级毛片网站| 国产日韩欧美精品区性色| 成人亚洲国产| aa级毛片毛片免费观看久| 夜精品a一区二区三区| 嫩草在线视频| 亚洲人成网站18禁动漫无码| 国产欧美精品一区二区| 91精品国产综合久久不国产大片| 色哟哟精品无码网站在线播放视频| 亚洲人精品亚洲人成在线| 国产va在线| 精品国产美女福到在线不卡f| 五月丁香伊人啪啪手机免费观看| 国产本道久久一区二区三区| 久久久久无码国产精品不卡| 国产精品视频系列专区| 国产日韩av在线播放| 中文字幕乱码中文乱码51精品| 久久久久亚洲精品无码网站| 久久一本精品久久久ー99| 精品国产一区二区三区在线观看| 99re视频在线| 一级看片免费视频| 麻豆国产在线不卡一区二区| 国产精品va| 国产成人三级在线观看视频| 欧美在线精品一区二区三区| 亚洲系列中文字幕一区二区| 在线国产资源| 欧美日韩精品一区二区在线线| 国内精品久久久久久久久久影视 | 久久久久亚洲Av片无码观看| 亚洲中文久久精品无玛| 精品视频在线一区| 不卡午夜视频| 亚洲乱强伦| 无码专区在线观看| 成人福利免费在线观看| 亚洲精品男人天堂| 国产成人av一区二区三区| 国产成人av大片在线播放| 国产午夜无码片在线观看网站| 91精品国产综合久久不国产大片| 亚洲精品久综合蜜| 视频一本大道香蕉久在线播放| 成人一级黄色毛片| 久久久亚洲色| 狠狠色婷婷丁香综合久久韩国 | 青青热久免费精品视频6| 99久久精品国产麻豆婷婷| 亚洲另类国产欧美一区二区| 日韩毛片视频| 亚洲中文字幕久久精品无码一区 | 午夜无码一区二区三区| 免费激情网址| 亚洲国产av无码综合原创国产| 伊在人亞洲香蕉精品區| 日韩成人免费网站| 亚洲日韩久久综合中文字幕| 国产精品久线在线观看| 97在线视频免费观看| 99热这里只有精品在线播放| 久久精品丝袜高跟鞋|