999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存句法的句子相似度計算方法

2020-08-31 06:14:04胡雨晴紀明宇王晨龍
智能計算機與應用 2020年4期
關鍵詞:句法語義方法

胡雨晴, 紀明宇, 王晨龍

(東北林業大學 信息與計算機工程學院, 哈爾濱150040)

0 引 言

近年來,文本語義的相似度計算廣泛應用于機器翻譯、信息檢索、對話系統等領域[1]。 語義的相似度是指用于比較語義實體(如詞語、句子、或定義為知識庫的概念和實例)之間的語義相似性或相關性的方法[2]。 語義實體中的句子在實際應用場景中最為常見,國內外學者對于句子的相似度計算提出了許多方法。

句子的特征提取是句子相似度計算的核心,目前主要有兩類句子相似度計算方法:人工提取句子特征和利用神經網絡提取。 第一類方法:以句中的關鍵詞、詞頻、語義成分等句子特征,定義計算句子相似度的計算公式。 例如,Gunasinghe 等人統計文檔的詞頻作為句子特征,并且利用余弦距離度量相似度[3]。 此類方法存在特征稀疏的問題,語義度量不夠準確。 第二類方法:利用神經網絡自動提取句子級或詞語級的語義特征。 如Palangi 等人利用循環神經網絡模型,將句子中的詞語特征依次提取出來[4]。 Zhuang 等人引入注意力模型到循環神經網絡中更多的獲取句子的語義信息[5]。 而近年來越來越多的學者將常用于圖像處理的卷積神經網絡用來處理文本數據。 Kim 等人提出Text-CNN 方法,首次利用卷積神經網絡結構學習句子的局部特征[6]。 He 等人對卷積網絡進行了改進,提出了2 種卷積方式和3 種池化方式,從多個角度學習句子特征[7]。

但是,應用神經網絡的方法存在一些不足:神經網絡的輸入端需要固定長度的句子,而文本中的句子大多長短不一,對于長句通常使用直接截取的方法,句子會丟失一部分語義信息導致語義特征提取不全面;短句的處理方式是直接用零來補充缺失的向量部分,這樣會使句子所含的重要語義信息過少[8]。 而且,僅僅使用基本的神經網絡結構學習句子語義特征不夠充分。

針對上述問題,本文在依存句法的基礎上對長句的重要特征進行提取、對短句中重要的語義信息進行補充。 為了提高卷積神經網絡學習句子特征的能力,本文基于Text-CNN 模型,引入了擴張卷積和反卷積的結構,來獲取多個層面的句子語義特征。

1 基于依存句法的長短句特征提取

1.1 英文依存句法分析

依存句法(Dependency Parsing)是指通過分析語言單位內成分之間的依存關系揭示其句法結構[9]。 StanfordCoreNLP 是由斯坦福大學開發的關于自然語言處理的工具包,其中包括句子的依存句法分析、分詞、詞性還原等功能。 其工具將句子的語法結構以句法結構樹的形式展現,并對句中的每一個詞語的語法成分和詞性進行了標注。

本文利用StanfordCoreNLP 對句子進行依存分析后的詞語標注,制定出提取長短句特征的規則。對于長句,采用去掉一部分語義較弱的詞語來削減句子長度;而對于短句,則增強語義信息較為重要的詞語來增加句長。 如,在英文句子中常見的限定詞“the”、“to”及介詞“in”、“for”等等出現頻率較高,而包含的語義信息又過少,則可在長句中刪減。 而句中的名詞短語、動詞、副詞、人稱代詞等句中語義重要的詞語應在短句中進行補充。

應用上述長短句提取規則,作用于本文選用的2 個公開實驗數據集MSRP 和STS,其長短句數量變化情況見表1。 由表1 可知,MSRP 數據集的句長小于12 的 句子從821 條減少到484 條,長度超過20的句子減少了2405 條。 STS 數據集的短句子過多而且大多只有5 個單詞,短句子的語義信息過少不利于提取出句子的特征,通過本文提出的依存句法提取規則,補充短句語義信息使短句減少了151 條。2 個數據集所減少的長句和短句都分別在句長適中的區間相應的增加了2 742 條和2 261 條。

表1 依存句法規則下英文長短句變化情況Tab.1 Changes of English short and long sentences under dependency rules

1.2 中文依存句法分析

中文的依存句法分析,則利用哈爾濱工業大學提供的語言技術平臺 ( Language Technology Platform, LTP)[10]。 LTP 中常見的依存關系類型和對應標注見表2。

表2 LTP 中依存關系類型及標注Tab.2 Dependency types and annotations in LTP

句法分析的目的是構造句子的句法結構樹(Syntactic Structure Tree)[11]。 句法結構樹是由詞語、詞性標注、語法成分和表示依存關系的依存弧組成的[12]。 句法結構樹與句子的結構有著密切關系。本文將長度超過10 個字的句子定義為長句子,長度小于5 個字的句子定義為短句子,5 到10 個字之間的句子定義為標準句。 圖1 是本文數據集中的幾個常見用句,對3 種句子的LTP 句法結構描述。

圖1 LTP 句法結構樹實例Fig.1 An example of lip syntax structure tree

由圖1 可以看出:長句、標準句和短句中的核心成分(HED),主語(SBV)、賓語(VOB)與其它成分之間的依存弧最多,即依存關系最多。 如果缺少這3 類成分句子的語義表達將會受到嚴重影響。 其次,依存關系較多的是修飾主語的定語成分(ATT)和修飾謂語的狀語成分(ADV)。 其它語法成分的依存關系較弱,如并列關系(COO)、動補關系(CMP)等。 可見,依存關系越多的語法成分對句子的語義表達越重要,將長句中依存關系較多的語法成分提取出來,可以在保留長句重要語義信息的同時壓縮句長;補充短句子中依存關系較多的語法成分,可以增加短句長度,并提高短句中依存關系較多語法成分的出現概率,使句子的語義表達更充分。

基于此,本文提出的長短句提取規則如下:對長句而言,將句中標注為SBV、HED、VOB 的主謂賓等核心詞全部提取;句中標注為ATT、ADV、CMP(動補)修飾主謂賓的助詞選擇性提取;其它標注不進行提取。 對于短句中存在修飾詞,周圍大多是被修飾的主語、謂語等依存關系較多成分的情況,采用復制短句中標注為ATT、ADV、VOB 等修飾詞的前一個詞到當前詞之后的方式,進行補充語義。

應用上述長短句提取規則,作用于本文實驗數據集的102 477 對句子,相應的長短句數量變化情況如圖2 所示。

圖2 運用依存規則后的句長對比Fig.2 Sentence length comparison after using dependency rule

由圖2(a)可知,智能數據集的句長主要分布在3 到10 個詞語之間,但是詞語少于5 個詞,包含語義信息太少,不利于句子相似度的比較。 在本文的依存句法提取規則下,數據集中的句長小于5 和大于10 的句子大幅度的減少,如圖2 (b)所示。 可見,數據集中過長或過短句子在依存句法規則下大量減少,便于神經網絡的輸入。

2 擴張卷積和反卷積學習句子特征

擴張卷積(Dilated Convolution)又稱空洞卷積,由國外學者Yu 等人[13]提出,在圖像分割、目標檢測等領域被廣泛應用。 擴張卷積和普通卷積相比,除了卷積核的大小以外,還有一個擴張率參數表示擴張的大小。 利用這種結構,在保持參數個數不變的情況下增大了卷積核的感受野,同時可以保證輸出特征映射的大小保持不變。 普通卷積和擴張卷積的對比如圖3 所示。

圖3 擴張卷積和普通卷積對比Fig.3 Comparison between convolution and dilated convolution

圖3 中綠色區域代表卷積核,深藍色區域為感受野。 同樣是3x3 的卷積核,擴張卷積可以獲得更大的感受野,學習到更遠的特征信息。 國外學者Bai 等人[14]提出的時間卷積網絡TCN 中也用到了擴張卷積的思想。 本文利用擴張卷積相比普通卷積具有更大的感受野,可以同時獲取更遠的上下文信息,并能保持計算量變化較小。 利用擴張卷積代替文獻[6] Text-CNN 方法中的普通卷積部分,得到融合擴張卷積的Text-CNN 模型結構如圖4 所示。

反卷積(Deconvolution)也稱轉置卷積,是由Zeiler 等人[15]提出,常用于圖像處理的場景分割、生成模型等領域。 最近流行的生成對抗網絡(GAN)生成器模塊,采用的就是反卷積操作,將低分辨率圖像生成高分辨率圖像[16]。 反卷積操作是卷積的逆過程,即卷積層的反向傳播就是反卷積層的前向傳播,其模型結構如圖5 所示。

從圖5 可以看出,2×2 的輸入,通過3×3 步長為1 的過濾器,反卷積得到4×4 的輸出,反卷積時空白的部分用0 補充。 通過反卷積可以對短句子的信息進行擴充提取,利于短句子在相似度比較時可以考慮到更多的信息。

圖4 融合擴張卷積的Text-CNNFig.4 Text-CNN that blends dilated convolution

圖5 反卷積模型結構Fig.5 Deconvolution structural model

3 實驗與結果分析

3.1 實驗語料準備

本文選用2 個英文公開的數據集和一個中文智能客服數據集進行實驗。 3 個數據集分別是微軟提供的MSRP 數據集[17]、2012-2017 年SemEval 跨語言語義文本相似性(cross-lingual Semantic text Similarity,STS)任務的數據集[18]和螞蟻金服提供的智能客服數據集。 3 個數據集的統計信息見表3。

表3 3 個數據集的統計信息Tab.3 Statistics of three data sets

對于英文數據集,卷積神經網絡之前的詞嵌入層,選用斯坦福大學利用Glove 語言模型,在2014年維基百科和Gigaword 語料預訓練得到400 000個英文詞匯的100 維詞向量[19]。 對于中文的數據集,詞嵌入層選用Li S 等人基于上下文特征(單詞、ngram、字符等),在中文維基百科語料預訓練得到2 129 000個中文詞匯的300 維詞向量[20]。

3.2 評價指標

文本語義相似度計算方法的評價指標通常包括準確率、召回率、精確度、F1 值和評價模型穩定的ROC(Receiver Operating Characteristic)曲線,以及曲線面積值AUC(Area Under ROC Curve)。 模型的ROC 曲線越靠近左上角,模型的面積AUC 越大,表示模型的穩定性越高。

3.3 實驗結果

為了驗證本文方法的有效性,將文獻[6]的Text-CNN 方法、文獻[7]的Mp-CNN 方法、融合了反卷積的Text-cnn 的De-CNN 方法和本文提出的融合擴張卷積Text-cnn 的Dilated-CNN 方法,上述4 種方法結合依存句法長短句提取規則Dependency的方法,進行實驗對比。 表4 為幾種方法針對準確率、召回率、精確度和F1 值等評價指標的實驗對比。

表4 主要評價指標對比Tab.4 Comparison of main evaluation indexes %

3.3.1 準確度和F1 值的對比分析

由表4 可見,Dilated-CNN 方法在MSRP 數據集上的準確率和精確度分別比其它Text-CNN 方法高2.60%和1.32%,而召回率低2.57%。 在STS 數據集上兩方法的準確率和召回率相差無幾。 在中文智能客服數據集上準確率降低了1.57%,但召回率提升了11.15%,最終的F1 值提高了2.51%。 表明Text-CNN 引入擴張卷積結構后,可以學習到更遠距離的詞語語義,在長句較多的MSRP 數據集,準確率會得到提高。 而在STS 短句較多的數據集變化不大。

Dilated-CNN 結合依存句法長短句提取規則Dependency 后,相比Dilated-CNN 方法在MSRP 數據集上的準確率提高了3.61%,F1 值提高了3.04%。而其它方法在結合依存句法提取規則后,準確率和F1 值都有一定的提升。 在STS 數據集的表現上準確率有所降低,但召回率卻有所提高,最終的F1 值提升不明顯。 在智能客服數據集上,結合了依存句法長短句提取規則的Dilated-CNN 的表現最優,相比Dilated-CNN 準確率和F1 值分別提高了5.15%和2.81%。 表明在擴展卷積的基礎上再引入依存分析,長短句得到語義補充后準確率和F1 值在Text-CNN 的方法上再次得到提高,并且應用到智能客服中文數據集也有明顯的提升。

3.3.2 模型穩定性ROC 曲線的對比分析

上述方法在ROC 曲線表現方面的實驗對比結果如圖6、圖7、圖8 所示。

圖6 MSRP 數據集ROC 曲線對比Fig.6 ROC curve comparison of MSRP data set

圖7 STS 數據集ROC 曲線對比Fig.7 ROC curve comparison of STS data set

圖8 智能客服數據集ROC 曲線對比Fig.8 ROC curve comparison of intelligent customer service data set

從圖6(a) 可以看出,在MSRP 數據集下Dilated-CNN方法的ROC 曲線最靠近左上角,而且面積值最高為0.710,De-CNN 方法的面積值為0.664,較低于Text-CNN 方法的0.676。 圖6(b)表明在依存規則下,以上幾種方法的ROC 曲線表現均有提升,而且結合依存句法后的Dilated-CNN 和De-CNN的ROC 面積值為0.766 和0.715,高于Text-CNN 和Mp-CNN方法。

由圖7(a)可知,在STS 數據集下,Dilated-CNN和Text-CNN 方法相差不大。 圖7(b)在依存規則下各方法的ROC 曲線面積值提升不明顯,而各方法的曲線較原來相比均更靠近上方,表明召回率都得到了提高。

由圖8(a)可知,在智能客服數據集下Dilated-CNN 方法的曲線最靠近左上方,且面積值最高為0.757。圖8(b)在依存規則下Dilated-CNN 和De-CNN 的ROC 曲線面積值,相比未用依存規則之前分別提高了0.08 和0.29。 表明模型的穩定性在引入依存分析后得到一定提升。

4 結束語

本文提出了一種基于依存句法的句子相似度計算方法,在中英文3 個公共數據集上驗證了該方法的有效性。 在準確度和F1 值的表現上本文提出的模型方法較其它方法有所提升;而且在模型穩定性上也有較好表現。 未來,將進一步研究中文的弱語法性和口語表達多樣性等影響句子相似度計算的問題。

猜你喜歡
句法語義方法
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
語言與語義
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
主站蜘蛛池模板: 福利在线一区| 欧洲熟妇精品视频| 日韩美毛片| 伊人久久福利中文字幕| 性色在线视频精品| 成人韩免费网站| 日韩无码真实干出血视频| 狼友视频一区二区三区| 熟妇丰满人妻av无码区| 亚洲无码一区在线观看| 国产成人精品视频一区二区电影 | 又污又黄又无遮挡网站| 欧美一级高清片久久99| 国产精品一区在线麻豆| 国语少妇高潮| 99在线视频免费观看| 奇米精品一区二区三区在线观看| AV网站中文| 欧美中出一区二区| 亚州AV秘 一区二区三区| 亚洲日韩AV无码精品| 激情無極限的亚洲一区免费| 丝袜国产一区| 99视频在线看| 99久久国产精品无码| 国产福利在线免费| 欧美A级V片在线观看| 成人福利在线视频免费观看| 亚洲人成网站18禁动漫无码 | 一区二区自拍| 视频一本大道香蕉久在线播放| 丁香婷婷久久| 91毛片网| 日韩高清成人| 波多野结衣国产精品| 黄色一及毛片| 国产成人三级在线观看视频| 91精品网站| 久久这里只有精品66| 人妻一区二区三区无码精品一区 | 日韩第八页| 色综合色国产热无码一| 久久公开视频| 亚洲第一国产综合| 波多野结衣二区| 91亚洲免费视频| 狠狠色丁香婷婷| 一级毛片视频免费| 亚洲va欧美va国产综合下载| 伊人精品视频免费在线| 激情六月丁香婷婷| 日本欧美视频在线观看| 欧美日韩亚洲综合在线观看| 97se亚洲综合在线| 青青草国产精品久久久久| 久久国产拍爱| 亚洲视频四区| a级毛片在线免费观看| 亚洲av无码人妻| 毛片网站观看| 国产天天射| 中文字幕在线欧美| 亚洲电影天堂在线国语对白| 国产一区二区精品福利| 国产成人高清精品免费软件| 国产情侣一区二区三区| 国产精品网址你懂的| av大片在线无码免费| 国产免费网址| 日韩精品欧美国产在线| 一级一级特黄女人精品毛片| 狠狠干欧美| 午夜色综合| 久久超级碰| av天堂最新版在线| 久久国产精品嫖妓| 国产综合另类小说色区色噜噜 | 国产成人精品男人的天堂| 色香蕉网站| 尤物午夜福利视频| 狠狠色婷婷丁香综合久久韩国| 国产成人精品免费视频大全五级 |