999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于組塊分割的無監督藏文句法分析方法研究

2022-06-14 09:49:48卓瑪扎西才讓加色差甲班瑪寶
計算機仿真 2022年5期
關鍵詞:句法監督實驗

卓瑪扎西,才讓加,色差甲,班瑪寶

(1. 青海師范大學計算機學院,青海 西寧 810016;2. 藏語智能信息處理及應用國家重點實驗室,青海 西寧 810008;3. 青海省藏文信息處理工程技術研究中心,青海 西寧 810008)

1 引言

句法分析是自然語言處理領域中的一項基礎性研究工作,已成為機器翻譯[1]、語義分析[2]、問答系統[3]、信息抽取[4]等諸多自然語言處理任務中不可或缺的流程之一。一般句法分析方法可分為有監督、半監督和無監督三種方法,自賓州樹庫開放以來,有監督的英漢文等句法分析研究取得了快速的發展,相比傳統句法分析方法,性能取得了明顯的提高[5]。

藏文句法分析研究由于受數據資源匱乏問題的限制,使有監督藏文句法分析在理論、方法和技術等方面還未取得顯著進展,而無監督方法可以在一定程度上解決數據資源匱乏的問題,但單一的無監督方法在句法分析任務上的性能與有監督方法還存在一定的差距。針對以上問題,提出了一種基于組塊分割的無監督藏文句法分析方法,該方法首先分割藏文組塊的基礎上采用擾動掩碼算法(Perturbed Masking)[6],對藏文組塊進行了無監督藏文句法分析,然后根據藏文自身的語法特征對無監督藏文句法分析結果進行了優化,以完成高效的無監督藏文句法分析任務,通過不同領域的數據和不同長度的藏文句子數據集上進行測試,證明了本方法的有效性及可行性。

2 相關研究

自20世紀40年代末開始,句法分析作為自然語言處理領域的核心任務和關鍵技術,一直是研究人員關注的熱點問題[7]。英漢文句法分析經歷了從有監督到半監督,再到無監督方法的研究歷程,近幾年無監督句法分析方法廣受研究人員的關注。文獻[8]提出了解析、閱讀和預測三種任務混合的模型(Parsing-Reading-Predict Networks,簡稱PRPN),該模型首先推斷未標注數據中的句法結構,增強語言模型的語法信息,然后用此模型完成無監督句法分析。文獻[9]提出了一種有序神經元(Ordered Neurons)模型,不僅可以提高語言模型的效果,還可以讓LSTM無監督地學習句法結構。文獻[6]通過采用擾動掩碼算法,提出了一種無監督的探索BERT可解釋性的方法,其中無監督句法分析在WSJ10數據集和PTB23數據集上的F1值分別達到了58%和的42.1%,通過和文獻[8,9]進行對比,驗證了基于擾動掩碼算法的無監督句法分析方法的有效性。文獻[10]構建了3萬句漢文二分結構的樹庫,為了簡化傳統句法分析任務,把漢文句法分析轉換為迭代二分的序列標注問題,通過訓練循環神經網絡模型,完成表示完全二叉樹的句法層次結構。隨著無監督學習研究的升溫,以上國內外文獻采用不同方法進行了無監督句法分析,為藏文句法分析理論提供了參考。

目前,藏文句法分析的研究主要以有監督的方法為主,文獻[11,12]采用判別式的依存句法分析方法,研究了藏文依存句法分析和藏文復合句切分標注方法。文獻[13]通過Fillmore格語法與藏文傳統語法進行對比,提出了格結構體是藏文句子最直接組成成分的觀點。文獻[14]通過分析藏文疑問句的構成特點,對藏文疑問句進行了分類,歸納了各類藏文疑問句的結構特征,并利用PCFG對藏文疑問句進行了句法分析。文獻[15]通過對比藏文語義塊和組塊,提出了組塊可簡化句法結構和組塊分析可降低藏文句法分析難度的思路。以上文獻采用的都是有監督方法的藏文句法分析方法,并在局部實驗或限定領域內取得了較好的實驗結果,為進一步研究藏文句法分析提供了參考,但上述方法都屬于傳統的基于規則和統計以及二者相結合的方法,需要大量高質量的句法標注樹庫和繁瑣的人工特征工程,但到目前藏文沒有一個公開的句法樹庫,無法使用深度學習等先進的方法進行大規模藏文句法分析。

3 藏文組塊及其分割規范

3.1 藏文組塊的定義及分類

1)藏文組塊的定義

2)藏文組塊的分類

各類組塊的具體定義如下:

謂語組塊:指一個句子中的謂語成分,一般由動詞、形容詞和助動詞等詞或短語來充當。

3.2 藏文組塊分割規定

根據3.1節中藏文組塊定義及分類,可以對各類藏文組塊進行分割,分割方法如下:

無監督藏文句法分析是在沒有標注數據的前提下,利用無標注數據研究藏語自然語言語法結構的方法。隨著預訓練語言模型的發展,無監督句法分析效果日益增高,但還是無法滿足大規模高效藏文句法分析的需求。因此,可根據藏文傳統語法,通過規定藏文組塊邊界,為下一步無監督句法分析提供支撐。

4 基于組塊分割的無監督藏文句法分析

4.1 基于組塊分割的無監督藏文句法分析模型

通過組塊分割方法,對藏文無標注句子進行切分后,可以將藏文句法分析任務轉化為多個子任務,設計了基于藏文組塊分割的無監督藏文句法分析模型,模型結構見圖1。

從圖1中可以看出,基于組塊分割的無監督藏文句法分析模型由組塊分割模塊、無監督句法分析模塊和藏文句法優化模塊構成,各模塊的功能如下:

圖1 基于組塊分割的無監督藏文句法分析模型結構

1)組塊分割模塊

2)無監督句法分析模塊

無監督句法分析模塊對無標注的藏文句子進行句法分析,包含兩個子功能:一是分析藏文句子的組塊和組塊之間的句法層次結構,是一個粒度較粗的句法分析,用遞歸二分方法,將組塊序列按照從左到右的順序依次進行切分,得出藏文句子的各類組塊層次結構,如圖2所示。

圖2 藏文組塊句法結構

從圖2中可以看出,每一次迭代把藏文句子S分成了一個組塊和剩余序列(s1或s2等),當完成謂語組塊的切分后迭代結束。二是分析藏文組塊序列中的每一個組塊,采用文獻[6]的方法,通過擾動掩碼算法求出基于藏文預訓練語言模型(UniLM)的組塊內部詞語義相關度矩陣,采用二分聚類算法分析藏文組塊內部句法結構。其二分聚類算法是把藏文組塊C=[x1,x2,…,xn]分為C1=[x1,x2,…,xk]和C2=[xk+1,xk+2,…,xn]兩個部分,即用二分聚類算法求最合適的切分點K,希望將相關性較大的詞歸為一類,輸出最優句法結構,將目標函數K定義為

(1)

式(1)中的f(xi,xj)為藏文詞xi和xj的詞義相關度,當i=j時,f(xi,xj)=0。

3)藏文句法優化模塊

藏文句法優化模塊優化無監督藏文句法分析模塊輸出的結果。經藏文無監督句法分析模塊結果進行分析后發現,用二分聚類算法求藏文句子的切分點K時,出現兩類的虛詞聚類錯誤,分別如下:

根據現代藏文自身的語法特點,藏文句子中虛詞具有接續和關聯等語法功能,沒有實際語義,不能單獨使用,應與其上文(C1)先結合[19],進而設計了解決問題 (a)(b)的句法優化算法1。

算法1 藏文句法優化算法

輸入 Input_file, Ge_list, k ∥ Input_file=[C1,C2],Ge_list是藏文虛詞列表,k是式(1)結果

輸出 TS_tree ∥藏文虛詞錯位處理后的句法結構

1)X=read( Input_file, X) ∥讀組塊列表

2)ge_list=read( Ge_list, ge_list) ∥讀虛詞集

3)for ge_word in ge_list do ∥ge_word是藏文虛詞

4) if ge_word in X and C2[0] and not in C2[1] then ∥查看虛詞位置

5) Knew=k+1 ∥重新設置切分點

6) TS_tree ←[[x1,x2,…,xKnew], [xKnew+1,…,xn]] ∥輸出新的句法結構

7) else

8)TS_tree←[[x1,x2,…,xk-1,xk],[xk+1,…,xn]] ∥輸出原句法結構

9) end if

10)end for

11)Return TS_tree ∥輸出最后句法結構

4.2 基于組塊分割的無監督藏文句法分析

基于組塊分割的無監督藏文句法分析的流程如圖3所示。

第一步:輸入句子

第二步:分詞

第三步:分割組塊

第四步:句子組塊和組塊內部句法分析

第五步:優化句法

第六步:輸出句法樹

輸出句法廣義表的樹形結構,如圖4所示。

5 實驗

5.1 實驗數據描述

首先,以前期建立的規模為4.7G的藏文純文本數據訓練了UniLM語言模型,然后,構建了含新聞、法律、小說和文學等題材的規模為1200條藏文句法分析的測試集,測試集中每條句子的長度為4-15個詞,將用分詞系統對測試集進行了分詞,為了保證分詞質量,對分詞結果進行了人工校對,測試集中的句子和組塊數量分布如圖5所示。

圖4 藏文句子二分樹形結構

圖5 測試集中的句子和組塊數量

5.2 實驗及結果分析

為了驗證本方法的有效性,設計了三組實驗,分別考查了藏文句法分析效果、不同句長對本方法性能的影響以及本方法在不同題材數據集上的通用性,為了能夠有效對比實驗結果,三組實驗所用的預訓練語言模型和測試數據都一樣。

實驗一:因目前尚未查閱到有關無監督方法的藏文句法分析研究報道,無法直接與前人的藏文句法分析研究工作和結果進行比較,故為了驗證本方法的有效性,實驗時采用文獻[6]中的無監督句法分析方法,在本文測試集上進行了句法分析,以此作為基線。為了驗證本方法的有效性和優越性,在詞長度為4-15的1200句測試集上進行了對比實驗,對比實驗結果見表1。

表1 藏文句法分析對比實驗結果

從表1中的實驗結果可以看出,采用無監督進行藏文句法分析時,在測試集上基線模型的正確率達到了31.47%,經分析,基線模型效果較差的原因有二,一是測試集中30%的藏文句子詞數大于10,隨著詞數增多,出現了各詞之間的語義相關度降低問題;二是隨著句子變長而虛詞增多,易出現虛詞聚類錯誤問題,因此直接采用文獻[6]中的無監督方法進行藏文句法分析時,藏文句法分析效果不好。

另外,從表1中還可以看出,無監督藏文句法分析方法和組塊分割方法結合時,藏文句法分析正確率達到了49.27%,表明加入組塊分割方法有助于提高無監督藏文句法分析的效果。當無監督藏文句法分析方法和句法優化方法結合時,藏文句法分析正確率達到了53.24%,表明藏文句法優化算法符合藏文自身的語法特點,有助于提高無監督藏文句法分析的效果。當組塊分割+無監督+句法優化時,藏文句法分析的正確率達到了82.76%,相比基線模型的正確率提高了51.29個百分點,驗證了本文方法的有效性。

實驗二 為了考查句子長度對本方法的影響,將測試集分成了四組不同句子長度的子測試集,然后在四組子測試集上進行實驗,其結果見表2。

從表2中可以看出,隨著句子長度的增加,句法分析性能呈下降的趨勢,這是因為本方法的基礎是無監督句法分析方法,而無監督方法隨著句子長度的增加越難獲取詞與詞之間的語義相關度。

表2 不同句長數據集上的句法分析結果

實驗三 為了驗證本方法的通用性,分別在新聞、法律和小說等題材的數據集上進行實驗,并計算了與實驗一的偏差,實驗結果見表3。

表3 不同題材數據集上的句法分析結果

從表3中可以看出,本方法在不同題材數據上的句法分析效果有所偏差,在法律數據集上的效果最佳,正確率到達到了86.79%。在小說數據集上的效果較低,正確率只有79.11%。原因在于常用的法律文本結構規范,內容嚴謹,所以其句法分析效果較好。常見的小說文本語言靈活多變,會用各種修辭手法,所以導致其句法分析效果較低。各類數據集上的句法分析正確率與實驗一的最高偏差為4.03%,證明本方法在不同題材數據集上的通用性。

6 結束語

在無藏文句法分析樹庫數據集的情況下,為了能夠進行句法分析,提出了一種基于組塊分割的無監督藏文句法分析方法,研究結果為:

1)對藏文組塊進行了定義和分類,規定了面向藏文無監督句法分析的藏文組塊分割邊界。

2)結合組塊分割、無監督藏文句法分析模型和藏文句法優化算法,提高了無監督句法分析效果,經實驗表明,句子長度為4-15個詞的單句數據集上正確率達到了82.76%,驗證了本文方法的有效性。

猜你喜歡
句法監督實驗
記一次有趣的實驗
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
做個怪怪長實驗
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: AV无码无在线观看免费| 老司机久久精品视频| 国产精品v欧美| 欧美日韩v| 国产成人毛片| 国产日韩久久久久无码精品| 日韩精品欧美国产在线| 毛片免费试看| 中文字幕免费视频| 国产1区2区在线观看| 91亚洲免费视频| 国产在线日本| 亚洲欧洲日韩综合| 精品视频第一页| 国产一区亚洲一区| 影音先锋亚洲无码| 国内精品伊人久久久久7777人| 国产成人精彩在线视频50| 国产亚洲精久久久久久无码AV| 欧美区日韩区| 狠狠做深爱婷婷综合一区| 亚洲欧美日韩成人在线| 伊人激情综合| 久久香蕉国产线看观看精品蕉| 国产女人18毛片水真多1| 国产成在线观看免费视频 | 高清无码手机在线观看| 久精品色妇丰满人妻| 在线欧美a| 99热6这里只有精品| 中文字幕一区二区人妻电影| 老司机aⅴ在线精品导航| 久视频免费精品6| 色悠久久久| 亚洲精品卡2卡3卡4卡5卡区| V一区无码内射国产| 国内精品视频在线| 国产精品刺激对白在线| 精品福利视频导航| 国产一二三区在线| 国产亚洲精品精品精品| 国产精品美女网站| 日韩精品毛片| 三上悠亚一区二区| 欧美精品啪啪| 九色视频一区| 欧美成人精品一区二区| 免费国产福利| 欧美一区福利| 精品综合久久久久久97超人该| 欧美乱妇高清无乱码免费| 国产激情无码一区二区APP| 国产手机在线观看| 午夜福利免费视频| 国产成人免费手机在线观看视频 | 99九九成人免费视频精品 | 国产自在线拍| 国产综合精品一区二区| 国产精品hd在线播放| 亚洲一欧洲中文字幕在线| 亚洲成人黄色在线| 亚欧成人无码AV在线播放| 午夜福利网址| 亚洲综合香蕉| 亚洲综合中文字幕国产精品欧美| 久久性视频| 亚洲精品福利视频| 无码粉嫩虎白一线天在线观看| 99精品影院| 九九热精品免费视频| 国产女人在线| 亚洲成A人V欧美综合天堂| 强奷白丝美女在线观看| 人妻无码一区二区视频| 亚洲欧美国产高清va在线播放| 婷五月综合| 国产激情无码一区二区免费| 三区在线视频| 国产精品漂亮美女在线观看| 免费福利视频网站| 青青青国产视频手机| 亚洲欧美天堂网|