999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于循環神經網絡的語義完整性分析①

2019-09-24 06:21:44劉京麥野郭炳元孫道秋
計算機系統應用 2019年9期
關鍵詞:語義實驗模型

劉京麥野,劉 新,郭炳元,孫道秋

(湘潭大學 信息工程學院,湘潭 411105)

近年來隨著科技信息的發展,自然語言處理逐漸成為計算機科學和人工智能交叉領域中的一個研究熱點[1].其中語義完整性分析的主要工作就是判斷一句話是否語義完整,它是長文本句法分析、語義分析、機器翻譯等自然語言處理任務的前期工作.在主觀題的自動評分中,特別是長文本答案的主觀題評分,就需要將學生答案和標準答案進行分句處理,即分割成多個語義完整的句子,再進行句法、語義的相似度匹配.對中文進行語義完整性分析的原因在于漢語中標點的使用沒有嚴格的語法限制,尤其逗號的使用較為隨意,逗號既可用于語義完整片段的分隔,也可在語義不完整時起停頓作用.因此,利用最新的自然語言處理技術對中文句子進行語義完整性分析具有重要意義.

目前對于語義完整性還沒有公認的統一定義.根據實際工作的需要,我們認為一條語句如果能夠完整的表達出意思,不再需要借助其他的語句,且不產生歧義,就稱它是語義完整的.語義完整性分析,判別語義完整性,有助于提高問答系統,機器翻譯以及主觀題自動評分等應用系統的準確性.

1 相關工作

近年來深度神經網絡發展迅速,被廣泛應用于語音識別、計算機視覺和自然語言處理等鄰域中.目前,將深度學習技術應用于解決自然語言處理(NLP)任務是一個研究熱點.其中循環神經網絡(Recurrent Neural Network,RNN)的特點是可以將某個時刻隱藏層的輸出作為輸入用于計算下一時刻隱藏層的輸出,所以適合來解決一些時間序列的問題.而且不同于以往模型使用的固定序列長度,它能夠處理任意長度的序列.

文獻[2]通過使用循環神經網絡來訓練語言模型,提出了詞向量Word2Vec,隨后對詞的分布式特征的研究不斷興起.文獻[3]使用循環神經網絡來生成文本,提出了一種新的RNN 結構MRNN,提高文本生成能力.文獻[4]和文獻[5]分別將循環神經網絡和深度學習用在情感分析領域,并取得了不錯的效果.文獻[6]在序列標注的前提下利用雙向循環神經網絡模型進行中文分詞,通過增加詞的上下文信息能夠有效地解決梯度爆炸問題,并取得了相對較好的分詞效果.文獻[7]中提出了一種通過抽取句法、詞匯、長度等特征分析逗號是否是子句邊界的方法,然而,在本文語義完整性分析研究中,若使用傳統方法判斷句子是否是語義完整,一方面需要對句子進行句法、語法分析,另一方面需要從分析結果中抽取合適的特征并且分析特征與結果的因果關系,當問題較復雜時,這種方式基本不可行.文獻[8]提出了一種基于循環神經網絡的古文自動斷句方法,該方法采用基于GRU 的雙向循環神經網絡對古文進行斷句.在大規模古籍語料上的實驗結果表明,該方法能夠取得比傳統方法更高的斷句F1 值,但是該方法是針對于單個字進行標注用于斷句,并不適合本文以詞語為單位進行標注的語義完整句切分.

本文試圖將循環神經網絡應用于中文句子語義完整性分析,將句子語義完整性分析轉換為典型的序列標注問題來處理.

2 語義完整性分析方法

本文提出的模型采用基于雙層的Bi-LSTM 循環神經網絡,結構如圖1所示.首先,模型的輸入為原始文本經過預處理后的詞序列,將其映射為相應的詞向量并標注,經過循環滑動窗口和欠采樣處理后作為Bi-LSTM 的輸入.然后通過雙層Bi-LSTM 更加準確地學習特征,最終通過分類器輸出相應標簽概率.

圖1 基于循環神經網絡的語義完整性分析方法架構

2.1 分詞與詞向量

漢語詞匯是語言中能夠獨立運用的最小語言單元,是語言中的原子結構,所以對中文進行分詞是自然語言處理的基礎.分詞的準確率將會直接影響后續詞性標注,句法分析,詞向量等相關工作的質量.本文采用結巴分詞的精確模式進行分詞處理.

為了讓計算機理解人類的自然語言,把詞表示為計算機適合處理的方式,這樣詞向量的概念就應運而生了.通常,詞向量有兩種表示方式:one-hot representation和distribution representation.

One-hot representation 是一種離散表示,它把每個詞表示為一個長向量,向量中只有一個維度的值為1,其余維度為0,這個維度就代表了當前的詞.例如:“物質”表示為[0,0,0,1,0,0,0,0,0,···,0,0,0],這種表示方式簡單容易實現,但缺點就是編碼太過于稀疏,將會導致維度非常高,同時每個詞本身的信息量太小,無法展示詞與詞之間的關系.

Distribution representation 是將詞轉化成一種分布式表示,是一種既能表示詞本身又可以考慮語義距離的詞向量表示方法.它是一種低維實數向量,例如:“物質”表示為[0.792,-0.177,-0.107,···,0.109,-0.542].這種分布式表示的優點在于它不但解決了維數災難問題,并且挖掘了詞與詞之間的關聯屬性,每一維度都有特定的含義,包含了更多的信息,從而提高了向量語義上的準確度.因此,近幾年流行的語言模型Word2Vec 就是采用這種方法表示詞向量的.

2.2 LSTM 神經網絡

近幾年循環神經網絡(Recurrent Neural Network,RNN)廣泛應用于自然語言處理,它引入了基于時間(狀態)的循環機制,RNN 神經單元在某一時刻的輸出依賴于當前的輸入和以往時刻的信息,同時這一時刻隱藏層的輸出也可以作為下一個神經單元的輸入,這樣就能夠保持數據的依賴關系,有效利用信息.

經過大量實驗證明,當相關信息和當前預測位置之間的間隔變得非常大時,普通循環神經網絡就很難學習長期依賴,原因在于梯度消失和梯度爆炸問題,所以長短時間記憶(Long Short-Term Memory,LSTM)網絡這種特定類型的循環神經網絡就是專門設計出來解決這個問題的.LSTM 在以往的循環神經元結構基礎上進行了改進,它有四個不同的神經網絡層進行信息的交互.LSTM 單個神經元的網絡結構如圖2所示.

圖2 LSTM 神經元細胞

LSTM 通過“門”的結構來控制細胞狀態,門可以實現讓信息選擇性的通過,它主要是包括一個非線性激活函數Sigmoid和一個點乘運算Pointwise 操作來實現.這樣的門有三個,分別是輸入門、遺忘門和輸出門,LSTM 通過這三個門來實現信息的存儲和更新.其中Sigmoid 函數輸出的是一個0 到1 之間的實數,表示讓對應信息通過的權重,0 表示“不讓任何信息通過”,1 表示“讓所有信息通過”.它通過公式(1)~(6)進行計算,其中xt表示t時刻的輸入,ft表示遺忘門的輸出、it表示輸入門的輸出、ot表示輸出門的輸出、St為t時刻的狀態、ht為t時刻的輸出.

Bi-LSTM 與LSTM 本質上是一致,只不過Bi-LSTM 是在標準LSTM 上加了一個反向的LSTM,這樣某一時刻的輸出就能由它前面和后面的若干輸入共同決定,充分利用句子的上下文信息,相比標準LSTM信息更加全面.

2.3 改進的雙層Bi-LSTM 網絡

本文采用改進的雙層Bi-LSTM 來進行訓練[9],其中每個層包含多個存儲器單元,能夠更加準確地學習特征.第一層Bi-LSTM 給后一層的Bi-LSTM 提供序列輸出,而不是單個值輸出.

(1) 輸入層

首先對經過清洗后的數據集進行分詞,然后采用四元標注集T={S,B,M,E}進行標注.定義B 表示為一個語義完整句的開頭詞,M 表示為一個語義完整句的中間詞,E 表示為一個語義完整句的結尾詞,S 表示為特定符號(,:、等)前面和后面最靠近的一個詞.例如:“物質世界的運動是絕對的,而物質在運動過程中又有某種相對的靜止”.這個語義完整句對應的詞序列和正確的標簽為“物質/B 世界/M 的/M 運動/M 是/M 絕對/M 的/S 而/S 物質/M 在/M 運動/M 過程/M 中/M 又/M有/M 某種/M 相對/M 的/M 靜止/E”.

經過上述規則標注的標簽數量會出現嚴重的類別不平衡問題[10],M 標簽數量遠大于其他標簽,我們采用改進的隨機欠采樣方法對M 標簽進行處理.對于一個語義完整句子來說,E和B 標簽的數目為1,S 標簽數目與句中標點符號有關,一般是2 個或者4 個,而M 標簽的數目可以達到10 個左右.其中連續的M 標簽是出現次數最多的,并且其特征對我們語義完整性分析來說,不是特別重要.所以將左邊和右邊標簽都為M 的詞依據一定比率進行丟棄,丟棄原則根據為M 標簽數目略多于其他標簽的數目即可,具體丟棄比率設置可見3.3 節中第四個對比實驗.處理前后的標簽統計數量如圖3所示.雖然處理后的M 依然大概占有近半的數目,但通過后文對比實驗表明,本文所提出的改進的隨機欠采樣方法對類別不平衡問題有很大的改善.

圖3 各個標簽采樣前后數目統計

隨機欠采樣后的詞序列因為上下文特征改變,可能會出現欠擬合的現象,為了既對詞序列進行采樣,又不丟失一個詞應有的上下文信息,本文提出滑動窗口的方法,在隨機欠采樣前對序列數據進行處理.對于一個有n個詞的詞序列T(1:n),用大小為k的滑動窗口從首滑動至尾,每次窗口內的子序列作為Bi-LSTM 的輸入.假設k值為5,序列T中下標為i(下標從0 開始)的詞生成的子序列表示為(Ti-2,Ti-1,Ti,Ti+1,Ti+2),其中Ti=T[(n+i)%n].

(2) 雙層Bi-LSTM

為了方便說明,這里假設滑動窗口的大小為5 的雙層Bi-LSTM 其內部結構如圖4所示.

圖4 雙層Bi-LSTM 結構圖

在輸入層我們已經把輸入的詞序列轉換為維度為64 的詞向量,圖4中小矩形的數目即序列的長度.在第一個Bi-LSTM 中,這里輸入為維度64 的詞向量,輸出為維度128 的詞向量,由于其不是最后一層Bi-LSTM,這里會輸出5 個128 維的詞向量V1’…V5’.第二個Bi-LSTM 輸入為V1’…V5’都為128 維詞向量,經轉換后得到V1”…V5”為256 維詞向量,當前已經是最后一層Bi-LSTM,所以這里規定V5”為窗口中間詞即詞向量V3對應的輸出.

(3) 輸出層

深層神經網絡中,過擬合會使模型泛化性能變差,為了防止過擬合,模型中增加了Dropout 層[11].Drop out 層將在訓練過程中每次更新參數時按一定概率隨機斷開輸入神經元,這就防止了神經元之間過度的協同適應.

Dropout 層的輸出向量維度與Bi-LSTM 的輸出維度相同,為了將向量維度轉換為與標簽類別數一致,所以增加了一個全連接層,并采用elu 激活函數,將Dropout 層的輸出轉換為指定維度的向量.最后對提取的特征采用Softmax 激活函數得到輸出的概率.Softmax 的函數定義如下:

其中,Vi是全連接層的輸出,i表示類別索引,總的類別個數為C,Si表示的是當前元素的指數與所有元素指數和的比值.一個含任意實數的K維向量,通過Softmax 層后,都會“壓縮”到另一個K維實向量中,壓縮后的向量每個元素都在[0,1]范圍中,并且所有元素的和為1.

2.4 訓練與預測

本文實際解決的是一個多分類問題,采用的損失函數為交叉熵損失函數[12],即模型的訓練目標是使如下損失函數最小:

其中,y表示真實標簽的分布,a則為訓練后模型的預測標簽分布,交叉熵損失函數可以衡量y與a的相似性.此外,交叉熵作為損失函數還有一個好處是能避免均方誤差損失函數學習速率降低的問題,因為學習速率可以被輸出的誤差所控制.模型的訓練過程采用GPU 并行加速,為了使模型達到更好的效果,本文選取大量神經網絡優化算法進行實驗.

模型的預測過程即對于任意的輸入序列,深度神經網絡輸出的是每個時刻標注的條件概率(參見Softmax 輸出格式).預測過程中,模型需要根據該輸出值,進一步輸出對應的標簽.本文為了檢驗模型的準確性,直接選取概率最大的標簽作為預測結果.

3 實驗

3.1 實驗環境

實驗環境如表1所示.

表1 實驗環境配置

本文采用的數據集是賓州中文樹庫(CTB)8.0 語料庫,總字數大概130 萬字,采用自動標注和人工標注相結合的方法,先將數據集中的幾種標點(.?!;)視為語義完整的標志,然后通過人工檢查進一步提高標注的準確性.最后隨機的將數據集切分為90%的訓練集和10%的測試集.

詞向量數據來源為百度百科+維基百科+新聞+小說一共120 g 數據,詞向量維度為64 維.本文在獲取詞向量過程中,對于未登錄詞統一用特殊向量代替.

3.2 評估標準

本文屬于多分類問題,我們采用準確率(A)、宏查準率(macro-P)、宏查全率(macro-R)以及宏F1(macro-F1)作為評價模型效果的指標.A為模型整體的準確率.其他指標計算方式如下,其中n為類別數,Pi、Ri分別表示第i個類別的P值和R值.

3.3 模型參數設定

本文提出的模型影響實驗結果的主要參數有神經元數目,激活函數類型以及模型優化器的選擇,為了找到每個參數的較優解,本文采用控制變量法,分別作如下實驗.

(1) 神經元數目

這里說的神經元數目,準確來說是循環神經網絡的前饋網絡層中隱藏神經元的個數,一般情況下,隱藏神經元的數目越多,模型就越復雜,訓練時間越長.下面分別將隱藏神經元大小設定為64、128、256、512,實驗結果如圖5所示.從實驗結果可以看到,在神經元數目較小時,隨著神經元數目的遞增模型各指標遞增的比較明顯.當神經元數目達到一定的值后,各指標增速放緩,最后甚至有下降的趨勢.為了兼顧模型效果和訓練速度,本文選取的神經元數目為256.

(2) 激活函數的選擇

激活函數的作用是給模型添加非線性因素,增加模型對數據的適應性,使得分類更加準確.神經網絡常用的激活函數有sigmoid、tanh、elu、relu 等,本文選取這四種激活函數分別進行實驗,實驗結果如表2所示.從圖中可以看到,不同激活函數對結果影響還是很大的,根據實驗結果,本文選擇elu 作為激活函數.

圖5 神經元數目對比實驗結果

表2 激活函數實驗對比結果

(3) 模型優化器設定

模型優化器就是設置深度學習的優化算法,主要目的是優化參數的更新策略.不恰當的優化算法會導致模型收斂到局部最優解.本文選擇較常用的adam 優化算法[13]及adadelta 算法[14]作對比.實驗結果如表3所示.其中adam+decay 表示采用adam 優化算法,但是每次迭代完成后用decay 值減小學習率.AMSGrad 為adam 的變體[15].優化算法的參數選用默認值或者論文中的推薦值.從表中可以看出,adam 的變種(AMSGrad)比原生的adam 的效果要好得多.而adadelta 算法比AMSGrad 算法要略好一點,因此本文選取的模型優化算法為adadelta 算法.

表3 模型優化器對比實驗結果

(4) 輸入欠采樣方案比較

對于分類不平衡問題,本文采取改進的隨機欠采樣方法對輸入數據進行處理.實驗結果如表4所示,實驗1 為普通隨機欠采樣方式,M 標簽占比為50%.實驗2、3、4 為本文提出的改進隨機欠采樣方式,采樣后M 標簽占比分別為50%,45%,40%.從實驗可以看出,本文提出的改進隨機欠采樣方法比普通隨機欠采樣方法效果要好很多,并且當M 標簽占比為45%時,實驗效果最好,這可能是因為當M 標簽占比為45%時,各標簽分配比例剛好符合模型訓練要求.

表4 優化算法對比實驗結果

3.4 模型對比實驗

經過上述參數對比試驗,本文主要參數設定如下:Bi-LSTM 神經元數目為256,Dropout 層設定比率為0.5,詞序列的滑動窗口大小為9,訓練神經網絡的批次(batch)大小設定為64,訓練循環次數(epoch)設定為20,每次循環結束將訓練數據集進行shuffle 處理.采用AdaDelta 優化算法,全連接層激活函數為elu.為了說明本模型的有效性,使用相同的數據集,分別采用RNN、LSTM、雙層LSTM、雙層Bi-LSTM 進行對比實驗,實驗結果如表5所示.

表5 模型對比實驗結果

從結果可以看出,本文提出的雙層Bi-LSTM 模型的準確率可以達到91.61%,優于其他模型.一方面,本文采用的循環窗口和隨機欠采樣方法可以在欠采樣過程中很好的保留上下文特征.另一方面,Bi-LSTM 能夠更好的學習上下文特征,且雙層Bi-LSTM 模型獲取特征更準確,因此可以達到較好的效果.

4 結束語

本文采用基于雙層Bi-LSTM 的循環神經網絡模型,對長文本實現自動標注,從而實現語義完整性分析.從實驗結果和項目使用來看,本方法可以較好的解決標注語義完整性的問題.后續將模型用到生產環境的過程中,可以結合標簽之間的依賴關系,對模型輸出結果,按照一定的詞性規則進一步提升預測結果.

猜你喜歡
語義實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 免费a级毛片18以上观看精品| 色综合成人| 国产精品主播| 99久久免费精品特色大片| 国产精品午夜福利麻豆| 在线观看国产网址你懂的| 中文无码伦av中文字幕| 亚洲中文无码av永久伊人| 亚洲AⅤ波多系列中文字幕| 少妇人妻无码首页| 狠狠综合久久久久综| 色一情一乱一伦一区二区三区小说 | 99久久精品免费视频| 99精品免费欧美成人小视频| 在线日本国产成人免费的| 视频一区视频二区中文精品| 狠狠做深爱婷婷久久一区| 伊人久久精品无码麻豆精品 | 国产成人高清精品免费5388| 日韩AV无码免费一二三区| 亚洲日本中文字幕天堂网| 欧美日韩激情在线| 亚洲无码高清一区| 国产成人高清精品免费软件| 综合色区亚洲熟妇在线| 毛片在线看网站| 在线观看国产精美视频| 国产精品爽爽va在线无码观看| 成人国产一区二区三区| a网站在线观看| 在线观看亚洲精品福利片| 久久久久人妻精品一区三寸蜜桃| 欧美午夜在线播放| 中文字幕欧美日韩| 亚洲视频免费播放| 国产精品2| 亚洲最大福利视频网| 国产毛片高清一级国语 | 天堂成人在线视频| 伊人久久婷婷五月综合97色| 日韩无码黄色网站| 97国产成人无码精品久久久| 91视频99| 亚洲天堂日本| av在线5g无码天天| 久久久黄色片| 欧美亚洲欧美区| 国产精品高清国产三级囯产AV | 四虎国产在线观看| 成人国产精品网站在线看| 亚洲经典在线中文字幕| 97久久精品人人| 久综合日韩| 亚洲,国产,日韩,综合一区| 国产欧美中文字幕| 无码精品福利一区二区三区| 亚洲国内精品自在自线官| 国产熟女一级毛片| 丁香亚洲综合五月天婷婷| 综合色天天| 亚洲天堂视频在线观看免费| 在线精品自拍| 欧美激情视频一区二区三区免费| 国产精品任我爽爆在线播放6080 | 欧美一区中文字幕| 国产成人精品亚洲日本对白优播| 91免费国产高清观看| 在线观看亚洲天堂| 中文成人在线视频| 成人精品午夜福利在线播放| 欧美日韩免费| 久久国产精品夜色| 精品国产黑色丝袜高跟鞋| 午夜视频免费试看| 欧美v在线| 欧美A级V片在线观看| 国产伦片中文免费观看| 狠狠色婷婷丁香综合久久韩国| 欧美A级V片在线观看| 国产综合色在线视频播放线视| 国产美女免费网站| 欧美一区二区人人喊爽|