999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合雙向語言模型的半監督屬性識別方法研究*

2020-12-07 05:26:08候星馳支淑婷
計算機與數字工程 2020年10期
關鍵詞:語義語言模型

候星馳 馬 力 支淑婷

(西安郵電大學計算機學院 西安 710121)

1 引言

隨著信息化時代的發展,互聯網已經成為人們獲取信息的重要途徑。越來越多的人愿意在網絡中發表自己的觀點和意見,互聯網用戶不再僅僅是信息的“消費者”,而逐漸成為信息的“生產者”。社交媒體(如微博、微信等)逐漸成為消息傳播的主流媒介。海量的互聯網信息是人們主觀情感傾向的表達,內容涉及方方面面,如政治、經濟、文化、娛樂等領域[1]。決策者充分利用這些主觀性信息可以監控網絡輿情,為決策提供參考。然而,面對以指數級增長的主觀性文本,僅靠人工進行分析是不可行的。我們利用計算機來幫助自動進行主觀性文本分析,由此產生了情感分析技術[2]。

情感分析,即觀點挖掘,是指利用數據挖掘和自然語言處理技術,對帶有情感傾向信息的主觀性文本進行處理、分析和信息抽取的過程[3]。情感分析根據粒度的不同可以分為屬性級情感分析,句子級情感分析和篇章級情感分析。其中,屬性級情感分析是細粒度的情感分類任務,旨在關注特定屬性與文本極性間的關系。屬性是用戶對實體表達意見的目標詞,例如“my phone the screen is really nice and its resolution is excellent”表達了用戶對手機積極的情感傾向,更具體地說,積極的情感是對手機的屏幕和分辨率兩個目標而言的,即手機的屬性。就屬性而言,存在兩種類型的屬性:顯式屬性和隱式屬性。顯式屬性是指在評論文本中出現的明確表明用戶觀點的目標詞語。例如“The screen of my phone is really nice”評論中的屬性“screen”。隱式屬性是指在評論中雖然表達了用戶觀點但在文本中沒有提及的目標詞。例如“This camera is sleek and very affordable”評論中雖然沒有提及目標詞,但可以推斷出隱含了用戶對相機“appearance”和“price”屬性的情感傾向。本論文只考慮評論文本中的顯示屬性,對涉及語義層的隱式屬性暫不研究[4]。

屬性識別是屬性級情感分析的重要子任務,目前大多數研究將其作為序列化標記問題來處理,主要采用條件隨機場(CRF)[5]、語言模型[6]等統計機器學習算法。但是這些方法存在一定的局限性:CRF是一個線性模型,需要大量的人工特征才能夠達到很好的效果;語言模型在人工干預的基礎上,文本語法的準確性很大程度上會對模型的效果造成影響。近年來,神經網絡在自然語言處理領域表現出了很好的性能。相比于統計機器學習方法或基于規則的方法,基于神經網絡的深度學習方法具有泛化能力更強,更少依賴人工特征的優點。因此,許多的研究也通過構建神經網絡模型來解決屬性識別問題[7~9]。本文提出了一種融合雙向語言模型的半監督序列化標記模型(ST-BiLM),該模型一方面通過卷積神經網絡(CNN)捕獲單詞的字符集特征,豐富了模型的輸入特征信息;另一方面通過雙向語言模型學習了上下文語義和語法的通用特征,減輕了模型對標注數據量的需求。我們采用SemEval2014 Task4 的情感分析的競賽數據集[10]以及Dong 等收集標注的Twitter領域數據集[11]作為模型ST-BiLM的評測數據集。

2 相關工作

屬性識別問題首次被Hu 等[6]研究,同時他們介紹了顯式屬性和隱式屬性之間存在的差異。通過人工制定一組基于統計觀察的規則來解決屬性識別的問題。接著,Popescu 等[12]在Hu 等[6]方法的基礎上進行了改進。該算法假設產品的類別是預先給定的,在此基礎上,通過計算名詞或名詞短語與產品類別間的互信息來識別產品的屬性。Scaffi?di 等[13]提出一種基于語言模型的方法。該方法認為同一般詞匯相比,產品屬性詞更常見,在評論文本中出現的頻率更高。然而,由于屬性檢索的抗噪音能力差,導致該方法的準確度較低。同時,許多研究將屬性識別問題作為序列化標記問題來處理。Jin 等[14]和Jakob 等[15]在手工制定豐富規則的條件下,分別構建了隱馬爾可夫(HMM)和條件隨機場(CRF)模型來解決屬性識別問題。Jakob[5]等利用CRF 模型在多個不同領域的數據中都取得了很好的效果。

相比基于規則和基于統計機器學習的方法,基于神經網絡的方法在減少復雜人工特征的前提下,能夠學習到更高級的特征。因此,越來越多的研究者通過神經網絡方法來解決屬性識別問題。Liu等[7]應用循環神經網絡(RNN),通過輸入預訓練的詞向量來提取屬性詞。Yin 等[8]采用無監督的方法,通過遞歸神經網絡(RecNN)編碼依存路徑獲得更高級別的詞特征,作為CRF的輸入來完成屬性詞提取的任務。Wang 等[9]提出了遞歸神經網絡(RecNN)和CRF 聯合模型來進行屬性詞和觀點詞的聯合提取。

3 屬性識別模型(ST-BiLM)

3.1 模型整體框架

融合雙向語言模型的半監督序列化標記(ST-BiLM)模型框架如圖1 所示。模型ST-BiLM主要由三部分組成:字符級CNN 模塊、序列化標記模塊和雙向語言模型模塊。首先通過大量無標注語料庫訓練獲得語義詞向量和雙向語言模型,然后利用CNN 獲得具有形態特征的字符級向量,接著將語義詞向量與字符級詞向量拼接作為兩層雙向長短時記憶(BiLSTM)和雙向語言模型(BiLM)組合模塊的輸入,最終CRF模型將輸出解碼為一個最優屬性標記序列,完成屬性識別任務。

3.2 字符級CNN模塊

單詞的字符級特征被證明對解決序列化標記問題是有效的。Santos[16]等利用CNN 對字符進行處理得到CharWNN 后在詞性標注(POS)任務中達到了很好的效果。Chiu 等[17]通過CNN 抽取字符級特征在通用實體識別領域取得了很好的效果。CNN中的卷積層能夠有效地學習數據的局部特征,通過池化層能夠進一步提取有代表性的局部特征。因此,本文利用CNN 獲得的字符級向量與預訓練獲得的語義向量相結合來提高屬性識別模型的性能。

字符級CNN 的結構如圖2 所示。給定一個單詞w={c1,c2,…,cm} ,其中ci表示單詞的第i 個字符,emb(ci)表示字符ci的向量表征。通過前后填充單詞的字符序列來保證卷積操作之后單詞字符個數保持不變。為了捕獲單詞的局部形態特征,本文采用窗口大小為T 的卷積核來對字符序列進行m 次卷積操作,一次卷積計算的輸出oi如式(1)所示。

圖1 融合雙向語言模型的半監督序列化標記(ST-BiLM)模型

其中,Wc和bc分別是參數矩陣和偏置向量,f 是激活函數。如果卷積核窗口大小T=1,則,其中”[]”表示向量拼接操作。為了生成單詞x 最終的字符級向量表征rc,我們對卷積層的輸出序列{o1,o2,…,om}進行最大池化層操作。字符級向量rc的第k維計算如式(2)所示。

其中,rc,k表示字符級向量rc的第k維,oi,k表示第i個字符卷積向量的第k維。

3.3 序列化標記模塊

屬性識別作為序列化標記問題來處理。本文序列化標記模塊的網絡結構是:BiLSTM-CRF。傳統的RNN 模型在處理長序列文本時可能會發生梯度彌散或梯度爆炸的問題,標準的LSTM 通過特殊設計的門限結構使得模型能夠選擇性的保存特征信息,有效的學習長距離的信息依賴關系。為了能夠捕獲更加全面,深層次的上下文語義信息,我們構建多層BiLSTM模型來編碼文本序列。

本文通過對比BiLSTM不同層數的實驗結果后發現,層數太少,模型學習能力有限,不能充分挖掘復雜的語義特征;層數太多,模型復雜,待訓練參數增多,在訓練數據有限的情況下,模型容易發生過擬合。我們最終設定BiLSTM 的層數L=2。線性CRF 對多層BiLSTM 網絡的隱藏層輸出序列進行處理,獲得全局最優的標記序列。

圖2 字符級CNN的結構

3.4 雙向語言模型模塊

前向語言模型能夠通過學習上文語義環境預測下文信息,同理,為了捕獲下文語義特征,我們可以利用反向語言模型來實現。本文為了充分學習大規模語料庫中通用的上下文語義知識來彌補小規模標注數據集信息缺失的不足,我們首先將前后向語言模型末端的softmax 層移除,然后將前向語言模型隱藏層的輸出特征向量和后向語言模型的拼接生成最后將作為輸入添加到序列化標記模塊。經過對比實驗驗證,雙向語言模型生成的特征向量與第一層BiLSTM 的隱藏層輸出向量h1,i拼接后屬性識別的效果最好。拼接運算如式(7)所示。

4 實驗分析

將本文模型ST-BiLM 在三個不同領域的數據集上進行實驗,解決屬性識別問題。實驗中,詞向量采用Pennington 等[18]提出的預訓練Glove 詞向量,其中詞向量維度為300 維,詞典的大小為1.9M。對于未登錄詞,采用均勻分布U(-ε,ε)來隨機初始化詞向量,其中ε設置為0.05。該屬性識別模型運行在Tesla K80 服務器,CentOS Linux 7.3.1611系統,運行環境為tensorflow1.12,語言環境為Python3.5.2。

4.1 實驗數據

本文采用的數據是SemEval2014 Task4 的競賽數據集[10]和Dong 等[11]收集標注的Twitter標準數據集。其中SemEval2014 Task4 是國際語義評測比賽Task4的數據集,包含Restaurant和Laptop領域的用戶評論。本文實驗所需要的數據統計如表1所示。

表1 實驗數據統計

4.2 結果分析

實驗采用F1 值來對屬性識別結果進行評價,定義如式(7)所示。F1 值是精確率和召回率的調和均值,能夠體現整體測試效果。

屬性識別模型ST-BiLM 在三個不同領域上的實驗結果如表2 所示。通過對比實驗的結果來分析各個模塊在模型中所起到的作用。

表2 屬性識別對比實驗結果

1)CRF模塊

為了驗證CRF模塊的有效性,進行了模型BiL?STM-Softmax和模型BiLSTM-CRF的對比實驗。實驗結果如表2 所示,在Restaurant、Laptop 和Twitter三個不同領域數據集上,模型BiLSTM-CRF相比模型BiLSTM-Softmax 的F1 值分別提高了2.06%、2.86%和2.88%。Softmax函數將序列化標記問題轉換為分類問題,直接依賴隱藏層輸出的特征向量來實現標簽分類,而CRF能夠在考慮特征向量的基礎上,充分利用相鄰標簽之間的轉換關系,在全局優化輸出的屬性標簽序列中,對于序列較長的屬性詞有較好的識別性能,例如:“chocolate souffle with rasberry mint sorbet”等。CRF 的引入增強了模型識別長序列屬性詞的能力。

2)字符級CNN模塊

為了驗證字符級CNN 模塊的有效性,進行了模型CNN-BiLSTM-CRF 和模型BiLSTM-CRF 的對比實驗。實驗結果如表2 所示,在三個不同領域的數據集上,模型CNN-BiLSTM-CRF 相比模型BiL?STM-CRF 的F1 值分別提高了1.79%、2.25%和1.91%。大多數實驗采用預訓練的語義級詞向量作為神經網絡的輸入特征,但這樣往往忽略了單詞內部的形態特征信息。例如:以“-able”、“-ful”等后綴結尾的單詞是形容詞的概率很大,以“-ion”、“-acy”等后綴結尾的單詞是名詞的概率較大。通過CNN 模塊抽取的字符向量在一定程度上能夠學習到單詞的形態特征信息,通過結合語義級詞向量能夠為神經網絡模型提供更加豐富的特征信息,從而增強模型的屬性識別能力。

3)雙向語言模型模塊

為了驗證雙向語言模型模塊的有效性,進行了模型 CNN-BiLSTM-CRF 和模型 ST-BiLM(CNN-BiLSTM-CRF-BiLM)的對比實驗。實驗結果表明,在三個不同領域的數據集上,模型ST-BiLM 相比模型BiLSTM-CRF 的F1 值分別提高了1.30%、1.95%和0.64%。模型的學習能力一定程度上與模型的復雜度有關,模型越復雜,屬性識別的能力就會更強。但復雜模型中待訓練的參數個數與模型的復雜度成正相關,當模型偏復雜,標注的訓練數據集規模不足時,就會導致模型過擬合。我們通過雙向語言模型在大規模語料庫中學習的通用上下文語義知識來彌補小規模標注數據集信息缺失的不足,以此提高模型的泛化能力。

5 結語

屬性識別是屬性級情感分析的重要子任務。針對該任務,本文提出一種融合雙向語言模型的半監督序列化標記網絡模型(ST-BiLM)。該方法通過CNN 生成包含單詞形態特征的字符級向量,并拼接預訓練的單詞語義級向量做為模型ST-BiLM的輸入;在模型ST-BiLM網絡中,通過多層BiLSTM組合線性CRF來構建基線序列化標記模型;為了彌補復雜模型對訓練數據規模的要求,將基于大規模、無標注數據集的雙向語言模型加入到第一層BiLSTM 的輸出位置,將雙向語言模型學習的通用語義知識來彌補小規模標注數據集信息缺失的不足,從而提高模型的泛化能力。通過在三個不同領域評測數據集上的對比實驗表明,本文模型ST-BiLM 相比之前基于神經網絡模型的F1 值有了一定提升,很好地解決了屬性識別任務。

在未來的工作中,將會改進模型ST-BiLM中序列化標記模塊與雙向語言模型的結合方式,目前通過簡單的拼接操作實現結合,接下來的工作考慮完成拼接操作后加入非線性函數映射。更進一步,考慮在結合雙向語言模型的過程中引入注意力機制,通過選擇性保留有用特征信息來提高模型的屬性識別能力。

猜你喜歡
語義語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
語言與語義
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
我有我語言
主站蜘蛛池模板: 自拍偷拍欧美| 天堂网亚洲综合在线| 国产精品永久不卡免费视频| 亚洲无线国产观看| 四虎在线高清无码| 免费人成视网站在线不卡| 亚洲69视频| 婷婷六月色| 日本三级欧美三级| 日本a级免费| 国产精彩视频在线观看| 国产人人乐人人爱| P尤物久久99国产综合精品| 亚洲精品成人片在线播放| 五月天婷婷网亚洲综合在线| 曰韩人妻一区二区三区| 色婷婷丁香| 久99久热只有精品国产15| 成人日韩欧美| 国产99在线| 高清色本在线www| 国产成人久久综合777777麻豆| AV在线麻免费观看网站 | 小蝌蚪亚洲精品国产| 欧美区一区二区三| 久久婷婷五月综合97色| 色综合狠狠操| 波多野结衣中文字幕一区二区| 久久99精品久久久大学生| 黄色网站在线观看无码| 国产精品男人的天堂| 亚洲精品综合一二三区在线| 成年网址网站在线观看| 色视频国产| 亚洲人成网站日本片| 精品超清无码视频在线观看| 特级欧美视频aaaaaa| 欧美午夜在线观看| 亚洲视屏在线观看| 精品撒尿视频一区二区三区| 原味小视频在线www国产| 亚洲成A人V欧美综合天堂| 精品国产中文一级毛片在线看| 尤物精品视频一区二区三区| 一级毛片无毒不卡直接观看| 亚洲无线观看| 国产国拍精品视频免费看 | 在线人成精品免费视频| 国产91无码福利在线| 免费a级毛片视频| 国产一级毛片网站| 久久精品视频一| 国产成人精品免费视频大全五级 | 人妻一本久道久久综合久久鬼色 | 亚洲天堂日韩在线| 亚洲,国产,日韩,综合一区| 天天色综网| 超碰91免费人妻| 免费无码在线观看| 亚洲丝袜第一页| 久久久久免费看成人影片| 9啪在线视频| 黄色不卡视频| 免费啪啪网址| 尤物精品视频一区二区三区| 成人亚洲国产| 亚洲91精品视频| 免费毛片视频| WWW丫丫国产成人精品| 国产亚洲欧美在线人成aaaa| 欧洲欧美人成免费全部视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲v日韩v欧美在线观看| 亚洲精品国产精品乱码不卞| AV不卡在线永久免费观看| 午夜精品一区二区蜜桃| 一级片免费网站| 亚洲三级电影在线播放| 2021天堂在线亚洲精品专区| 国产精品免费福利久久播放 | 欧美在线黄| 亚洲成人播放|