999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Tri—training的柬埔寨語組織機構名識別

2018-06-21 11:46:28謝俊嚴馨王若蘭周楓李思遠
軟件導刊 2018年5期

謝俊 嚴馨 王若蘭 周楓 李思遠

摘 要:隨著我國與柬埔寨的交流合作日益頻繁,柬埔寨語的自然語言處理工作變得更為重要,針對柬埔寨語語料庫資源有限、柬埔寨語組織機構名標注語料稀缺的問題,提出了一種基于半監督Tri-training的柬埔寨語組織機構名識別方法。該方法利用改進的Tri-training算法,結合柬埔寨語的語言特點進行實驗。實驗結果顯示,準確率和召回率分別達到了65.68%、67.83%,表明該方法能有效利用大量未標注語料得到準確率較高的標注語料。

關鍵詞:半監督學習;三體訓練法;標注語料;特征選擇

DOI:10.11907/rjdk.172833

中圖分類號:TP319

文獻標識碼:A 文章編號:1672-7800(2018)005-0127-05

Abstract:With the increasingly frequent exchanges and cooperation between China and Cambodia, natural language processing of Cambodian becomes more and more important. Due to the scarcity of corpus resources of Cambodian, the tagging corpus of the names of Cambodian organizations are also rare.A new method based on semi supervised Tri-training and combined with the Cambodian characteristics was suggested; it was confirmed that the accuracy and recall rate reached 65.68% and 67.83% respectively, which indicated that the method could effectively use a large number of untagged data to get a higher accuracy.

Key Words:semi-supervised learning; Tri-training; tagged corpus; feature selection

0 引言

作為現今自然語言處理工作的重要組成部分,命名實體識別技術是對文本語料理解、處理的基礎,而其中對組織機構名的識別是較為困難的部分。組織機構名分為簡單組織機構名和復雜組織機構名。簡單組織機構名是由一個詞組成的;一個復雜組織的名稱由組織的一個或多個前言加上組織的名字組成。

針對組織機構名的研究,周波等[2]提出一種基于條件隨機場的字詞模型相結合的組織機構名識別方法,針對組織機構名的特點利用知網進行字、詞兩方面的特征選擇,結果表明字詞模型之間存在互補差異性,相結合后取得了比單一模型更好的效果;馮麗萍等[3]提出基于最大熵模型的中文組織機構名識別方法,在大規模數據集上對比了不同特征選擇方法對模型的影響,結果表明改變其特征選擇方法以及采用不同的參數估計方法雖然會在一定程度上影響模型的大小和訓練速度,但對模型預測效果影響不大;胡萬亭等[4]提出一種基于詞頻統計的組織機構名識別方法,主要是在百度詞條名的基礎上對組織機構名進行詞頻統計,識別結果與實際情況無大差距,可以滿足一定的科學研究和實際應用;Ling、Yang等[5]提出基于多特征的中文組織機構名識別,使用核心特征詞庫和左邊界規則集提取候選中文組織機構名,然后根據中文組織機構名的行為特征和調試結構模式對候選中文組織機構名進行評估和完善,結果表明很好地完成了對中文組織機構名的識別,特別是對嵌套組織機構名的識別。這些研究者提出的方法都是基于大規模的標注語料,在一定程度上對組織機構名的識別達到了較好的效果。

對于柬埔寨語組織機構名識別的研究較少,潘華山等[6]提出了融合實體特性的柬埔寨語命名實體識別方法,利用條件隨機場學習算法,采用詞形、詞性及其組合等特征以及融入柬語實體的特性進行命名實體的識別;黃淑慧[7]提出了一種融入柬埔寨語實體特征的約束條件隨機場的命名實體識別方法,利用整數線性規劃的方法結合柬埔寨語實體詞上下文邏輯關系約束,計算得到最短路徑的標注序列,從而實現命名實體的識別。上述研究方法對于組織機構名的識別效果都不是很好,因此本文針對柬埔寨語組織機構名進行研究。

由于柬埔寨語組織機構名的標注語料匱乏,雖然可以輕易獲取大量未標注語料,但對這些語料進行標注需要耗費大量人力和物力,如何有效利用大量未標注語料改善學習性能成為目前研究中最為關注的問題。半監督學習[8-10]試圖讓學習器自動地對大量未標記數據進行利用以輔助少量的有標記數據進行學習。Blum和Mitchell[11]提出的協同訓練法(Co-training)在使用時,存在著要使數據集上有兩個充分冗余視圖的前提,而充分的含義是所給出的每個屬性集都可以說明這個問題,且如若給出的訓練例子很大,那么對于每一個屬性集是一個強學習器;冗余的含義在于對所轉儲的標記文件,每兩個屬性集之間都是相互獨立的,然而在現實問題中充分冗余視圖的要求很難滿足。基于上述方法的不足,Zhou Z H和Li M[12]提出了三體訓練法(Tri-training),不同于前文算法中的要求該算法適用3個分類器,實現了簡便處理標記置信度估計,還解決了對未標記例子的預測問題,同時將此算法與集成學習結合在一起能夠實現泛化能力的提高。李心磊等[13]提出關于Tri-training算法中分類器組合的改進方法,由原先單一的分類器換成兩個不同分類器的組合作為Tri-training算法中的3個分類器構成分類器模型,結果表明使用分類效果較為接近,且分類算法不同的分類器,以獲得較高的分類準確率;Cai Y H、Cheng X Y[14]提出了基于Tri-training的生物醫學命名實體識別方法;Chou C L和Chang C H[15]提出一種通過自動標注、利用未標注數據和含有已知命名實體結構化資源的半監督Tri-training學習算法的命名實體識別方法;陳霄[16]等提出了利用支持向量機結合主動學習策略的中文組織機構名識別方法;鐘志農[17]等提出了基于條件隨機將主動學習與自學習相結合的中文命名實體識別方法。上述研究表明,利用Tri-training算法不僅能有效利用大量未標注語料和少量標注語料提高算法的泛化能力,還可以利用不同分類器各自的優點,達到更好的識別效果。

針對柬埔寨語組織機構名研究中存在的問題,本文提出一種基于半監督學習的Tri-training算法的柬埔寨語組織機構名識別方法。利用Tri-training學習算法使用條件隨機場(Conditional Random Fields,CRFs)、支持向量機(Support Vector Machines,SVMs)和最大熵模型(Maximum Entropy Model,ME)3個分類器組合成一個分類體系,并依據最優化樣本選擇策略對新加入的樣本進行選擇,結合柬埔寨語的語言特點,利用少量標注語料和大量未標注語料進行研究。

1 基于Tri-training的算法

Tri-training算法是在Co-training算法基礎上改進的半監督學習算法。通過使用3個分類器解決柬埔寨組織名稱的識別,還有未標注的學習和其它問題的例子。該算法通過對標記樣本集的可重復采樣(bootstrap sampling)啟動,以獲得3個已進行標記的訓練集,并訓練來自每個訓練集的分類器。在協同訓練過程中,每個分類器獲得的新標簽樣本由兩個其它分類器提供,若這兩個分類器對于同一未標記的樣本是相同的預測,則這個樣本就會被標記為較高的置信水平,且在被標記之后會將其加到第三個分類器上的已被標記的訓練文本當中。另外在處理未被標記的文本時,此算法采用的是少數服從多數的方法,將3個分類器組成一個組進行算法應用。

1.1 三個基分類器簡單介紹

條件隨機場是由Lafferty J等[18]于2001年提出,是一個概率化的結構模型,主要作用是用來標注和劃分序列結構數據,同時,也可以將條件隨機場看作為一個無向圖模型或者馬爾科夫隨機場。由于條件隨機場的條件隨機性,只需考慮當前已經出現的觀測狀態,所以能夠非常有效地避免其它模型中所存在的標記偏差的問題,因此近幾年在自然語言處理領域得到了很好的應用并取得到了較為滿意的結果。

支持向量機由Cortes和Vapnik[19]在1995年提出,作為一種機器學習的方法,它是在統計學的理論基礎之上產生的。作為一種二類分類模型,支持向量機最初應用于處理二值分類等問題。對于柬埔寨文本中組織機構名的識別問題,需采用多值分類的思想,有必要對支持向量機進行改進,建議采用Hideki提出的將多值問題轉化為二值問題的思想。為了解決支持向量機二值分類器僅接受數字化的值的限制,將詞及詞性特征等非數字化特征轉化為數字特征。這種方法在自然語言處理、圖像識別等很多領域得到了成功應用。

最大熵原理由Jaynes[20]于1957年最早提出,1996年被應用于自然語言處理[21]。最大熵模型基本原理是:對于未知信息,在只學習了其中一部分的前提下,跟已知知識相符的概率分布可能不止一個,此時有一個概率分布的熵值最大,那么這個概率分布最接近原有事件所反映的真實分布情況。由于熵在只掌握關于未知分布的部分信息的情況下,符合已知知識的概率分布可能有多個,但使熵最大的概率分布最真實地反映了事件的分布情況,因為熵定義了隨機變量的不確定性。當熵最大時,隨機變量最不確定,最難準確地預測其行為,即在已知部分信息的前提下,關于未知分布最合理的推斷應該是符合已知信息最不確定或最大隨機的推斷。最大熵模型的一個最為顯著的特點是不要求選用的特征相互獨立,因此可以選用對分類效果好的任意特征而忽略各個特征之間是否相互影響。

1.2 改進的Tri-training算法流程

因為最開始的Tri-training算法是運用可重復采樣的方法給予最開始處于相同狀態的3個分類器不同的初始樣本進行處理,從而使得3個分類器不同,但這種算法的弊端在于它無法實現分類器的多樣性,使得分類器在進行協同訓練時有可能會被減化為單分類器的自訓練(self-training),因此本文采用3個不同的分類器實現Tri-training算法分類器的差異性。

1.3 標注方法

本文標注方法采用BISO標注法,組織機構名的開始用大寫字母B表示;組織機構名的中間用大寫字母I表示;組織機構名的結束用大寫字母S表示;用O表示詞語不屬于組織機構名。此時組織機構名的識別問題便能轉成序列化的標注問題。標注類型分為{B_ORG,I_ORG,S_ORG,ORG,PER,LOC,O},其中ORG代表該詞為單個組織機構名,PER代表該詞為人名,LOC代表該詞為地名。

1.4 特征選擇

根據條件隨機場和最大熵模型依據對特征模板的構建進行實驗,根據柬埔寨語的以下特點:在柬埔寨語中組織機構名書寫的順序跟漢語是相反的,如“昆明理工大學”對應的柬語為“大學理工昆明”;柬埔寨語的組織機構名一般是定中結構,且定語為后置,前綴表明組織機構所屬類型,絕大多數的機構名指示詞均以前綴的形式出現在機構名中;根據柬埔寨語組織機構名的特點,左邊界為機構名指示詞,人工收集實體指示詞并構建實體指示詞庫如:(公司)、(黨)、(組織)、(隊)、(教堂)、(寺廟)、(醫院)、(大學)、(部)等,因此識別的重點放在右邊界,能否正確識別出右邊界對構造實體特征模塊具有重要意義。其中基本特征模板描述了當前詞及其上下文中若干個詞的詞性如表1所示。

復合特征模板就是將基本特征模板中的特征進行組合,利用依存關系和豐富的上下文信息,本文采用由兩個基本特征模板構成的復合特征模板,在表2中列出的是本文符合特征模板的一部分。

根據柬埔寨語言的特點,結合實體指示詞庫,提取出的實體特征模板如表3所示。

1.5 最優化樣本選擇策略

2 實驗描述與分析

2.1 實驗語料

本文實驗語料從柬埔寨新聞網站上爬取。首先將爬取的新聞篇章語料切分為句子,由于柬埔寨語和中文一樣是連續書寫的,一般詞與詞之間沒有明顯的分隔符,因此應先對柬埔寨語進行分詞。在本文中,為實現柬埔寨語的分詞以及詞性標注,采用了潘華山[23]提出的基于層疊條件隨機的柬埔寨語分詞及詞性標注方法,該方法最終以詞語為粒度,結合上下文信息與柬埔寨語的構詞特點、柬埔寨語中命名實體的構成特點以及柬埔寨語豐富的詞綴信息構建特征模板,實現對柬埔寨語中句子的分詞和詞性標注;然后通過人工校對提高句子分詞和詞性標注的準確率,得到的語料規模為5 000句,含有2 863個組織機構名,其中通過人工標注獲得2 000句的標注語料,1 000句用于訓練語料,另外1 000句用于測試語料,其余3 000句為未標注語料用于Tri-training訓練。

2.2 評測方法

衡量命名實體識別系統性能的主要性能指標包括準確率P、召回率R以及綜合反映兩者的綜合指標F值。具體定義為:

2.3 實驗結果及分析

在運用Tri-training算法時,首先需要建立3個初始分類器,為了使初始的分類器具有一定的差異性,本實驗在Tri-training中采用的分類器分別是CRF++(v0.58)、MaxEnt及SVM-light。本文采用兩組對比實驗,第一組實驗進行3個基分類器的識別結果與Co-training算法和Tri-training算法通過10輪迭代后的識別結果的比較,第二組實驗對比經過Tri-training算法10輪迭代的識別結果,實驗結果如表4、5所示。

從表4可以發現利用Tri-training算法的識別結果相比3個基分類器的效果有明顯提升,相比Co-training算法識別效果也要一定的提升,但由于Co-training算法要求數據具有兩個充分冗余且滿足條件獨立性的視圖,此要求在現實情況下很難達到,所以實驗效果不是很好,因此證明采用該方法進行柬埔寨語組織機構名的識別達到了更好的效果。其中3個基分類器的識別效果中,條件隨機的準確率和召回率最高,因此F值最高的是條件隨機模型。由于3個基分類器的識別效果不同,表明不同特征對3個基分類器的影響各不同。

表5顯示了Tri-training算法在每輪迭代后的結果,在第一輪訓練結束后,準確率最高,與基分類器的準確率較高有關,召回率相對較低,通過多輪的訓練,準確率有所下降,召回率逐漸提升,F值一直在增加,但隨著迭代次數的增加,F值增加的幅度逐漸減小,趨于一致。實驗表明能有效地識別出組織機構名的左邊界,對于復雜組織機構名的右邊界的識別效果有待進一步提高。

3 結束語

本文提出了一種基于半監督Tri-training的柬埔寨語組織機構名識別方法,選取3個基分類器,即CRFs、ME及SVMs,通過N輪迭代對未標注語料進行標注以擴充語料庫,減輕了人工標注大量語料的工作,對于命名實體識別研究具有重要影響,但整體識別效果不太理想,對于基分類器的識別效果也可以進一步提高。希望在下一步工作中,繼續擴大組織機構名語料庫,通過本實驗擴展到對柬埔寨語命名實體識別的研究,擴充實體指示詞庫,結合柬埔寨語言的特點,更有效地識別實體的左右邊界,以達到更高的準確率和召回率;也可以利用中柬雙語對齊的句子,通過中文組織機構名來識別柬埔寨組織機構名。

參考文獻:

[1] 黃德根,李澤中,萬如.基于SVM和CRF的雙層模型中文機構名識別[J].大連理工大學學報,2010,50(5):782-787.

[2] 周波,蔡東風.基于條件隨機場的中文組織機構名識別研究[J].沈陽航空航天大學學報,2009,26(1):49-52.

[3] 馮麗萍,焦莉娟.基于最大熵的中文組織機構名識別模型[J].計算機與數字工程,2010,38(12).

[4] 胡萬亭,楊燕,尹紅風,等.一種基于詞頻統計的組織機構名識別方法[J].計算機應用研究,2013,30(7):2014-2016.

[5] LING Y J, YANG J, HE L. Chinese organization name recognition based on multiple features[M]. Intelligence and Security Informatics. Springer Berlin Heidelberg,2012:136-144.

[6] 潘華山,嚴馨,余正濤,等.融合實體特性的柬埔寨語命名實體識別方法[C].第26屆中國控制與決策會議論文集.2014.

[7] 黃淑慧.基于約束條件隨機場的柬埔寨語命名實體識別研究[D].昆明:昆明理工大學,2015.

[8] CHAPELLE O, SCHOLKOPF B, ZIEN A. Semi-supervised learning[M].Cambridge, MA: MIT Press,2006.

[9] ZHOU Z H, LI M.Semi-supervised learning by disagreement.[J]. Knowledge & Information Systems,2010,24(3):415-439.

[10] 周志華.基于分歧的半監督學習[J].自動化學報,2013,39(11):1871-1878.

[11] BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]. Proceedings of the eleventh annual conference on Computational learning theory. ACM,2000:92-100.

[12] ZHOU Z H, LI M. Tri-training: exploiting unlabeled data using three classifiers[J]. Knowledge & Data Engineering IEEE Transactions on,2005,17(11):1529-1541.

[13] 李心磊,楊思春,彭月娥.Tri-training算法中分類器組合的改進[J].蘇州科技學院學報:自然科學版,2014(2):52-56.

[14] CAI Y H, CHENG X Y. Biomedical named entity recognition with tri-training learning[C]. Biomedical Engineering and Informatics, 2009. BMEI '09. 2nd International Conference on IEEE,2009:1-5.

[15] CHOU C L, CHANG C H. Named entity extraction via automatic labeling and tri-training: comparison of selection methods[M]. Information Retrieval Technology. Springer International Publishing,2014:244-255.

[16] 陳霄,劉慧,陳玉泉.基于支持向量機方法的中文組織機構名的識別[J].計算機應用研究,2008,25(2):362-364.

[17] 鐘志農,劉方馳,吳燁,等.主動學習與自學習的中文命名實體識別[J].國防科技大學學報,2014(4):82-88.

[18] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C].Proceedings of the eighteenth international conference on machine learning, ICML.2001(1):282-289.

[19] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning,1995,20(3):273-297.

[20] JAYNES E T. Information theory and statistical mechanics[J]. Physical Review,1957,106(4):620.

[21] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics,1996,22(1):39-71.

[22] STEEDMAN M, HWA R, CLARK S, et al. Example selection for bootstrapping statistical parsers[C]. Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, Association for Computational Linguistics,2004.

[23] 潘華山.基于條件隨機場的柬埔寨語詞法分析方法研究[D].昆明:昆明理工大學,2014.

(責任編輯:江 艷)

主站蜘蛛池模板: 97精品久久久大香线焦| 在线日韩日本国产亚洲| 精品91在线| 亚洲自偷自拍另类小说| 视频二区亚洲精品| 曰韩人妻一区二区三区| 色婷婷久久| 中文精品久久久久国产网址| 免费一级毛片完整版在线看| 亚洲无码高清视频在线观看| 亚洲欧美国产高清va在线播放| 亚洲第一区欧美国产综合| 2024av在线无码中文最新| 成人第一页| 精品免费在线视频| 三上悠亚在线精品二区| 亚洲不卡无码av中文字幕| 午夜啪啪网| 最新国产在线| 天堂网亚洲综合在线| 天天色天天综合| 制服丝袜亚洲| 午夜欧美在线| 婷婷五月在线视频| 日本人妻一区二区三区不卡影院 | 日本一区二区不卡视频| 无码又爽又刺激的高潮视频| 日韩中文精品亚洲第三区| 国模视频一区二区| 中文字幕波多野不卡一区| 一区二区三区成人| 尤物国产在线| 九九精品在线观看| 欧美日韩福利| 成年人国产视频| 人妻无码一区二区视频| 99ri国产在线| 亚洲日本中文综合在线| 这里只有精品国产| 色爽网免费视频| 国产爽爽视频| 91久久性奴调教国产免费| 亚洲福利一区二区三区| 中国精品久久| 亚洲天堂网视频| 成人在线亚洲| 国产人人射| 色哟哟色院91精品网站 | 澳门av无码| 福利一区三区| 思思99思思久久最新精品| 国产精品专区第1页| 亚洲欧美不卡中文字幕| AV老司机AV天堂| 国产色婷婷视频在线观看| 国产成在线观看免费视频| 91成人在线观看视频| 男女男精品视频| 9cao视频精品| 亚洲国产高清精品线久久| 一级毛片免费观看不卡视频| 白浆免费视频国产精品视频| 欧美成人aⅴ| 色婷婷在线播放| 免费A级毛片无码免费视频| 国内丰满少妇猛烈精品播| 欧美笫一页| 欧美在线视频不卡第一页| 国产91丝袜在线观看| 91美女视频在线观看| 丁香婷婷激情网| 国产女人在线| 亚洲无码免费黄色网址| 国产精品亚洲片在线va| 国产极品美女在线观看| www.99在线观看| 国产日韩久久久久无码精品| 亚洲日韩图片专区第1页| 精品视频在线观看你懂的一区| 亚洲AV无码久久精品色欲| 国产第一页第二页| 91青草视频|