999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存樹與規則相結合的漢泰新聞事件要素抽取方法

2018-09-26 11:30:48程良郜洪奎王紅斌
軟件導刊 2018年7期
關鍵詞:規則

程良 郜洪奎 王紅斌

摘要:針對漢泰新聞事件要素抽取進行研究,首先分析漢泰語言特點,發現泰語的定語、狀語和補語后置與中文語法結構類似,進一步分析發現漢泰依存結構相同。因此,通過平行句對構建漢泰依存樹,再根據泰語語言特點定義若干規則,利用依存樹與規則相結合抽取泰語句子的主語、賓語和狀語。實驗驗證,泰語主語名詞短語、賓語名詞短語和狀語名詞短語的事件要素抽取正確率分別為62.13%、64.18%和70.21%,說明基于依存樹與規則相結合抽取泰語新聞事件元素是可行的。

關鍵詞:依存樹;規則;泰語;要素抽取;自然語言處理

DOI:10.11907/rjdk.181605

中圖分類號:TP301

文獻標識碼:A文章編號:1672-7800(2018)007-0049-08

Abstract:ThisresearchaimstostudytheextractionmethodfornewsinbothChineseandThailanguages.AnanalysisonthecharacteristicsofChineseandThailanguagewascarriedout.Itwasfoundthattheattributive,adverbialandpost-complementweresimilarinbothlanguages,whichfurtherindicatedthatChineseandThailanguagesharedthesamedependencystructure.Therefore,ChineseandThaidependencystructuretreesweredevelopedbyparallelsentences.Then,accordingtotherulesofThailanguagefeatures,subject,objectandadverbialofThaisentenceswereextractedbycombiningdependencytreeandthedefinedrules.TheresearchconfirmedthemainelementsinThainewsincludedsubjectnounphrases,objectnounphrases,andadverbialnounphrases,withthecorrectextractionrateof62.13%,64.18%and70.21%respectively.ItisevidentthatdependencystructuretreeincombinationwithlanguagerulescouldbeappliedinextractingtheelementsinThainews.

KeyWords:dependencytree;rule;Thailanguage;factorextraction;naturallanguageprocessing

0引言

中國作為內陸國家與眾多國家接壤,自古以來重視與鄰國的經濟合作及文化交流。泰國是中國的鄰居,自1975年雙方建交以來,兩國交流與合作比較密切[1-2]。隨著中國“一帶一路”倡議的提出,兩國之間的交流與合作達到一個全新高度。兩國人民獲取信息的渠道之一是各種新聞網絡。但是,網絡新聞具有海量性和無限性,如何從大量雜亂無章的新聞報道中快速、有效獲取所關注的新聞信息,已成為當前迫切需要解決的問題。因此,開展基于依存樹與規則相結合的漢泰新聞事件要素抽取方法研究顯得十分重要。然而,泰語是小語種,應用人群有限、技術不成熟等導致目前關于泰語事件的研究較少。

2005年ACE評測會議把事件要素抽取作為事件識別的后續任務[3]。事件要素抽取是指從已識別事件的眾多實體中提取出事件的時間(Time)、地點(Place)、參與者(Participants)等信息[4-6]。當前國內外關于事件要素抽取的研究主要采用兩種方法:模版匹配方法[7]和機器學習方法[8]。模版匹配方法是在模版的指導下進行的,首先要獲取模版,然后再利用獲取的模版抽取事件要素信息。例如:李芳[9]自動抽取新聞報道中提及的事件相關信息,如時間、地點以及結果等,具體做法是結合時間、地點條件完成事件要素抽取任務,在特定領域實驗效果較為理想,但缺點是同一事件信息合并會出現問題;付劍鋒[10]運用基于特征加權的事件要素識別方法,實驗之前首先改良ReliefF特征選擇算法,其次根據改良后的ReliefF特征選擇算法(FWA)綜合考慮各個特征對聚類的影響,進而分配相應的權值,然后利用K-Means算法對抽取的事件要素進行聚類,最終完成事件要素抽取,但是該方法采用FWEAI算法進行聚類,需要人工干預。

由于規則是根據人的思維制定的,總體來說采用模式匹配方法進行事件要素抽取具有準確率較高(如果首先定義的模式非常準確)并且知識表現直觀、自然的優點,有利于了解和推理。但是該方法依賴于具體的單一語言和相關領域及文本格式,可移植性差、制作費時費力且容易產生錯誤,更重要的是只有經驗豐富的語言學家才能完成。況且語言復雜多變,因此制作的抽取模式不可能包含所有事件類型,當轉換語料時,由于不同語言結構特點,需要重新制作模式,因此性價比不高。

因此,部分學者轉向機器學習方法研究事件要素的獲取。例如:Ahd[11]在2006年首次提出采用多元分類器識別事件要素,并且在ACE英文語料上做了相應測試,結果較為理想,但是存在數據的正反例不平衡及多元分類器數量眾多等問題。趙妍妍[12]在Ahd實驗基礎上進行相應改進,將不同類別中相同的事件要素進行合并,并且在ACE中文語料上取得了不錯成果。丁效[13]采用最大熵作為分類器進行事件要素識別,但是該方法依賴具體的語料。Saeedi[14]、Wang[15]和楊爾弘[16]把事件要素的抽取問題進行相應轉化,使其轉化為分類問題,但是分類器構建與特征選擇等需要大量人力和物力。機器學習方法具有良好的健壯性和靈活性,且比較客觀,不需要過多的人工干預以及領域專家知識,因此實驗召回率較高。但是由于語料庫資源有限導致數據稀疏,從而引發準確率較低和開銷巨大等問題,且還需要龐大的語料庫資源。目前泰語領域研究成果只有少量詞法層面和語料庫構建等基礎資源構建層面的研究,而事件相關研究較少。比如:趙治鵬[17]采用機器學習方法實現泰語分詞;KessarapornSuesatpanit等[18]通過泰語字符集信息實現泰語分詞;CanasaiKruengkrai等[19]通過詞和字符簇的混合模型實現泰語分詞。同時,泰語領域研究成果大都采用有監督的機器學習方法,需要依賴高質量的泰語訓練語料,開銷較大,并且因資源稀少而較難獲得。上述采用機器學習識別事件要素的方法,都是采用把候選事件要素以及相關信息作為特征進行訓練分類器,取得了較好成績;但是如果事件要素不是某一類不變的實體信息,而是泛化的相關內容,則采用分類器識別事件要素效果較差。

針對上述事件要素研究現狀及泰語研究存在的問題,本文采用依存樹與模版匹配相結合可以很好地抽取漢泰事件要素信息。漢語和泰語依存關系結構[20]相同,在獲取漢泰平行事件句對語料的基礎上,首先通過構建漢語依存樹,然后將其映射為泰語依存樹,并且根據泰語語言特點定義若干規則,最后利用泰語依存樹與定義規則相結合完成泰語事件要素抽取任務。本文基于依存樹與規則相結合的漢泰新聞事件要素抽取方法,在漢泰平行事件句對的語料基礎上,借助中文事件較為成熟的技術,從非結構新聞文本中抽取出事件要素信息并以結構化形式展現,具有重要價值。

1研究思路與方法

事件要素提取作為事件抽取的后續任務,是從識別的事件中把人物、時間、地點等信息提取出來。本文研究重點是事件要素抽取,即抽取出事件的時間、地點、參與者等信息。由于泰語是小語種,當前關于泰語的研究僅僅局限在詞法等方面,泰語事件研究較少及泰語語料資源有限導致直接開展泰語研究會面臨許多困難,因此需要借助漢語較為成熟的事件技術進行泰語事件研究。本文的事件要素抽取任務從本質上說,與中文微博中的情感要素抽取任務相同,都是識別要素信息。張凌[21]根據中文語言結構特點提出了基于模版和依存分析相結合的情感要素抽取方法,并通過實驗論證該方法可以有效提高情感要素抽取結果。但是泰語與漢語語言結構不同,泰語中定語、狀語和補語是后置的語言。目前的規則在泰語中不適用或者太少,不能充分識別泰語事件要素,因此需要分析泰語語言,制定若干針對泰語事件要素抽取的規則,最后根據制定的規則與依存分析相結合進行泰語事件要素抽取。但是本文研究卻又不同于張凌的單語情感要素抽取,具體包括以下兩個難點:①泰語目前沒有依存分析樹庫,需要構建依存樹庫;②規則模版制定需要考慮漢泰語言結構特點,制定適用于泰語的事件要素抽取規則。

針對上述問題①,查閱文獻[20]發現漢語與泰語的依存關系相同,因此可以根據哈工大語言云直接得到漢語依存樹,然后將其直接映射為泰語依存樹;針對上述問題②,根據文獻[22-24]總結及咨詢泰國留學生泰語語言結構特點,綜合整理制定若干事件要素抽取規則,最后將漢語映射得到的泰語依存樹與本文定義的若干規則相結合進行事件要素抽取。

通過上述分析,本文采用基于依存樹與規則相結合的漢泰新聞事件要素抽取方法,在現有漢泰平行事件句對資源的基礎上,展開對泰語新聞事件要素抽取研究,其任務是從泰語新聞句的眾多實體中抽取出真正的泰語新聞事件要素。圖1為泰語事件要素抽取整體流程,主要分為3個模塊:語料預處理模塊、依存樹構建模塊、事件要素抽取模塊。本文圍繞該流程具體闡述如何抽取泰語事件要素,并進行實驗驗證。

2語料預處理模塊

2.1漢泰語言結構特點

漢語和泰語一樣都屬于漢藏語系。漢語和泰語雖然在句法結構上有許多相似之處,但是兩者畢竟屬于不同國家語言,因此也存在較多差異[25-26]。

2.1.1相似性

兩者之間的相似性主要體現在以下幾個方面:

(1)漢語和泰語在構詞方面均使用復合法構詞。最常見的是新詞全部以詞根作為基礎進行構詞。例如:漢語中以“電”作為基礎可以構建許多新詞:“電話/電腦/電視”;泰語中的“(電)”構建的新詞有:“(電器)/(電動車)”等。

(2)漢語和泰語在表達方式上均缺少詞語的形態變化,在語法上依賴語序和虛詞。例如:漢語:“我昨天在操場打了籃球”;“我今天也在操場打了籃球”。泰語:“(我昨天在操場打了籃球)”;“(我今天也在操場打了籃球)”。

(3)泰語句子與漢語句子基本語言結構一樣,均含有主語、謂語、賓語、定語、狀語、補語。例如:漢語:“清晨的微風輕輕地吹走鮮花上的露珠點點”。主語:“微風”;謂語:“吹走”;賓語:“露珠”;定語:“清晨的、鮮花上的”;狀語:“輕輕地”;補語:“點點”。泰語:“”。主語:“”;謂語:“”;賓語:“”;定語:“、”;狀語:“”;補語:“”。

(4)漢語和泰語中較短的句子經過擴展都可以轉化為較長的句子,而且詞序保持不變。例如:漢語:“來自美國的留學生學習漢語。”對應的泰語翻譯:“留學生的來自美國學習漢語。”從上述分析可知,詞序還是“主語+謂語+賓語”結構。

(5)兩種語言的定語、狀語和補語都有標志詞匯。例如在漢語中定語后面通常會有“的”、狀語后面有“地”、補語之前有“得”等標志信息。在泰語中,定語的標志詞是“”,狀語的標志詞是“”,補語的標志詞是“”。

2.1.2差異性

泰語中定語、狀語和補語的位置不同造成兩種語言在語法結構上存在一些差異性。主要分以下幾種情況:

(1)漢語中定、狀語和補語是前置的(即為在中心詞前面),而泰語中定語、狀語和補語均是后置的(即為在中心詞之后)。例如:漢語:“清晨的微風輕輕地吹走鮮花上的露珠點點。”泰語:“微風()清晨的()吹走()輕輕地()露珠()點點()鮮花上的()”。

(2)泰語中否定的狀語在中心詞前面,其余狀語在中心詞后面。例如:“(爸爸)(我的)(來)(從不)(年邁)。

(3)泰語中地點狀語通常在謂語動詞后面。例如:“(我)(打籃球)(常常)(在操場)”。

(4)泰語中時間狀語表達式在句首或者句尾,并且從小到大為日、月、年。例如:漢語:“2005年7月倫敦發生自殺式爆炸襲擊事件。”對應的泰語:“(7月)2005(2005年)(發生)(事件)(爆炸襲擊)(自殺式)(倫敦)”。

2.2漢泰平行事件句對語料處理

本文語料中的一部分是通過網上爬取的漢泰雙語新聞語料,其中新聞語料包括經濟、軍事、娛樂、教育和科技等較多方面,另外一部分語料來源于實驗室收集的語料,具有普遍性和代表性。對獲取的語料進行分詞、去停用詞、詞對齊、篩選事件和統計歧義事件句等預處理,從而獲得30000個漢泰平行事件句對語料資源。其中,中文分詞工具采用的是哈工大語言云,泰語分詞選用實驗室趙世瑜[27]做的分詞工具,詞對齊采用giza++對獲取的漢泰平行事件句對進行處理,最后建立數據信息模型。例如:

漢語:“中國海軍艦隊訪問倫敦市。”

針對上述例句分別利用哈工大語言云和趙世瑜開發的分詞工具進行分詞處理,得到相應結果:

漢語:“中國海軍艦隊訪問倫敦市。”

經過上述分詞處理得到相應的分詞結構,針對該分詞結構采用giza++進行漢泰雙語詞對齊,如圖2所示。

3依存樹構建模塊

3.1泰語依存樹標注規范

根據上文分析,漢泰語言結構相同,都是典型的主謂賓結構,但是泰語中定語、狀語和補語是后置的語言,泰語依存樹的標注規范與漢語大致相同,表1給出若干種泰語標注規范。

3.2漢語-泰語依存樹構建方法

依存分析本質是借助工具對語言進行剖析,尋找語言單位之間的依存關系,從而揭露語言的句法結構[28]。從定義上說,依存分析就是借助句法分析器正確地定位句子中的“主謂賓”、“定狀補”以及它們之間的關系,在依存樹中可以直接找到句子的“主謂賓”。付劍鋒[29]采用依存分析首次進行漢語事件識別,該方法僅僅考慮觸發詞及其余詞語之間的關系作為分類器的特征,沒有具體考慮依存樹圖中相應的主語、謂語和賓語結構。本文根據定義的事件要素及依存樹結構特點綜合考慮,最終完成事件要素抽取工作。

漢泰兩種語言都是典型的“主謂賓+定狀補”結構,而且基本結構都是主謂賓結構,漢泰兩種語言結構最大不同是泰語中定語、狀語和補語是后置的。研究發現漢泰依存關系是相同的[20],因此根據構建的漢語依存樹直接映射得到泰語依存樹,從而實現泰語依存樹的構建。

例如:“中國海軍艦隊訪問倫敦市()”。采用哈工大語言云對該句建立中文依存樹,如圖3所示。

通過上述分析可知,漢語和泰語依存關系是相同的,接下來把漢語依存關系映射到泰語句子上生成泰語依存樹,圖4為漢泰依存樹,圖5為漢泰語義依存樹,表2為文本格式依存樹。

4事件要素抽取模塊

4.1事件要素抽取定義

在依存樹中,事件要素通常由主語、賓語和狀語組成,其中定語、謂語和補語不充當事件要素成分,因此本文主要工作是對主語、賓語和狀語進行分析。事件要素抽取前提是該句必須為事件句,本文在實驗室前期研究基礎上[30],已經正確識別出事件,進行事件要素的抽取。本文定義的事件要素主要包括人物、時間和地點,將本文定義的事件要素和依存樹結構進行匹配以幫助抽取主語名詞短語、賓語名詞短語和狀語短語,從而完成事件要素的抽取。表3是漢泰雙語平行事件句對資源中的部分語料;表4給出定義事件類別及其對應的事件要素具體內容。

4.2基于依存樹的事件要素抽取規則制定

在事件元素的抽取中,通過構建依存樹可以直接獲取對應事件句中的主語、賓語和狀語等信息。但是在一些特殊情況下,有些事件要素不僅僅只是主語、賓語和狀語,還包含其它信息,因此無法根據依存樹直接獲取主語、賓語和狀語等信息。總結文獻[22-24]及咨詢泰國留學生泰語語言結構和語法等特點,定義若干規則以輔助事件要素信息的獲取。下文為根據上述文獻以及泰語語言特點進行設計的若干條主語事件要素抽取規則、賓語事件要素抽取規則和狀語事件要素抽取規則。

4.2.1主語規則

規則一:泰語語言結構是主謂賓結構,謂語為觸發詞,謂語把主語和賓語分離,因此可以根據依存樹直接抽取主語。在泰語中謂語通常也由動詞充當,研究發現在依存樹中觸發詞就是動詞,因此可以根據這一特性確定事件觸發詞和謂語,從而把事件句分離,進而直接抽取主語要素。

例如:“泰國加強同中國的合作()”,通過依存樹可以發現觸發詞“加強()”的主語是“泰國()”;其對應的依存分析為圖6。

規則二:抽取偏正短語作為主語。若句子中主語成分由偏正名詞組成,可將偏正短語直接作為事件的主語。例如:“熬夜通宵的小李開車造成交通事故()”,在該句子中,根據依存樹可知參與者事件要素為:小李(XiaoLi),但是分析可知真正參與者事件要素為:熬夜通宵的小李(XiaoLi)。因此把偏正短語即“熬夜通宵的小李(XiaoLi)作為主語事件要素”。圖7為具體依存分析。

規則三:抽取并列短語作為主語。若將名詞并列成分作為主語,可以直接把觸發詞左邊的并列短語作為事件的主語。例如:“在經濟領域,中國和泰國加強了緊密合作()”,在該句子中,觸發詞為“加強()”,通過分析可知主語為“中國和泰國()”。圖8為具體依存分析。

規則四:抽取介賓短語作為事件的主語。針對依存樹中主語成分缺失的情況,直接抽取觸發詞左邊的介賓短語作為主語。例如:“關于這起嚴重的交通事故發生在山東的濟南()”。通過分析介詞“關于()”和觸發詞“發生()”,分析可知主語是介詞賓語“關于這起嚴重的交通事故()”。圖9為具體依存分析。

規則五:對于復合句,抽取前置分句主語作主語。該規則是根據分句獲得觸發詞,把前面分句的并列成分作為后一個分句的主語。例如:“小明和小李交談,聊到小張(XiaoMingXiaoLiXiaoZhang)”,在該例句中,無法找到觸發詞“聊到()”的主語,但是通過前面觸發詞“交談()”可知,主語為“小明和小李(XiaoMingXiaoLi)”。圖10為具體依存分析。

4.2.2賓語規則

規則六:泰語語言結構是主謂賓結構,謂語為觸發詞,謂語把主語和賓語分離,因此可以根據依存樹直接抽取賓語。在泰語中謂語通常也由動詞充當,研究發現在依存樹中觸發詞就是動詞,因此可以根據這一特性確定事件觸發詞和謂語,從而把事件句分離為3部分,進而直接抽取賓語要素。例如:“中國海軍訪問倫敦市()”,通過依存樹可以發現觸發詞“訪問()”的賓語是“倫敦市()”。圖11為具體依存分析。

規則七:針對復合句,抽取后置分句賓語作賓語。該規則是根據分句獲得觸發詞,把后面分句的賓語成分作為前一個分句的賓語。例如:“小明和小李交談,聊到小張(XiaoMingXiaoLiXiaoZhang)”,在該例句中,無法找到觸發詞“交談()”的賓語,但是通過后面觸發詞“聊到()”可知,賓語為“小張(XiaoZhang)”,因此可將后面的賓語直接作為前面事件的賓語。具體依存分析如圖10所示。

規則八:抽取并列短語作為賓語。若將名詞并列成分作為賓語,可以直接把觸發詞右邊的并列短語作為事件的賓語。例如:“2005年7月倫敦發生自殺式爆炸襲擊事件造成50多人死亡和70多人受傷(720055070)”,在該句子中,觸發詞為“發生()”,然而依存樹中的直接賓語為“死亡()”,通過分析可知賓語為“50多人死亡和70多人受傷(5070)”,因此設置規則規定并列短語為賓語。圖12為具體依存分析。

規則九:抽取偏正短語作為賓語。若句子中賓語成分由偏正名詞組成,可以把偏正短語直接作為事件的賓語。例如:“重大交通事故發生于道路曲折的四川()”。通過分析可知該句子的賓語為“道路曲折的四川()”,但是依存樹中的直接賓語為“四川()”。設置規則規定偏正短語為事件的賓語,圖13為具體依存分析。

規則十:抽取介詞短語作為事件的賓語。針對在依存樹中賓語成分不完整的情況,直接抽取介賓短語作為賓語。例如:“中國改革了關于醫療方面存在的問題()”,通過分析可知該句子的賓語應該為“關于醫療方面存在的問題()”,但是依存樹中的直接賓語為“問題()”。因此,設置規則規定介詞短語為事件的賓語。圖14為具體依存分析。

4.2.3狀語規則

規則十一:直接抽取句子首部和句子尾部時間狀語。泰語中表示時間的狀語通常放在句子首部和句子尾部,并且由時間短語構成,可直接抽取作為時間要素。例如:“2005年7月倫敦發生自殺式爆炸襲擊事件造成50多人死亡和70多人受傷(20055070)”,通過分析直接把“2005年7月(2005)”作為時間事件要素。具體依存分析如圖12所示。

規則十二:直接抽取有“在()+介詞短語”的句子作狀語,使其擔當地點要素。泰語中表示地點的事件要素通常由“在()+介詞短語”構成。例如:“2004年12月26日在印度洋發生海嘯(262004)”,例中“印度洋()”是該事件的地點要素信息,直接抽取作為該事件的地點要素。圖15為具體依存分析。

規則十三:直接抽取動詞后面的地點狀語。泰語中表示地點的狀語通常位于動詞后面,漢語則相反。例如:“我常常在食堂吃飯()”,例中食堂是觸發詞“吃()”的地點狀語,因此直接抽取“食堂()”作為地點要素信息。圖16為具體依存分析。

規則十四:直接抽取表示處所或方向的狀語作為地點要素。例如:“我們屋里聊()”,例中“屋里()”是狀語,可以作為地點要素,因此直接抽取作為地點要素信息。圖17為具體依存分析。

4.3基于依存樹與規則相結合的事件要素抽取

上文介紹了漢泰依存樹構建及本文定義的事件要素抽取規則,下文從事件要素抽取任務(人物、時間、地點)出發,最終完成事件要素抽取。例如,給出一則漢泰交通事故類事件的依存分析樹(見圖18)。

漢語:“2017年11月18日18時在昆明市官渡區發生交通事故;事故共造成2人死亡和4人受傷。”

泰語:“1818201724”

對該例子采用依存分析可知,其符合規則八、規則十一和規則十二,采用上述規則最終完成事件要素抽取任務。實驗驗證本文定義的規則是合理的,可以識別出事件類型下的事件要素信息,如表5所示。

5.1實驗語料

實驗所用語料為經過處理的漢泰平行事件句對語料,其中共有漢泰平行事件句對30000句。圖19所示為部分平行事件句對語料。

對上述語料進行預處理,經過預處理后才能獲得本文最終需要的語料資源,處理后最終部分語料如圖20所示。

5.2實驗評價標準

根據上述語料,結合本文提出的方法,分別完成主語、賓語和狀語短語模塊抽取。其中采用準確率、召回率和F值作為評價指標。

準確率(P)=正確識別的事件要素識別的事件要素總數

召回率(R)=正確識別的事件要素新聞中事件要素總數

F值=2*P*RP+R

5.3實驗結果及分析

首先,對獲取的漢泰平行事件句對語料進行預處理操作,得到本文實驗所需語料;其次把漢語依存樹映射為泰語依存樹,然后結合泰語語言結構特點制定若干事件要素抽取規則;最后將上述構建的泰語依存樹與制定的規則相結合,在預處理后的語料上進行泰語事件要素抽取。本文實驗結果如表6所示。

從表6能夠得出以下結論:狀語短語抽取效果最好,主語短語和賓語短語效果較差。這是由依存樹結構決定的,由于依存樹分析詞語之間的相互依存關系,如果某個名詞短語之間的依存關系出現錯誤,則會對與其有直接或間接依賴關系的詞語產生巨大影響,因此導致主語名詞短語和賓語名詞短語效果較差。

6結語

本文結合漢泰語言結構特點提出了14條依靠依存樹的泰語新聞事件元素抽取規則,該規則通過語義層對泰語新聞進行分析,再利用依存樹與本文定義的規則相結合完成事件要素提取。實驗結果表明,該方法可以快速定位到泰語句子的句法成分,有效抽取泰語新聞事件元素。但是由于泰語比較復雜,本文提出的規則有限,因此本文提出的方法應用領域也有限。下一步工作是繼續分析泰語語言,挖掘和制定更多規則進行泰語事件要素抽取。

參考文獻:

[1]朱振明.中泰建交以來中泰關系的回顧與展望[J].東南亞南亞研究,2000(2):24-32.

[2]梁源靈.中泰經貿關系的回顧與展望[J].東南亞縱橫,2000(s2):9-15.

[3]DODDINGTONG,MITCHELLA,PRZYBOEKIM.Theautomaticcontentextractionprogram-tasks,dataandevaluation[C].ProcLrecLisbon,2004:837-840.

[4]ALLANJ,GUPTAR,KHANDELWALV.Temporalsummariesofnewstopics[C].InternationalAcmSigirConferenceonResearch&DevelopmentinInformationRetrieval;,2001:10-18.

[5]HANB,GATESD,LEVINL.Fromlanguagetotime:atemporalexpressionanchorer[C].ProceedingofThirteenthInternationalSymposiumonTemporalRepresentationandReasoning,2006:196-203.

[6]MANII,WILSONG.Robusttemporalprocessingofnews[C].Proceedingsofthe38AnnualMeetingonAssociationforComputationalLinguistics,2000:69-76.

[7]YANKOVAM,BOYTCHEVAS.Focusingonscenariorecognitionininformationextraction[C].TenthConferenceonEuropeanChapteroftheAssociationforComputationalLinguistics,2003:41-48.

[8]SURDEANUM,HARABAGIUS,WILLIAMSJ,etal.Usingpredicate-argumentstructuresforinformationextraction[C].ACL'2003Proceedingsofthe41stAnnualMeeting,2003:8-15.

[9]李芳,毛順福,蔣德良,等.中文新聞事件要素自動抽取研究[D].上海:上海交通大學,2007.

[10]付劍鋒,劉宗田,劉煒,等.基于特征加權的事件要素識別[J].計算機科學,2010,37(3):239-241.

[11]AHND.Thestagesofeventextraction[C].ProceedingsoftheWorkshoponAnnotatingandReasoningaboutTimeandEvents,2006:1-8.

[12]趙妍妍,萬翔.中文事件抽取技術研究[J].中文信息學報,2008,22(1):3-8.

[13]丁效.音樂領域典型事件抽取方法研究[J].中文信息學報,2011:25(2):15-20.

[14]SAEEDIP.FeatureengineeringusingshallowparsinginargumentclassificationofPersianverbs[C].Proceedingsofthe16thCSIInternationalSymposiumonArtificialIntelligenceandSignalProcessing,2012:333-338.

[15]WANGW.Chinesenewsevent5WLHelementsextractionusingsemanticrolelabeling[C].ProceedingsoftheThirdInternationalSymposiumonInformationProcessing,2010:484-489.

[16]楊爾弘.突發事件信息提取研究[D].北京:北京語言大學,2005.

[17]趙治鵬.采用機器學習方法實現泰語分詞[D].昆明:云南大學,2014.

[18]SUESATPANITK.Thaiwordsegmentationusingcharacter-levelinformation[C].InterBEST2009ThaiWordSegmentationWorkshop,2009:18-23.

[19]KRUENGKRAIC.ConstructionofThailexiconfromexistingdictionariesandtextsontheweb[C].IEICE-TransactionsonInformationandSystems,2006:2286-2293.

[20]陶廣奉.基于跨語言遷移學習的泰語依存句法解析方法研究[D].昆明:昆明理工大學,2017.

[21]張凌.基于詞性模板與依存分析的中文微博情感要素抽取[J].計算機科學,2015(42):474-478.

[22]鄧麗娜.泰語與漢語的同異性與對泰漢語教學[J].成都大學學報:教育科學版,2008,22(4):64-67.

[23]柯偉智.漢語結果補語與泰語對應形式的對比研究[D].北京:北京大學,2013.

[24]邱魯陽.漢泰語中定語的語序差異及泰國學生漢語定語習得研究[D].杭州:浙江大學,2012.

[25]張金花.漢泰語對比淺析[J].群文天地月刊,2012(2):98.

[26]孫漢萍.漢泰語的同異性比較[J].湘潭師范學院學報:社會科學版,1995(2):34-39.

[27]趙世瑜.泰語詞法分析關鍵技術研究[D].昆明:昆明理工大學,2017.

[28]周國光.漢語配價語法論略[J].南京師范大學學報:社科版,1994(4):103-106.

[29]付劍鋒,劉宗田,付雪峰,等.基于依存分析的事件識別[J].計算機科學,2009,36(11):217-219.

[30]彭籍沖.泰語新聞事件抽取方法研究[D].昆明:昆明理工大學,2017.

(責任編輯:何麗)

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 日本欧美中文字幕精品亚洲| 中文字幕在线看| 久久精品国产精品青草app| 欧美午夜视频| 欧美日韩一区二区三区四区在线观看 | 午夜国产在线观看| 成人夜夜嗨| 亚洲区欧美区| 午夜成人在线视频| 国产精品一线天| 成年人福利视频| 国内老司机精品视频在线播出| 亚洲精品人成网线在线| 亚洲日韩高清无码| 99er精品视频| 久久一本精品久久久ー99| 色悠久久综合| 亚洲 欧美 日韩综合一区| www.99精品视频在线播放| 亚洲天堂久久| 国产福利微拍精品一区二区| 另类综合视频| 国产大片喷水在线在线视频| 成人无码一区二区三区视频在线观看| 国产91特黄特色A级毛片| 欧美成人亚洲综合精品欧美激情| 欧美有码在线| 欧美激情福利| 伊伊人成亚洲综合人网7777| 亚卅精品无码久久毛片乌克兰| 久久精品亚洲中文字幕乱码| 在线国产你懂的| 国产在线拍偷自揄拍精品| 国产女人水多毛片18| 国产精品人人做人人爽人人添| 99精品欧美一区| 久久精品国产精品青草app| 久一在线视频| 午夜国产精品视频黄| 直接黄91麻豆网站| 精品一区二区三区水蜜桃| 91精品视频在线播放| 青青青亚洲精品国产| 在线看片免费人成视久网下载| 亚洲天堂视频网| 日韩区欧美区| 视频二区中文无码| 毛片一级在线| 色婷婷成人| 国产精品短篇二区| 91无码视频在线观看| 久久天天躁狠狠躁夜夜躁| 怡红院美国分院一区二区| 9999在线视频| 国产人成乱码视频免费观看| 国产成人高清精品免费软件| 58av国产精品| 久久久久久午夜精品| 伊人成人在线| 欧洲亚洲欧美国产日本高清| 久久青青草原亚洲av无码| 国产精品午夜福利麻豆| 亚洲IV视频免费在线光看| 日韩 欧美 国产 精品 综合| 亚洲欧美日韩天堂| 日本妇乱子伦视频| 在线精品欧美日韩| 日本成人在线不卡视频| 特级aaaaaaaaa毛片免费视频| 欧美日韩91| 色噜噜中文网| 欧美中出一区二区| 好久久免费视频高清| 国产一级片网址| 亚洲永久精品ww47国产| 国产三区二区| 中文字幕久久亚洲一区| AⅤ色综合久久天堂AV色综合| 国产一级在线观看www色| 青草视频久久| 丁香五月婷婷激情基地| 影音先锋亚洲无码|