999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的語境特征對must語義排歧影響研究

2020-06-22 13:15:56于建平付繼林白塔娜
軟件導刊 2020年5期

于建平 付繼林 白塔娜

摘 要:英語情態動詞的一詞多義給自然語言處理帶來了很大困難。情態動詞語義對語境很敏感,發現影響情態動詞語義的主要語境因素對情態動詞特征選擇、機器翻譯等都十分重要。因此,采用神經網絡技術對英語情態動詞進行語義排歧,并確定不同語境特征對語義排歧結果的影響。基于一個100萬字的語料庫,以英語情態動詞must為例,從語境中提取影響must語義的語義特征和句法特征,計算并確定這些特征向量值,建立可區分根情態與認識情態語義的BP神經網絡,排歧正確率達到94%。在此基礎上,通過實驗研究確定不同語境特征對情態動詞must語義排歧的影響程度等級。該研究結果為情態動詞語義排歧及情態動詞語義人工識別提供了重要依據。

關鍵詞:神經網絡;英語情態動詞;語義排歧;語境特征

DOI:10. 11907/rjdk. 191918 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)005-0033-04

0 引言

多數英語情態動詞都具有一詞多義、內涵與外延模糊、語義不確定等特性,所以英語情態動詞語義排歧無論在人機語言交流還是自然語言處理中都是一個重要且棘手的問題。以往關于情態動詞的研究主要側重于對情態動詞語義與句法特征及其功能的描述[1-3]。自然語言處理主要側重于實義動詞、名詞語義理解與排歧技術及方法研究[4-10]。由于情態動詞語義的復雜性,目前針對情態動詞語義排歧的研究很少,針對不同語境特征對情態動詞語義及其排歧影響的研究更少。然而,這些研究無論對語言學還是自然語言處理都具有十分重要的意義。神經網絡是由大量簡單處理單元廣泛地相互連接而形成的復雜網絡系統,其反映了人腦功能的許多基本特征,是一個高度復雜的非線性動力學系統。神經網絡具有大規模并行、分布式存儲與處理等特點,以及自組織、自適應與自學習能力,特別適合處理需要同時考慮許多因素和條件、不精確與模糊的信息處理問題[11],已應用于模式識別、文本分類和知識發現等多個領域[12-19]。神經網絡也很適合于研究情態動詞的語義排歧問題。

本文以情態動詞must為例,基于100萬詞的語料庫建立情態動詞語義排歧神經網絡模型,并在此基礎上研究不同語境特征對排歧效果的影響,旨在確定情態動詞在具有不同語義時的語境特征結構,揭示不同語境特征對英語情態動詞語義的影響程度,為情態動詞語義排歧神經網絡設計提供重要的特征選擇依據,從而提高語義排歧正確率,并為英語情態動詞語義識別提供依據。

1 英語情態動詞must語義劃分

著名情態語義學家Coates[3]把情態動詞must的語義劃分為:根情態語義(root meaning)和認識情態語義(epistemic meaning)。根情態語義包括表達責任(obligation)的語義和表達義務(necessity)的語義,Coates對must情態語義劃分見圖1。

本文采用以上語義劃分方法,開展針對must根情態語義和認識情態語義的語義排歧與知識發現研究。

2 must語義排歧

2.1 語境特征提取

基于一個100萬字的英語語料庫,采用神經網絡對must進行語義排歧。首先將語料庫平均分為兩個,一個作為訓練語料庫,另一個作為檢驗語料庫;然后,按照以上語義劃分對兩個語料庫中的must進行標注,分別從兩個語料庫中提取50個樣本例句,構成訓練集與檢驗集;之后確定樣本例句的語境特征,包括語義特征和句法特征。語義特征由主語與must的互信息以及must與其后動詞的互信息構成,句法特征由與must共現頻率較高的句法形式構成。提取的語境特征包括:

(1)語義特征:①主語與根情態must1的互信息;②主語與認識情態must2的互信息;③根情態must1與謂語動詞的互信息;④認識情態must2與謂語動詞的互信息。

(2)句法特征:①否定式;②被動語態;③謂語動詞為施事動詞;④主語有生命性;⑤must+完成體;⑥must+靜態動詞。

2.2 語境特征向量化處理

為了使提取的10個語境特征能夠在神經網絡中運行,需要將語境特征變成矢量。首先,對①-④的語義特征計算互信息,計算公式如下[9]:

2.3 BP神經網絡設計

由于訓練集與檢驗集樣本均為50個,輸入向量為10維,vi (i = 1,2,…10),所以網絡輸入為一個50×10維的矩陣。對于隱層神經元個數,經過反復實驗發現,隱層為9個神經元時,網絡實現的精度和正確率最高,分別為1.760 95×10-8和94%,因此確定隱層神經元數量為9個。傳遞函數為tansig,輸出層是單個神經元o,傳遞函數是線性的purelin,訓練函數選取trainlm,訓練精度設為le-006。該神經網絡結構見圖2。

將表1中訓練集和檢驗集的向量輸入神經網絡。同時,對網絡輸出結果進行歸一化處理,即輸出結果在(-0.5,0.5)之間時,取0代表認識情態must;輸出結果在(0.5,1.5)之間時,取1代表根情態must。在Matlab 7.0環境下運行所建立的BP神經網絡,對其進行訓練與檢驗,結果如圖3-圖4所示。其中,“*”為目標值,“+”為輸出結果,二者重合為正確排歧,否則為錯誤排歧。由圖3可以看出,在訓練17步以后,神經網絡達到設定精度10-6。由圖4可以看出,該網絡排歧只出現了3個錯誤,排歧正確率達到94%。

3 不同語境特征對情態動詞must語義排歧的影響

3.1 實驗

為了解不同語境特征對must語義排歧的影響程度,采用訓練好的神經網絡進行實驗。每次從神經網絡訓練集矩陣與檢驗集矩陣中分別刪除同一個特征向量,然后在Matlab7.0環境下運行BP神經網絡,觀察排歧結果變化程度,從而得知該特征對must語義排歧的影響程度。依次進行10次實驗,實驗結果見表2。

3.2 實驗結果分析

從表3實驗結果可以看出,當忽略認識情態must與謂語動詞的互信息時,排歧正確率最低,說明“認識情態must與謂語動詞的互信息”特征對must語義排歧影響最大。其次是“must +靜態動詞”,再次是“否定式”和“被動語態”特征。雖然忽略“否定式”和“被動語態”特征時都出現了8個錯誤,網絡精度都為10-7,但忽略“被動語態”因素時,訓練神經網絡使用了更多步數,所以“被動語態”相比“否定式”對must的情態語義影響更大。以同樣方法可以確定不同語境特征對must情態語義的影響由大到小排序為:認識情態must與謂語動詞的互信息>must+靜態動詞>被動語態>否定式>根情態must與謂語動詞的互信息>主語有生命性>主語與根情態must的互信息>施事謂語動詞>主語與認識情態must的互信息>must+完成體。

比較表3中的數據可以發現,認識情態must與謂語動詞的互信息、must+靜態動詞、主語有生命性主要影響must的根情態語義,其它特征主要影響must的認識情態語義。

下面從整體上研究不同語境特征對must情態語義排歧的影響。本文進行如下實驗:①把主語與根情態must互信息以及主語與認識情態must互信息看作主語與must互的信息。在神經網絡輸入矢量中同時刪除這兩個矢量,然后運行神經網絡,觀察主語對must語義排歧的影響;②把根情態must與謂語動詞的互信息和認識情態must與謂語動詞的互信息看作must與謂語動詞的互信息,同時刪除這兩個矢量,再運行神經網絡,觀察謂語動詞對must語義排歧的影響;③同時刪除6個句法特征,然后運行神經網絡,觀察全體句法特征對語義排歧的影響;④同時刪除4個語義互信息特征,然后運行神經網絡,觀察全體語義特征對語義排歧的影響。實驗結果見表3。

從表3可以看出,忽略must與謂語的互信息后,網絡精度僅為10-2,無法達到設定精度(10-6),而且排歧正確率明顯下降(58%),說明must與謂語動詞的互信息對must的情態語義排歧影響很大。原因主要在于認識情態must與謂語動詞的互信息對must語義排歧影響較大。相比之下,忽略主語與must的互信息對must語義排歧影響較小。從總體上看,謂語動詞對must語義排歧的影響遠大于主語對其的影響。從表3還可以看出,忽略所有句法特征后,排歧正確率有所下降,但下降幅度不大。但忽略所有語義互信息特征后,網絡無法達到所要求的精度,僅為10-2,說明對其影響很大。該結果說明語義特征相比句法特征對must語義排歧的影響大得多,所以在情態動詞語義排歧中,既要考慮語義特征,又要考慮句法特征,以語義特征為主,句法特征為輔。

4 結語

本文所建立的用于英語情態動詞must語義排歧的神經網絡達到了94%的理想排歧正確率。基于該神經網絡進行的實驗結果表明,就單項語言特征而言,“認識情態must與謂語動詞的互信息”對must情態語義排歧影響最大,其次是“must +靜態動詞”。“被動語態”和“否定式”對must的情態語義影響也較大。“must+完成體”對must的語義排歧影響最小。就不同類別的語境特征而言,語義特征相比句法特征對must語義排歧的影響大得多。本文研究結果揭示了不同語境特征對must語義排歧的影響及影響程度,并對不同屬性特征的影響程度進行排序,為情態動詞語義排歧的特征選擇與神經網絡設計提供了重要依據,為自然語言處理中的情態動詞語義排歧研究和情態語義學研究提供了重要的理論與實踐依據。該方法也可應用于其它情態動詞的語義排歧研究。

參考文獻:

[1] PALMER F R. Mood and modality[M]. ?Cambridge: Cambridge University Press, 2001.

[2] SWEETSER E. From etymology to pragmatics: metaphorical and cultural aspects of semantic structure[M]. ?Cambridge: Cambridge University Press, 1990.

[3] COATES J. The semantics of the modal auxiliaries[M]. ?London: Routledge Press,1983.

[4] IDE N,VERONIS J. Word sense disambiguation: the state of the art[J]. ?Computational Linguistics, 1998,24 (1): 1-41.

[5] SEIFOLLAHI S, SHAJARI M. Word sense disambiguation application in sentiment analysis of news headlines: an applied approach to FOREX market prediction[J]. ?Journal of Intelligent Information System, 2019, 52(1):57-83.

[6] KRAWCZYK B, MCINNES B T. Local ensemble learning from imbalanced and noisy data for word sense disambiguation[J]. ?Pattern Recognition, 2018,78: 103-119.

[7] CORREA E A, LOPES A A, AMANCIO D R. Word sense disambiguation: a complex network approach[J]. ?Information Sciences, 2018,442: 103-113.

主站蜘蛛池模板: 国产在线视频导航| 亚洲成a人片在线观看88| 91精品啪在线观看国产| 亚洲欧美在线看片AI| 天天色天天操综合网| 亚洲三级色| 久久国产黑丝袜视频| 少妇精品久久久一区二区三区| 国产又粗又猛又爽| 67194亚洲无码| 国产成本人片免费a∨短片| 色综合久久久久8天国| 在线亚洲天堂| 午夜国产精品视频黄| 亚洲aaa视频| 亚洲综合精品香蕉久久网| 国产成人综合久久| 亚洲色婷婷一区二区| 亚欧乱色视频网站大全| 青草91视频免费观看| 欧美视频在线观看第一页| 国产精品hd在线播放| 久久一本精品久久久ー99| 亚洲国产黄色| 国产人成乱码视频免费观看| 99热国产这里只有精品9九| 国产成人高清精品免费软件| 免费观看无遮挡www的小视频| 亚洲欧美人成电影在线观看| 亚洲日韩国产精品无码专区| 亚洲中文无码av永久伊人| 激情综合网址| 日韩不卡高清视频| 亚洲AV无码久久天堂| 国产欧美日韩另类| 国产精鲁鲁网在线视频| 欧美精品影院| 亚洲Av激情网五月天| 中文字幕 日韩 欧美| 亚洲不卡影院| 中国丰满人妻无码束缚啪啪| 91精品在线视频观看| 久久精品视频一| 91成人在线观看视频| 日本道综合一本久久久88| 亚洲中文字幕久久精品无码一区| 欧美亚洲激情| 狼友视频一区二区三区| 香蕉eeww99国产在线观看| 999精品在线视频| 亚洲国产av无码综合原创国产| 青青草a国产免费观看| 国产成人1024精品下载| 亚洲日产2021三区在线| 国产成人无码综合亚洲日韩不卡| 一级毛片免费不卡在线视频| 在线看免费无码av天堂的| 亚洲综合色在线| 国产精品深爱在线| 亚洲AV成人一区二区三区AV| 99人妻碰碰碰久久久久禁片| 国产在线拍偷自揄拍精品| 国产白浆一区二区三区视频在线| 成人精品亚洲| 国产一区二区人大臿蕉香蕉| 狼友av永久网站免费观看| 亚洲一区国色天香| 青青网在线国产| 免费人欧美成又黄又爽的视频| 国产天天射| 亚洲成a人片77777在线播放| 国产精品区网红主播在线观看| 在线观看无码av免费不卡网站| 91 九色视频丝袜| 色国产视频| 老司国产精品视频| 久久人妻系列无码一区| 72种姿势欧美久久久大黄蕉| 国产精品xxx| 国产成人精品亚洲日本对白优播| 日韩国产高清无码| 久久99蜜桃精品久久久久小说|