999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI不會斷句?

2020-09-08 06:25:24劉園園
科學(xué)導(dǎo)報 2020年49期
關(guān)鍵詞:句法模型

劉園園

人工智能經(jīng)常“看不懂”中文句子,讓人哭笑不得。在日前舉行的自然語言處理領(lǐng)域(NLP)頂級學(xué)術(shù)會議ACL 2020上,來自創(chuàng)新工場大灣區(qū)人工智能研究院的兩篇論文入選。這兩篇論文均聚焦自然語言處理中文分詞領(lǐng)域。

據(jù)研究人員介紹,分詞及詞性標注是中文自然語言處理的基本任務(wù),但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

基于此,兩篇論文各自提出了鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型和基于雙通道注意力機制的分詞及詞性標注模型,將外部知識(信息)融入分詞及詞性標注模型,剔除了分詞“噪音”誤導(dǎo),提升了分詞及詞性標注效果。

中文分詞主要面臨歧義和未登錄詞兩大難點

據(jù)介紹,中文分詞的目的是在中文的字序列中插入分隔符,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”。

創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長宋彥分析,中文語言因其特殊性,在分詞時面臨著兩個普遍的主要難點。

一是歧義問題,由于中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水平”,其正確的切分應(yīng)為“部分/居民/生活/水平”,但存在“分居”“民生”等歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓(xùn)練的過程中沒有遇見過的詞。這類問題在跨領(lǐng)域分詞任務(wù)中尤其明顯。宋彥介紹,這些未登錄詞,會非常影響分詞和詞性標注模型和系統(tǒng)的性能。

利用記憶神經(jīng)網(wǎng)絡(luò)提升中文分詞性能

對此,其中一篇論文提出了基于鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型。

宋彥介紹,該模型利用n元組(即一個由連續(xù)n個字組成的序列,比如“居民”是一個2元組,“生活水平”是一個4元組)提供的每個字的構(gòu)詞能力,通過加(降)權(quán)重實現(xiàn)特定語境下的歧義消解。并通過非監(jiān)督方法構(gòu)建詞表,實現(xiàn)對特定領(lǐng)域的未標注文本的利用,進而提升對未登錄詞的識別。

把可能成詞的組合全部找到以后,加入到該分詞模型中。然后通過神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)哪些詞對于最后完整表達句意的幫助更大,進而分配不同的權(quán)重。例如,在“部分居民生活水平”這句話中,“部分”“居民”“生活”“水平”這些詞會被突出,而“分居”“民生”會被降權(quán)處理,從而預(yù)測出正確的結(jié)果。

據(jù)介紹,為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領(lǐng)域?qū)嶒灐!拔覀冊?個經(jīng)常使用的標準中文分詞數(shù)據(jù)集(MSR、PKU、AS、CityU、CTB6)上面,都達到了最好的效果,在這五個數(shù)據(jù)集上的分數(shù)都刷到了歷史新高。”宋彥說。

雙通道注意力機制剔除“噪音”誤導(dǎo)

第二篇論文則提出了一種基于雙通道注意力機制的分詞及詞性標注模型。

據(jù)介紹,中文分詞和詞性標注是兩個不同的任務(wù)。詞性標注是在已經(jīng)切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對后續(xù)的句子理解有重要的作用。

“‘他馬上功夫很好這句話,在使用外部的句法知識的時候,可能會存在‘馬上這個詞被分錯的情況。正確的結(jié)果應(yīng)該是‘馬和‘上分開,但是這兒如果被分成一個詞,就會被識別為一個副詞。”宋彥舉例說。

研究人員介紹,針對這一問題,該論文提出的模型將中文分詞和詞性標注視作聯(lián)合任務(wù),可一體化完成。模型分別對自動獲取的上下文特征和句法知識加權(quán),預(yù)測每個字的分詞和詞性標簽,不同的上下文特征和句法知識在各自所屬的注意力通道內(nèi)進行比較、加權(quán),從而識別特定語境下不同上下文特征和句法知識的貢獻。

為了測試該模型的性能,論文在一般領(lǐng)域和跨領(lǐng)域分別進行了實驗。宋彥介紹,一般領(lǐng)域?qū)嶒灲Y(jié)果顯示,該模型在5個數(shù)據(jù)集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(xiàn)(F值)均超過前人的工作。

猜你喜歡
句法模型
一半模型
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
3D打印中的模型分割與打包
疑問詞“怎么”句法功能的演變及其動因
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲天堂视频网站| 99视频在线免费观看| 88av在线| 国产成人1024精品| 狠狠亚洲婷婷综合色香| 国产成人1024精品| 毛片最新网址| 久久频这里精品99香蕉久网址| 精品一区二区三区自慰喷水| 精品少妇人妻一区二区| 国产又粗又爽视频| AV天堂资源福利在线观看| 亚洲欧美在线综合一区二区三区| 欧美成人日韩| 伊人AV天堂| 成人在线亚洲| 精品久久香蕉国产线看观看gif| 国产av无码日韩av无码网站| 久热中文字幕在线| 伊人久久大香线蕉影院| 久久国产热| 中文国产成人久久精品小说| 精品福利视频网| 色呦呦手机在线精品| 制服丝袜无码每日更新| 亚洲精品人成网线在线| 国产91精品久久| 亚洲日本www| 综合天天色| 91精品专区| 乱人伦中文视频在线观看免费| 天天综合天天综合| 亚洲国产成熟视频在线多多| 国产精品第一区在线观看| 亚洲三级色| 激情综合网址| 国产黑丝一区| 成人无码一区二区三区视频在线观看 | 亚洲天堂啪啪| 亚洲无码视频一区二区三区| 欧美www在线观看| 免费一级成人毛片| 中文字幕色在线| 成年女人a毛片免费视频| 国产高清无码麻豆精品| 国产精品免费p区| 无码国内精品人妻少妇蜜桃视频| 粉嫩国产白浆在线观看| 日韩欧美国产成人| 国产黄色片在线看| 亚洲高清日韩heyzo| 丁香婷婷综合激情| 国产午夜一级淫片| 乱系列中文字幕在线视频| 97久久精品人人| 久久黄色一级视频| 亚洲无码一区在线观看| 欧美中文字幕一区| 色悠久久综合| 亚洲av色吊丝无码| 国产福利在线免费观看| 91久久夜色精品| 亚洲成人高清无码| 黄色网站不卡无码| 国产成人一区免费观看| 久久免费视频播放| 巨熟乳波霸若妻中文观看免费| 91视频区| 亚洲手机在线| 亚洲色精品国产一区二区三区| 亚洲视频无码| 九九热视频在线免费观看| www亚洲精品| 九九免费观看全部免费视频| 不卡无码h在线观看| 日韩第一页在线| 欧美啪啪网| 欧美激情视频二区| 成人久久精品一区二区三区| 国产乱人伦精品一区二区| 丰满人妻久久中文字幕| 波多野结衣在线se|