999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然語言處理的技術和產業應用現狀與趨勢分析

2019-03-19 12:10:24葛運東陳洪梅姚建民
產業與科技論壇 2019年17期
關鍵詞:語義文本分析

□葛運東 陳洪梅 姚建民

本文分析了自然語言處理的基礎技術、基本應用,并依據技術覆蓋面和深度,選擇機器翻譯為例,從主流翻譯系統存在的不足,分析機器翻譯現狀和趨勢,進而反思自然語言處理產業應用的現狀和發展趨勢。

一、自然語言處理基礎技術

(一)分詞。分詞即將句子通過各種算法轉換成詞語串的過程。分詞的難點有命名實體識別、交叉歧義、未登錄詞識別、領域歧義、多源異構數據的融合及多種粒度分詞等。命名實體識別將文本中的實體按類標記出來,例如人名、公司名、地區、基因和蛋白質的名字等。

(二)詞性標注。詞性是詞匯基本的語法屬性。詞性標注就是確定給定句子中每個詞的詞性并加以標注的過程。詞性標注的難點在于歧義的消除,比如漢字“把”有介詞(“你能把他怎么樣?”)、量詞(“一把匕首”)、動詞(“把酒言歡”、“把門兒”)、名詞(“刀把兒”、“話把兒”)。

(三)句法分析。句法分析即確定句子語法結構,生成句子中詞匯之間的依存句法樹。句法分析是實現最終目標的關鍵環節。常見的句法分析有句法結構分析、依存關系分析等。以獲取整個句子的句法結構為目的的稱為完全句法分析,而以獲得局部成分為目的的語法分析稱為局部分析。通過依存句法分析,生成句子的依存句法樹,該句法樹描述詞語之間依存關系、搭配關系,搭配關系是語義相關聯。

(四)語義分析。語義分析即學習并理解文本蘊含的語義內容。依據不同的語言單位,語義分析可以分為詞匯級、句子級以及篇章級三種。詞匯級聚焦如何獲取詞語粒度的語義,句子級分析整個句子級文本表達的語義,篇章級分析文本的內在結構及文本單元間的相互語義關系。

(五)篇章分析。篇章分析即確定篇章結構、分析篇章特征。其中基本結構分析是篇章內部關系各種結構的分析,包含了功能、邏輯、指代、話題、事件等結構。篇章特征主要包含了意圖、可接受、信息、情景以及跨篇章等各方面的特征。

(六)自然語言生成。自然語言生成是指計算機根據一些關鍵信息并聯合機器表達形式,生成高質量的像人一樣寫作的自然語言文本內容的技術。常見的生成方法有基于規則的方法、基于知識檢索的方法以及基于深度學習的方法等。

二、自然語言處理的應用技術

自然語言處理一方面可以用于文本處理,服務于大數據應用,另一方面自身也有信息抽取、問答、機器寫作、對話、機器翻譯、閱讀理解等應用技術,可用于信息檢索、科技服務、人工智能、在線教育、醫療專家系統、金融分析等方方面面。

(一)信息抽取、知識圖譜構建。信息抽取即生成文本的結構化信息。結構化信息點從文本中抽取后以統一的形式集成起來。信息抽取不進行整篇文檔的全面理解,而是重點分析文本中包含相關信息的部分。

知識圖譜構建是自然語言研究領域的熱點,包含了實體識別、實體屬性識別、事件抽取、關系抽取、概念實例化及規則學習等。其中的主要任務包括知識的建模、圖譜構建、融合、推理計算以及賦能等。

(二)智能問答和智能寫作。智能問答涉及理解語言內涵、推敲問答的意圖、挖掘與問答貼切的相關知識,問答系統主要包含問答分類、分析、理解,答案的匹配、檢索、生成等功能。

智能寫作是指計算機利用算法和自然語言生成器撰寫文本的過程,比如新聞寫作,計算機利用人類專家預先設計好的算法模型快速搜尋與主題相關的信息,將其匯總到知識庫,再提煉有價值的信息,形成新聞報道。

(三)智能對話。智能對話分為開放域、封閉域兩種對話系統。該領域面臨上下文篇章建模、對話狀態轉移、領域知識建模等各種問題。智能對話是商用最廣泛的自然語言處理技術,應答機器人、智能音箱、客服機器人等在市場上大量涌現。

三、機器翻譯存在的問題分析和展望

機器翻譯是人工智能皇冠上的明珠,是自然語言處理領域所有關鍵技術的綜合應用,突出反映自然語言處理技術存在的不足和未來需要研發的方向。同聲傳譯系統已經在世界大會上引人注目的付諸應用,但就像百度吳華博士的觀點:要先解決語義理解,機器翻譯才可能取代人類。

根據翻譯實踐中的經驗,對機器翻譯常見問題的典型實例做了分析匯總,一方面揭示機器翻譯技術的不足,更探討自然語言處理技術面臨的問題。

(一)最合適的譯文不在詞典或語料中出現,需要在詞條譯文基礎上靈活編制。一些詞匯或短語譯文不能武斷拷貝或映射,要根據上下文搭配靈活應對。比如Make或Produce這類通用詞,生成譯文后要做適當修飾,符合目標語語感,如實例1。

實例1:universities were faced with significant pressure to produce innovative results……

詞典中動詞produce的譯文(vt.&vi.產生;生產;制作;創作;vt.制造;出示;引起;[經濟學]生利)并不適合本句的上下文搭配,需要根據其主語“universities”和賓語“results”,靈活翻譯為“研發”。produce這類詞的譯文非常靈活,依賴于搭配的主語和賓語,make、last等詞語也類似。

(二)詞典中譯文是解釋性的,實際譯文需要靈活調整。詞典中一些詞條的譯文是解釋性的,不適合機器翻譯直接用于目標譯文生成,需要根據上下文環境做靈活處理,不能靠詞典譯文拷貝。比如:

實例2:But the most important to a visually oriented species like human beings is ocular data.

實例2中,ocular(詞典譯文:adj.眼的;眼睛的;可以看見的;看得到的)翻譯成“眼數據”、“看得到的數據”都不恰當,翻譯為“視覺數據”更符合上下文語義環境。這涉及詞義選擇,也涉及習慣短語以及在理解源語言語義的基礎上對目標語詞匯和句子的組織。

(三)領域適應最終是個語義分析問題。領域適應通常根據詞匯同現信息建模,融合短上下文和長上下文。但根據以下實例可以判斷,簡單上下文統計仍然替代不了語義分析。

實例3:Because GPS signals are blocked inside of buildings and SLAM capable LADAR units are too heavy and/or expensive for most applications.

實例3中包含大量的電子領域術語,但application的譯文恰恰不能選擇電子領域常用的“應用程序”。這種不足可能是領域欠擬合,但領域過擬合也同樣會導致詞意選擇錯誤。句子上下文的微妙語義差別很難用簡單的詞頻等信息刻畫,需要引入更深層的語義信息。

(四)專名、縮略語消歧需要借助知識圖譜,簡單上下文解決不了。一些專名、縮略語消歧需要根據廣泛上下文,構建知識圖譜或關系網絡才能消除歧義,比如AP-NCC。

實例4:In an AP-NCC poll,44 percent of people supported the police using drones……

通過互聯網查詢,該AP-NCC的原文是Associated Press-National Constitution Center,而不是同樣形式的其它縮寫。這些專名或縮略語消歧已經完全不是翻譯問題,而是知識圖譜、關系網絡的建構或語義理解,往往需要非常詳細的知識圖譜及關系網絡等信息。

(五)翻譯是由多個分離過程組織的知識圖譜轉換。復雜句型需要理解源語言的每個子句,結合語法和語義分析,恰當調整子句順序和修飾關系,才能生成合理的譯文子句、整句。子句間的修飾關系往往涉及知識圖譜或者語義關系。

實例5:First and foremost,drones change the way that we see.

翻譯既涉及到子句的調序,更需要語義分析才能決定子句間的修飾關系或者具體詞匯的含義。翻譯不僅需要句法分析、依存分析,也包含前文提到的譯文選擇同樣的問題,是綜合性非常強的分析和生成過程。

四、結語

梳理了自然語言處理的基礎技術和應用技術,以影響廣泛、技術模塊復雜、實現難度最大的機器翻譯技術為例,分析了目前技術路線和實現方法存在的不足。

未來自然語言處理技術應該從如下領域深度研發:研究新的自然語言處理模型,進一步提高機器翻譯的理解能力。更細粒度更大規模的知識庫建設。更要從目標語語義出發,基于實例或語言模型對譯文進行修飾。自然語言處理和音頻、視頻等更多信息結合,多渠道、多媒體信息促進歧義消解,進一步提高自然語言處理的質量。

猜你喜歡
語義文本分析
隱蔽失效適航要求符合性驗證分析
語言與語義
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日韩欧美91| 欧美色综合网站| 亚洲精品成人7777在线观看| 九色在线视频导航91| 91青青草视频在线观看的| 亚洲 日韩 激情 无码 中出| 久久精品人人做人人综合试看| 麻豆精品在线视频| 国产av无码日韩av无码网站| 成人第一页| 人妻91无码色偷偷色噜噜噜| 狠狠ⅴ日韩v欧美v天堂| 少妇精品网站| 高清免费毛片| 热99re99首页精品亚洲五月天| a免费毛片在线播放| 中文字幕精品一区二区三区视频| 色综合中文字幕| 99re精彩视频| 午夜毛片免费观看视频 | 偷拍久久网| 色精品视频| 日韩精品一区二区三区大桥未久| 国内熟女少妇一线天| 国产在线视频欧美亚综合| 美女潮喷出白浆在线观看视频| 欧美日韩中文字幕二区三区| 九九热精品视频在线| 日本午夜精品一本在线观看| 特级做a爰片毛片免费69| 久久午夜夜伦鲁鲁片不卡| 国产农村精品一级毛片视频| 欧美97欧美综合色伦图| 国产国产人成免费视频77777| 国产拍揄自揄精品视频网站| 欧美中文字幕无线码视频| 国产精品久线在线观看| 国产精品蜜芽在线观看| 国产9191精品免费观看| 欧美在线一级片| 欧美午夜在线视频| 国产理论一区| 超碰免费91| 日韩免费毛片视频| 1769国产精品免费视频| 久久这里只有精品国产99| 国产资源免费观看| 无码一区二区三区视频在线播放| 亚洲欧美日韩视频一区| 国产精品女熟高潮视频| 欧美啪啪一区| 欧美亚洲国产精品第一页| 无码'专区第一页| 亚洲最新网址| 人妻无码中文字幕第一区| 无码电影在线观看| 国产精品一老牛影视频| a级毛片免费播放| 亚洲精品亚洲人成在线| 国产成人综合网| 亚洲成a人片77777在线播放| 伊人成人在线| 精品偷拍一区二区| 亚洲国产中文欧美在线人成大黄瓜 | 2020亚洲精品无码| 久久久精品国产SM调教网站| 素人激情视频福利| 国产成人h在线观看网站站| 国产精品综合久久久| 99免费在线观看视频| 日韩av无码精品专区| 亚洲美女视频一区| 成人毛片免费在线观看| 在线播放真实国产乱子伦| 久久久久亚洲Av片无码观看| 国产AV无码专区亚洲精品网站| 国产视频自拍一区| 亚洲精品va| 国产精鲁鲁网在线视频| 日韩欧美国产另类| 99在线观看精品视频| 国产日韩欧美视频|