999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不同自然語言的信息處理方法差異概述

2022-04-29 09:38:33尕藏才讓
計算機應用文摘 2022年3期
關鍵詞:規則

尕藏才讓

關鍵詞:NLP文本檢查藏文文法

計算機時代的到來開啟了自然語言的自動處理先河。早在二戰時期,就有美國數學家沃倫·韋弗指出“德語只是用密碼寫成的英語而已”。他在戰后構想的機器翻譯概念直接啟發和推動了冷戰時期以英俄語翻譯為主的機器翻譯。自然語言處理從最初的基于規則的方法,到今天的基于深度學習的方法,技術得到了革命性變革。如今,NLP技術水平已不同往日,除了機器翻譯,其還被廣泛應用在輿情檢測、自動摘要、文本分類、語音識別、智能問答和人工智能等眾多領域。

由于互聯網首先在英語國家發展成型,所有在現階段的英語處理水平基本上代表著國際最頂尖的NLP技術水平1)因為各個自然語言的文法規則有差別,導致各個語種之間的處理技術有一定的差異性,在進行跨語種的NLP技術的研究時,只能進行淺層次的借鑒,而不能完全搬抄。甚至同語言不同方言的NLP技術都需要設計和采用不同的算法程序。本文以研究者較為熟練的藏漢兩種文字為例,從文本檢查的角度簡要概述不同語言間,由不同的語言特性所帶來的NLP技術差異。

1漢藏NLP技術發展回顧

1.1漢文的NLP技術發展

漢文是不同于英文的表意字,在語法上與大部分拼音文字有巨大差別。恰如語言學家王力先生所言:“就句子的結構而言,西洋語言是法治的,中國語言是人治的”。漢文的原始信息化處理開拓極其艱難,早期計算機和互聯網在國內的大范圍推廣應用直接受制于“計算機漢化”工作進度,這也是漢文字信息化處理工作要攻克的第一個難關;1974年,經有關部門批準將748工程納入國家科技發展計劃,標志著漢文字NLP技術攻關在國家層面得到了重視,其成果引發了印刷業的改革。其中,748工程又細分為精密中文編輯排版系統、中文情報檢索系統、中文通信系統,三者直接為“計算機漢化”和中文互聯網生態的形成打下了堅實的基礎。發展至今,“計算機漢化”問題已基本解決,漢文NLP則更注重于“漢文計算機化”,即通過計算機來處理漢文,輔助甚至代替人類進行翻譯、語言識別控制、情緒識別等。

相較其他自然語言,漢文NLP水平已走在世界前列,出現了一批優秀的科研機構和科技企業,如清華大學、哈爾濱工業大學、科大訊飛、百度等。通過與知識圖譜的結合,可廣泛運用于教育、醫療、養老、旅游等領域。此外,因漢文字所固有的語法復雜、結構不穩定等特性,使漢文字的NLP技術發展遇到了瓶頸,影響了整個技術的發展速度。但這幾年隨著深度學習和大規模語料庫的加持,又使該技術得到了新的發展契機(見圖1)。

1.2藏文的NLP發展回顧

藏文是參考古印度梵文編制的拼音文字[1],其基本由30個輔音1)和4個元音2)組成,有相對穩定和嚴格的文法體系,但又有別于西方流行的拉丁、日耳曼和斯拉夫等語系的左右橫向拼音排列,還具有從上到下的縱向疊加,對NLP技術的算法提出了更高的要求。20世紀80年代,改革開放,百業初興。在國內外的NLP技術大發展的背景下,藏文NLP技術研究工作也開始起步[2]———最早見于報道的是張連生于1981年用計算機進行的藏文詞匯排序工作,并于1983年采用李方桂先生提出的藏文羅馬轉寫方案,實現了藏文最初的處理系統,包括俞樂等人于1984年在VICTOR9000上設計的藏文處理系統和西北民族大學在WANGVS/80上實現的藏文字處理系統等。但上述藏文字處理系統缺乏宏觀層面的協調和國家統一標準的制訂,呈現了“各自為政,相互不通”的情況,嚴重制約了整個藏文信息處理研究的進一步發展。不過,1997年7月這種情況迎來了轉機———我國多部門、多地方、多高校聯合制訂的《信息技術交換用藏文編碼字符集基本集》通過第33屆SC2/WG2會議,藏文成為我國繼漢文后第二個進入國際ISO/IEC10646標準編碼體系的文字。此項標準的制定也正式打開了古老的藏文通向新時代的大門。這前后出現的蘭海藏文系統、TCE藏漢英文信息處理系統、北大方正藏文處理系統都呈現了高標準化的現象。此后,藏文NLP計算的研究對象越發廣泛,典型的有字詞頻統計、語料庫建設、自動分詞、機器翻譯、字詞校對、文本識別等。

隨著相關領域的國家和省級重點實驗室在西藏大學、青海師范大學等藏區高校落地,加快促進了以計算語言學為核心的藏文信息處理技術的研究和各層次人才的培養,使藏文信息化處理掀起了一個前所未有的發展熱潮。2016年8月,云藏搜索引擎在青海省海南藏族自治州正式上線(見圖2),代表著藏文互聯網和藏文處理技術形成了規模龐大的產業群。為該領域的產研結合、產教結合開辟了先河。

2漢文與藏文NPL技術在文本檢查方法中的差異概述

從語言學的骨架語法角度來看,漢文屬于獨特的“孤立語”,其表義轉變主要依賴虛詞和詞序的變化。如“水溫”和“溫水”具有根本詞義上的區別,但因字之間相互孤立,無所謂字詞的錯誤,而是根據用詞環境來界定。而藏文恰恰不同,其語法和表達方式帶有很強的“黏著語”的特點。即根據詞根的后綴或內部(即藏文的一個字節,以隔音符來界定)的變化實現語義的轉變,如“”和“”僅一個元音字母()之差帶來了語義的轉變[3]。本文將以漢文和藏文各自的語法差異為出發點,從自然語言文本處理的四個層面;字、詞、句(上下文無關)、篇(上下文有關),試述兩種文字NLP技術的具體差異。

2.1字層面的拼寫檢查方法差異

字的處理是進行自然語言文本處理的第一步和基礎。因漢文字本身的語法特點,在這層面只需通過統一編碼的漢字庫,就可以杜絕錯別字(即不存在的別字)的出現。現行的漢字顯示大都由基于Unicode編碼的漢文字機內碼、交換碼、輸入碼、點陣碼、點陣圖來實現,形成了龐大的具有6萬余字的字庫,編碼標準號為;GB2312?80。在此不做贅述。

不過,藏文字層面的檢查和糾錯機制則更為復雜[4],藏文由常用的30個輔音字母和10個非常用的輔音字母1)以及“”“”“”“”四種元音字符組成。而30個常用輔音字符中有分別分出10個后加字、5個前加字、2個再(后)加字、3個上加字、4個下加字。一個音節除了由40個常用和非常用輔音字母擔任基字外,還可以在基字上添加上、下、前、后、再加字以及元音字母。如果在拼寫環節不對語法規則進行限制,以現有的himalaya藏文輸入法為例,在限制字長為7的前提下,能輸入48000組不同音節字符串,但實際符合藏文音節2)拼寫規則的只有8000多組,盲打錯誤率高達83%。所以,要采用一定的算法規則,去規避和糾正不符合語法的錯誤音節的輸出。

下文將簡單介紹三種較為可行的方法:一是利用形式語言與自動機理論,構造識別藏文字的有限狀態自動機,將藏文字作為有限自動機進行輸入,能夠被自動機識別的藏文字的拼寫則是正確的,否則可能是錯誤的。此方法由西藏大學尼瑪扎西教授提出;二是對已輸入或正在輸入的藏文字按部件進行分解和分析,并在語法上進行規范,從而實現錯別字的過濾。此辦法由青海民族大學安見才讓教授提出;三是使用向量模型取值設限去實現音節內的拼寫檢查,參照藏文語法,把藏文中七個部件抽象成向量元素,并以元素數量設值,再用語法細則制定規則,從而制作向量模型,并將其與向量模型對照映射就可檢查該音節藏文字符語法的真值結果。此外,還有基于知識庫和產生式推理等處理方法,在此不做贅述。

如今,藏文字層面的拼寫檢查理論研究趨于成熟,更多的研究應該側重于實用化。以上部分的藏文語法以《字性組織法》理論為重點3)。

2.2詞層面的檢查方法差異

不管是孤立語還是屈折語和黏著語,到詞層面都需要參照相應的語法進行書寫檢查和糾錯處理,藏漢文字亦如此。此外,藏漢文字有個不同于西方英、法、西等語言的顯著特點———詞與詞之間沒有分隔符。所以,分詞系統的設計在藏漢兩種語言的NPL技術中都同樣重要,是詞法分析的基礎性工作。

在深度學習之前,詞層面的處理不外乎基于語言學知識的規則約束和基于大規模語料庫的統計匹配。雖然藏漢兩種文字在這個層面的處理方式差異已經變小,但因各自語法的特點,也還有一定的差異。

藏文詞層面的處理偏向于語法規則的約束,此方法相較建設成本高昂的語料庫而言,有成本低、算法穩定等優點。但其對前期的語法規則知識歸納和算法設計要求較高。此外,隨著處理對象的變化,如譯詞、新專用詞以及未登錄詞等的出現,必然會導致誤判情況發生。同時,在區別近義詞和歧義詞的差別上不靈敏、細粒度不夠,往往需要語料庫的加持。現流行的一部分Android藏文輸入法帶有一定的聯想匹配功能,亦是在遵循上述原則上拓展實現的。

漢文詞層面的處理則偏重于語料庫,通過細化和擴展語料,特別是分詞和標記等基礎工作,準備大容量的熟詞語料庫,加上詞表庫和每個詞運用環境正確,再借助統計和匹配以判斷檢查對象詞的用法正確。到現在,隨著深度學習的使用以及預訓練模型等的成熟運用,傳統的語料運用和建設變得更為簡單。

2.3句子層面的檢查方法差異

句子層面自然語言處理比以上兩個層次更復雜、更抽象,而藏漢兩種文字的處理方法也進一步趨同[5],但還是有一定的差別———比如,藏文在句法層面的處理就要考慮語法規則《三十頌》,而漢文字更注重考慮詞序和虛詞等語句構件的結構和排序。較為常見的方法體系有:短語結構句法體系和依存結構句法體系[6]。簡單舉例如“我在拉薩八廓街。”,按依賴關系標記并寫成樹狀圖(如圖3所示)。

依存結構句法體系所運用的表示形式簡單且可讀性強,方便設計算法。但不同語種都有各自的語法特色,所以剖析依賴關系時需要注意———比如,漢文字中的把字句、被字句;藏文字中的各類格詞和其他非自主副詞(在藏文字節之間,其表義和書寫要遵循三十頌語法體系。其中,以格屬詞、格動詞為主的非自主副在與前詞或整個語境結合時,要嚴格遵循跨音節的拼寫規則)的作用和使用規則,以免細微的差異帶來整體語句的變化,導致處理無效或錯誤。可以說,藏語句義分析技術現階段還未成熟[7]。

2.4語義層面的檢查

語義層面的處理除了要檢查語法層面的真偽問題,還要結合上下文,即上下文有關文法;在語法正確的前提下,判斷整個篇章的語義統一性和邏輯連貫性。該層次的實現對算法要求極高,無法通過簡單的規則推理和簡單的語料庫匹配來完成,更多地需要借助人工智能的訓練和學習來實現。如清華大學楊植麟團隊就在近期提出一種不需要預訓練模型的學習框架,并以此延伸出任務驅動的語言模型,使訓練模型能夠準確地認識語句中的細微差別,能明顯提高計算機的篇章級語言文字處理水平。以研究者角度來看,經過字、詞、句層面,到這一環節漢藏文字處理方法基本一致[8~10],可相互借鑒使用。

3結語

除了程序員,計算機和人類之間大部分的交流無外乎通過各種各樣的自然語言來實現。而計算機作為當今不可或缺的生活、辦公、學習工具,提升其對自然語言的識別和處理能力,不但可以提升某種工具的價值,更能使人類實現自我提升、自我解放。以研究者身邊的計算機和網絡環境為例,除了常用的漢文字外,還有一定的藏文數字信息存在,所以需要對這兩種文字NLP技術的發展予以關注。此外,在很多領域都有這樣的現象,如從事西方某國文字或歷史的專業研究,但不懂該國的語言文字,從而不能掌握一手資料,只能人云亦云,終究只能困守在一定的學術高度而不能出眾。在自然語言處理領域更是如此,進行跨語種NLP技術鉆研的時候,第一步就應該學習、掌握目標語言的語法規則和運用環境,而非脫離現實,翻閱二手資料,先入為主。這樣,即使自身擁有較高的計算機水平,往往也因語法知識的局限而亦趨亦步,而不能向前。

跨語種的信息化處理的第一步應該從目標語言的語法知識開始。總之,不管是哪種文字,除了語法上的差別導致處理過程有一定的差異外,目標都是一致的,就是能讓計算機咬文嚼字、又出口成章、代行百事,讓我們為這個目標持續奮斗[11]。

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 国产成人精品免费视频大全五级| 免费一级毛片在线播放傲雪网| 亚洲一区二区三区国产精华液| 国产日本一线在线观看免费| 国产欧美视频综合二区| 国产精品一区二区在线播放| 国精品91人妻无码一区二区三区| 在线毛片网站| 在线欧美日韩| 亚洲国产成人久久77| 免费人成视网站在线不卡 | 色视频国产| 国产区免费| 国产精品亚洲欧美日韩久久| 欧美午夜理伦三级在线观看 | 国产成人精品2021欧美日韩| 国产精品亚洲五月天高清| 日韩在线2020专区| 久久永久精品免费视频| 四虎精品黑人视频| 重口调教一区二区视频| 国产精品无码翘臀在线看纯欲| 亚洲一区第一页| 人妻21p大胆| 99久久精品免费视频| 国产精品乱偷免费视频| 亚洲中文字幕无码爆乳| 欧美 国产 人人视频| 2024av在线无码中文最新| 四虎国产精品永久一区| 91久久性奴调教国产免费| 欧美激情视频在线观看一区| 欧美日韩国产在线观看一区二区三区| 先锋资源久久| 激情無極限的亚洲一区免费| 亚洲国产欧美国产综合久久| 伊人久久大香线蕉影院| 亚洲精选无码久久久| 四虎永久免费在线| 久久青草免费91观看| 国产在线精品网址你懂的| 欧美在线中文字幕| 欧美成人午夜在线全部免费| www.av男人.com| 国产日韩精品欧美一区喷| 久久久久久久久18禁秘| 久久久噜噜噜| 一级福利视频| 国产精品第页| 亚洲人成网线在线播放va| 国内99精品激情视频精品| 久久五月视频| 91精品国产福利| 日韩欧美中文亚洲高清在线| 国产SUV精品一区二区6| 日韩a在线观看免费观看| 四虎在线观看视频高清无码| 91精品专区| 亚洲高清在线天堂精品| 亚国产欧美在线人成| 日韩123欧美字幕| 午夜免费小视频| 日本不卡视频在线| 国产区人妖精品人妖精品视频| 亚洲欧美日韩中文字幕在线一区| 日韩av电影一区二区三区四区| 中文字幕无码中文字幕有码在线| 在线视频一区二区三区不卡| 国产无吗一区二区三区在线欢| 国产一区二区三区日韩精品 | 日韩a级片视频| 一区二区午夜| 草逼视频国产| 乱人伦99久久| 99999久久久久久亚洲| 日韩视频精品在线| 四虎精品国产永久在线观看| 亚洲欧美综合在线观看| 欧美日韩成人在线观看| 国产精品视频999| 扒开粉嫩的小缝隙喷白浆视频| 她的性爱视频|