柴晨陽
摘要:自然語言處理中的一個重要內(nèi)容是機(jī)器翻譯,為了滿足人們?nèi)粘I钆c工作中的各種語言需求,自然語言處理技術(shù)經(jīng)過發(fā)展與不斷的改進(jìn),最后與機(jī)器語言相融合,在此基礎(chǔ)上對處理其他自然語言任務(wù)也發(fā)揮著重要的作用。本文首先闡述了自然處理的基本理念,隨后通過相關(guān)的案例說明如何運用自然語言處理在機(jī)器翻譯中發(fā)揮作用。做出對機(jī)器翻譯發(fā)展的預(yù)判,使得人們能夠更加深刻的理解自然語言與機(jī)器翻譯之間的聯(lián)系,為日后相關(guān)研究奠定基礎(chǔ)。
關(guān)鍵字:自然語言處理;機(jī)器翻譯;運用?中圖分類號:TU?文獻(xiàn)標(biāo)識碼:A?文章編號:(2021)-06-121
前言:自然語言作為一門較為冷門的學(xué)科,基于語言學(xué)、計算機(jī)、數(shù)學(xué)的發(fā)展而來,目前該學(xué)科與機(jī)器翻譯之間有著深刻的聯(lián)系,成為人工智能中需要迫切解決的重要問題之一,同時自然語言的發(fā)展奠定了基礎(chǔ),兩者之間的關(guān)系變得更加緊密。隨著社會時代的發(fā)展,機(jī)器翻譯的需求日益增大,在人工智能的發(fā)展壯大過程中,機(jī)器翻譯理論成為未來發(fā)展的重要方向。
一、自然語言處理概要
自然語言處理的概念
自然語言處理又稱作為計算語言學(xué),主要是以計算為基礎(chǔ)對自然語言進(jìn)行處理的學(xué)科。自然語言處理可以簡單理解成通過研究人類間的語言交流來發(fā)展到人與計算機(jī)交流中,通過對自然語言的處理,建立常見的語言模型。結(jié)合日常人與人的交流特征對語言框架不斷進(jìn)行優(yōu)化,同時在語言模型的基礎(chǔ)上,建立起完整的測評技術(shù)。
自然語言處理的過程
研究人員首先要總結(jié)人與人交流的語言習(xí)慣,將語言習(xí)慣轉(zhuǎn)變成語言搜集的問題。其次針對每一個語言問題,設(shè)計完整且系統(tǒng)的算法,然后根據(jù)算法來建立自然語言處理的模型。這種模型的建立需要不斷的測試與優(yōu)化,在處理過程中,應(yīng)當(dāng)深刻認(rèn)識到自然語言處理涉獵的范圍非常廣泛,包括心理學(xué)、計算機(jī)、統(tǒng)計學(xué)等多種學(xué)科。把握自然語言處理的過程,能夠更好的理解自然語言如何運用在機(jī)器翻譯中。
自然語言處理的主要內(nèi)容
自然語言處理包括的內(nèi)容廣泛,如對內(nèi)容進(jìn)行細(xì)化,則可以將自然語言處理分為:語言、詞匯、語義等幾個重要方面。隨著計算機(jī)語言的快速發(fā)展,為自然語言處理提供了豐富的基礎(chǔ),其中包括理論基礎(chǔ),語言資源以及技術(shù)經(jīng)驗。當(dāng)前計算機(jī)行業(yè)已將語音識別運用于日常服務(wù)中,例如在乘坐飛機(jī)或者在電話聯(lián)系物流客服時,計算機(jī)能夠識別人類語言,然后根據(jù)已經(jīng)建立的語言庫,對于常見問題進(jìn)行機(jī)器式的回復(fù)。實現(xiàn)了智能的語言處理功能。目前如何完成計算機(jī)翻譯問題,是研究自然語言處理最大的問題。
二、自然語言處理的研究方式
自然語言處理的研究方法
自然語言處理的重要基礎(chǔ)之一是提供強(qiáng)大的數(shù)據(jù)支持,由于自然語言處理的主要方式基于對數(shù)據(jù)庫進(jìn)行大量的統(tǒng)計,形成對文本處理的進(jìn)一步拆分和理解,數(shù)據(jù)庫的不斷擴(kuò)大依托于NLP應(yīng)用的不斷發(fā)展。自然語言處理流程主要包括五個關(guān)鍵性步驟,其一是獲取相關(guān)的預(yù)料、其二是對已經(jīng)獲取的物料進(jìn)行預(yù)處理,包括對結(jié)構(gòu)的拆分與詞匯的分析、其三是對物料進(jìn)行量化與特征化,使得物料其中的規(guī)律能夠被自然語言處理系統(tǒng)識別、其四是數(shù)據(jù)模型的反復(fù)驗證,其中包括人工監(jiān)督,半人工監(jiān)督和無人工監(jiān)督的學(xué)習(xí)模型,通過大量的數(shù)據(jù)練習(xí),來糾正自然語言處理過程中存在的一些問題、其五是對完善的數(shù)據(jù)模型效果進(jìn)行評價,常用的評價標(biāo)準(zhǔn)主要包括:準(zhǔn)確率、召回率等。
2.自然語言處理基礎(chǔ)研究之詞法分析
詞法分析的關(guān)鍵是對詞性的識別和詞義的解釋,主要流程是先對物料進(jìn)行分詞、其次對物料中詞的詞性進(jìn)行確認(rèn),最后識別詞的含義。詞性作為詞匯最重要的語法屬性,必須要根據(jù)具體的語境,能夠消除詞匯的歧義。其主要依托于分詞的準(zhǔn)確性,在對特殊的詞匯例如人名、專有詞匯的標(biāo)注。自然語言處理的詞法分析是通過已掌握的規(guī)則,基于龐大的數(shù)據(jù)不斷進(jìn)行統(tǒng)計與學(xué)習(xí)的方式,來完善自然語言處理能力。
3.自然語言處理基礎(chǔ)研究之句法分析
句法分析的主要目的是為了確定句子中每個詞匯之間的規(guī)律,研究句子的句法結(jié)構(gòu),能夠真正技術(shù)上實現(xiàn)對句子結(jié)構(gòu)關(guān)系的分析,對于具體的句法分析包括了完全句法分析和局部句法分析。完全的句法分析是根據(jù)現(xiàn)有數(shù)據(jù)模型中的分析方式來對句法進(jìn)行解析,而局部分析僅需要對簡單的詞法進(jìn)行分析。
4.自然語言處理基礎(chǔ)研究之語義分析
語義的分析基于不同的語言單位,在語義處理中,必須先對此進(jìn)行詞義消除歧義,以及對特殊意義的詞匯進(jìn)行標(biāo)注。語義分析作為NLP發(fā)展的重要方向,還在不斷的研究與完善中發(fā)展。
5.自然語言處理基礎(chǔ)研究之語用分析
語用分析需要將文本中的文字描述與實際真實含義相對應(yīng),形成表意結(jié)果。發(fā)話者、受話者、話語內(nèi)容與語境是語法分析的重要因素,發(fā)話者與受話者主要是指句子的發(fā)出者與接收者,而話語內(nèi)容是指發(fā)話者的具體表達(dá)的結(jié)構(gòu),語境代表著話語內(nèi)容傳遞過程中所處的環(huán)境。
三、機(jī)器語言及自然語言處理的發(fā)展策略
結(jié)合機(jī)器語言發(fā)展的歷程,我們可以感受到方法論與模型構(gòu)建的核心技術(shù)是機(jī)器翻譯取得進(jìn)步的動力來源,而其中提高進(jìn)步的“物質(zhì)基礎(chǔ)”主要是特殊的大數(shù)據(jù),即雙語語料庫。在機(jī)器翻譯取得矚目成果的同時不難發(fā)現(xiàn)其依舊存在較大的局限性,主要體現(xiàn)在由于經(jīng)濟(jì)市場互聯(lián)網(wǎng)公司的高速發(fā)展,其科研水平也具有較高的水平,使得高校的研究內(nèi)容競爭力下降的情況。主要是由于以下問題:其一基于通用的計算裝置的內(nèi)容,在通常情況下,神經(jīng)機(jī)器翻譯模型在帶有attention機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)中運行。通俗來說,機(jī)器翻譯中的源語言內(nèi)容構(gòu)成了序列對,而這個模型也是集中研究序列對。其次神經(jīng)機(jī)器翻譯模型的性能在一定程度上取決于雙語語料庫的大小,高校受限于工程的能力與條件,其獲得數(shù)據(jù)庫的能力將會遜色于互聯(lián)網(wǎng)公司。最后設(shè)計并訓(xùn)練神經(jīng)機(jī)器翻譯模型需要以高強(qiáng)度的計算能力為基礎(chǔ),進(jìn)行不斷的摸索與實驗,才能真正得出相關(guān)的數(shù)據(jù),而高效的計算能力有效且相關(guān)實驗手段與環(huán)境較差,相關(guān)烈度試驗在實施過程中難度較大。由此可以得出相關(guān)結(jié)論,高校對于神經(jīng)機(jī)器機(jī)器翻譯的研究在各種基礎(chǔ)條件的限定下,其研究成果難以超過大型的互聯(lián)網(wǎng)公司,其次互聯(lián)網(wǎng)公司在人才方面也將比高校更具有優(yōu)勢,由于其較高的薪水與足夠的研發(fā)費用,使得高校在大數(shù)據(jù)模型的計算能力與分析能力上處于劣勢。國家應(yīng)當(dāng)就目前的狀況,對相關(guān)高校研究單位加大投入,才能使得機(jī)器翻譯能夠在未來的發(fā)展歷程中更加順利。國家需要從以下幾個方面入手,主要包括:其一是建立起國家級別的大規(guī)模學(xué)習(xí)計算平臺,通過規(guī)模龐大的計算平臺,能夠真正解決計算能力的局限。其二是建設(shè)國家級別的高水平豐富資料的雙語語料庫,語料庫也是開展機(jī)器翻譯研究的重要內(nèi)容之一。其三應(yīng)當(dāng)加強(qiáng)對于創(chuàng)新技術(shù)的鼓勵,設(shè)立相關(guān)獎項,鼓勵相關(guān)研究人員發(fā)揮主觀能動性更加積極的投入到機(jī)器翻譯研究過程中。最后應(yīng)當(dāng)對特點條件下的神經(jīng)機(jī)器翻譯模型進(jìn)行改進(jìn)設(shè)計,在面臨新的詞匯情況下,機(jī)器翻譯無法識別這些內(nèi)容,而數(shù)據(jù)庫已有的數(shù)據(jù)模型無法對新型的詞匯進(jìn)行識別,因而在研究設(shè)計過程中應(yīng)當(dāng)加強(qiáng)對機(jī)器翻譯模型的不斷更新,使其跟上時代快速發(fā)展的步伐才能做到真正為人類所用。但不斷對機(jī)器翻譯模型進(jìn)行創(chuàng)新也是對于研究人員來說面臨著巨大的挑戰(zhàn)。
四、自然語言處理在機(jī)器翻譯中的實際運用
1.機(jī)器學(xué)習(xí)
通過機(jī)器來學(xué)習(xí)獲取額外的語言知識是自然語言處理的一個重要特征。機(jī)器學(xué)習(xí)為研究計算提供的方式,簡單的闡述即是:通過計算機(jī)采集的大數(shù)據(jù)中得到模型的算法,然后讓系統(tǒng)學(xué)習(xí)算法,最后將新的數(shù)據(jù)傳遞給計算機(jī),在計算機(jī)中出現(xiàn)新的數(shù)據(jù)時,計算機(jī)可以根據(jù)現(xiàn)有的模型作出判斷,為人類節(jié)約了時間。總而言之,機(jī)器學(xué)習(xí)是為了提高效率,從而減少對大量數(shù)據(jù)的計算,最后基于大量數(shù)據(jù)的情況下建立模型,能夠科學(xué)為人類生活提供便利,并且在人類不斷使用與反饋中對模型不斷調(diào)整不斷完善,使得自然語言處理更加強(qiáng)大。
2.機(jī)器翻譯
機(jī)器翻譯是指在無人工的幫助下,將一種自然語言轉(zhuǎn)化成另一種自然語言。機(jī)器翻譯是自然語言處理研究課題中最主要的部分,其中的主要過程包括:數(shù)據(jù)的發(fā)掘、詞與字的分割、句法理解與分析等,機(jī)器翻譯是一項正在發(fā)展過程中的龐大工程。其中基于目前的翻譯方法可以將機(jī)器翻譯分為兩類:基于規(guī)則的機(jī)器翻譯方法和基于語言資料庫的機(jī)器翻譯方法。在機(jī)器翻譯中,在數(shù)據(jù)庫的基礎(chǔ)上進(jìn)行翻譯的話,需要龐大的數(shù)據(jù)訓(xùn)練庫來構(gòu)建訓(xùn)練模型。此外不同的數(shù)據(jù)類型將被優(yōu)化整合到對應(yīng)的數(shù)據(jù)模型,語言模型真正建立后,將會提高翻譯的質(zhì)量。
3.機(jī)器翻譯與人工翻譯的結(jié)合
機(jī)器翻譯作為人工翻譯的進(jìn)階版,能夠協(xié)助人工翻譯減少相關(guān)工作人員的工作量,且在日常生活中提供便利。但機(jī)器翻譯在某些方面有待完善,需要人工翻譯才能真正理解待翻譯內(nèi)容的含義。當(dāng)前情況下,應(yīng)當(dāng)將機(jī)器翻譯與人工翻譯相結(jié)合,并且對兩者做出不同的分工,將會大大體會到機(jī)器翻譯帶來的便利程度。在未來計算機(jī)技術(shù)的發(fā)展過程中,翻譯智能水平將會得到質(zhì)的飛越。但是目前情況下人工智能遠(yuǎn)不能獨立服務(wù)于人類,需要與人工翻譯結(jié)合才能發(fā)揮出最佳效益。
五、自然語言處理應(yīng)用與機(jī)器翻譯的研究趨勢
在目前來看,無論使用人工翻譯還是機(jī)器翻譯,翻譯的水準(zhǔn)與翻譯者的目標(biāo)差距較大,例如日常使用的谷歌翻譯、百度翻譯、金山詞霸等軟件。由于中英文語法差異較大,但軟件翻譯更多側(cè)重于對詞的翻譯,很難體現(xiàn)出對句子用法的翻譯,導(dǎo)致翻譯出的句子,語言結(jié)構(gòu)混亂。促進(jìn)語言翻譯優(yōu)化的主要目標(biāo)是不斷進(jìn)行自然語言處理,隨著時代的不斷發(fā)展,算法的不斷變革,數(shù)據(jù)規(guī)模將會越來越大,數(shù)據(jù)模型也將會更加完善。由于數(shù)據(jù)規(guī)模的不斷擴(kuò)大,自然語言處理將會減少在數(shù)據(jù)挖掘方面的工作。而是更多依賴機(jī)器進(jìn)行篩選。這些數(shù)據(jù)的采集并不能被即刻使用且做出進(jìn)一步的研究結(jié)果,但未來的研究提供了更多的可能性。其次算法將會跟隨時代的發(fā)展潮流不斷革新,深度學(xué)習(xí)的方法也將運用到自然語言處理的發(fā)展中,最終產(chǎn)生更加完善與系統(tǒng)的機(jī)器翻譯方式,為翻譯結(jié)果的準(zhǔn)確性提供保障。最后計算機(jī)的研究將更深層次的與機(jī)器翻譯技術(shù)結(jié)合,使得翻譯的質(zhì)量與速度得到進(jìn)一步發(fā)展。最終為消費市場所使用,使得人們的日常生活更加便利。
結(jié)束語:自然語言處理在計算機(jī)的快速發(fā)展中,與機(jī)器翻譯相聯(lián)系,在此領(lǐng)域中不斷得到新的突破,并且為其創(chuàng)新提供了方向。自然語言處理在機(jī)器翻譯中的創(chuàng)新運用,簡單介紹了自然語言處理的概念與特點。結(jié)合現(xiàn)代化的發(fā)展歷程,在未來計算機(jī)更加成熟的發(fā)展過程中,將會根據(jù)人類的特定需求,不斷完善其中的算法與模型,使其能夠更加智能化的服務(wù)于人類的生活與工作。
參考文獻(xiàn)
[1]陸正揚(yáng).基于計算機(jī)自然語言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡介[J].科技傳播,2019,11(22):140-141.
[2]葛運東,陳洪梅,姚建民.自然語言處理的技術(shù)和產(chǎn)業(yè)應(yīng)用現(xiàn)狀與趨勢分析[J].產(chǎn)業(yè)與科技論壇,2019,18(17):113-114.
[3]趙園丁.淺談人工智能時代背景下自然語言處理技術(shù)的發(fā)展應(yīng)用[J].辦公自動化,2019,24(10):63-64.
基金:江西省社會科學(xué)基金項目(基于語句數(shù)字表達(dá)式的機(jī)器翻譯研究,編號:18YY07)
江西財經(jīng)大學(xué)?江西南昌?330013