葛瑋 吳佳
摘 要:自然語言處理模型主要以自然語言為對象進行語言轉換與識別處理,該技術的出現極大的豐富了人們的生活,同時也拉近了人與機器之間的距離,其很可能成為未來信息技術的一大主要發(fā)展方向。本文將對自然語言處理模型工作原理進行簡要闡述,并就基于計算機智能識別技術下的自然語言處理模型設計展開研究。
關鍵詞:計算機;智能識別技術;自然語言處理
所謂的自然語言處理模型,主要用于人類的日常語言問答中,自然語言處理模型能夠讓計算機理解人類的日常用語并理解自然語言中所包含的文字語義,同時能夠針對人類所提語言問題,以對話的形式將答案轉為自然語言進行回答。自然語言處理技術的研發(fā),是希望能夠在人與機器之間建立起一種信息的傳遞關系,使智能機器能夠更好地為人類提供信息傳遞功能。目前,自然語言處理技術主要運用在情報檢索、專家系統(tǒng)、知識工程建造以及辦公室自動化系統(tǒng)中,并實現了人機接口,極大的方便了人類的生活。
1 計算機智能識別技術在自然語言處理模型設計中的原理
自然語言處理模型設計以計算機智能識別技術為核心,其設計原理主要包括以下三個方面,一是識別人類語言時,該語言必須通過發(fā)出信號的時間序列進行排序變化,在進行信息編碼轉換,從而使輸入語言變?yōu)橹悄茏R別機器可識別的編碼。二是語言信息已完成可識別信息編碼轉換后,該編碼已處于可供閱讀的形式,而編碼內容則是通過聲學信號進行傳達,在此基礎上,一般采用與編碼語音信號相對應的離散型符號進行呈示,該符號具有區(qū)別性特征。三是此類符號繼續(xù)采用計算機智能識別技術進行識別認知,并識別語言內容中所包含的具體語音和語義,并運用語法和語義與語言的情境結構相結合,再進行計算機智能識別技術中的人工智能方式轉換為與人類語音相似的方式進行內容輸出。
2 基于計算機智能識別技術的自然語言處理模型設計
2.1 模型結構圖
我國目前所使用的計算機智能識別語言系統(tǒng)大多數都是以統(tǒng)計模型方式進行技術構建的,統(tǒng)計的模型方式優(yōu)勢在于,其能夠準確的識別語音和語義的相近頻率,并提高語言語義的精確性,從而使計算機系統(tǒng)更好的進行智能識別。該模型設計結構如圖1。
2.2 模塊設計
2.2.1 語言信號的特征提取模塊
特征提取模塊的功能是對語言信號所輸入的相關信號進行提取,以便聲學模型做進一步處理,在該模塊的運作過程中要注意環(huán)境干擾、語音識別誤差等因素,可使用信號處理技術進行干擾降低。
2.2.2 統(tǒng)計聲學模塊
統(tǒng)計聲學模塊主要是保真和還原智能識別系統(tǒng)的語言。現有的統(tǒng)計聲學模塊在設計過程中大多數都采用一階隱馬爾科夫模型進行系統(tǒng)的構建,該模型能夠很好的保證發(fā)音系統(tǒng)的還原度,使語言和語音在識別過程中能夠與單元模塊保持一致。
2.2.3 語言模塊
該模塊的功能主要是對語言系統(tǒng)識別中的語言進行建模。語言模塊既包括語義識別、語義理解分析,還包含了語境正則語言。在語言模塊中所采用的智能識別技術大多為具有統(tǒng)計學意義的N元文法語言識別模式。
2.2.4 解碼器模塊
解碼器模塊是智能識別語言系統(tǒng)中最為重要的部分,也是該系統(tǒng)的核心組成。解碼器的主要功能是為系統(tǒng)提供信號詞串的識別。在智能識別語言系統(tǒng)中所輸出與輸入的語言信號,通過統(tǒng)計聲學和語言語義學的過濾與查找,再通過解碼器模塊進行正確識別。
計算機智能識別技術中的各模塊之間都存在一定的聯系,如語言處理模塊就是通過既定的語言信號輸入特征進行序列提取,并從中求出語言信號的符號集。在進行語音識別的統(tǒng)計過程中,首先輸入信號或語言特征的序列,符號集,通過符號串求解可得:
再用貝葉斯公式進行計算,可得出下列公式:
在給定的語言信號輸入中,輸入串o,P(O)為既定數值,及時省略該部分也不會對最終處理結果產生影響,因此在自然語言的處理方面,要針對問題的性質進行顯示。此外,在處理模塊中,系統(tǒng)所出入的語言信號必須經過預處理,及通過語言信號模塊對語音信號進行提取,并對語音信號(S)到特征列(O)的映射進行采集。之后即可形成聲學模塊單元,從而通過特定的語言信號輸入特征進行P[o|uk]估計。由于在自然語言模塊中提供了P(w),而解碼器模塊主要通過由UI和t(時間標度)所構成的搜索空間進行W尋找。
綜上所述,基于計算機智能識別技術下的自然語言處理模型設計在今后必然會有著廣闊的應用和發(fā)展空間,為了更好地把握該技術的發(fā)展方向,我們必須不斷對自然語言處理技術進行研究,緊跟時代步伐及時革新智能識別技術,從而使自然語言處理模型能夠真正投入使用,開拓計算機技術新領域。
[參考文獻]
[1]蔡艷婧,程顯毅,潘燕.面向自然語言處理的人工智能框架[J].微電子學與計算機,2011,28(10).
[2]王利鑫,耿煥同,孫凱,張茜.基于自然語言處理的文本泄密自動檢測技術[J].計算機工程與設計,2011,32(8):2600-2603.
摘 要:自然語言處理模型主要以自然語言為對象進行語言轉換與識別處理,該技術的出現極大的豐富了人們的生活,同時也拉近了人與機器之間的距離,其很可能成為未來信息技術的一大主要發(fā)展方向。本文將對自然語言處理模型工作原理進行簡要闡述,并就基于計算機智能識別技術下的自然語言處理模型設計展開研究。
關鍵詞:計算機;智能識別技術;自然語言處理
所謂的自然語言處理模型,主要用于人類的日常語言問答中,自然語言處理模型能夠讓計算機理解人類的日常用語并理解自然語言中所包含的文字語義,同時能夠針對人類所提語言問題,以對話的形式將答案轉為自然語言進行回答。自然語言處理技術的研發(fā),是希望能夠在人與機器之間建立起一種信息的傳遞關系,使智能機器能夠更好地為人類提供信息傳遞功能。目前,自然語言處理技術主要運用在情報檢索、專家系統(tǒng)、知識工程建造以及辦公室自動化系統(tǒng)中,并實現了人機接口,極大的方便了人類的生活。
1 計算機智能識別技術在自然語言處理模型設計中的原理
自然語言處理模型設計以計算機智能識別技術為核心,其設計原理主要包括以下三個方面,一是識別人類語言時,該語言必須通過發(fā)出信號的時間序列進行排序變化,在進行信息編碼轉換,從而使輸入語言變?yōu)橹悄茏R別機器可識別的編碼。二是語言信息已完成可識別信息編碼轉換后,該編碼已處于可供閱讀的形式,而編碼內容則是通過聲學信號進行傳達,在此基礎上,一般采用與編碼語音信號相對應的離散型符號進行呈示,該符號具有區(qū)別性特征。三是此類符號繼續(xù)采用計算機智能識別技術進行識別認知,并識別語言內容中所包含的具體語音和語義,并運用語法和語義與語言的情境結構相結合,再進行計算機智能識別技術中的人工智能方式轉換為與人類語音相似的方式進行內容輸出。
2 基于計算機智能識別技術的自然語言處理模型設計
2.1 模型結構圖
我國目前所使用的計算機智能識別語言系統(tǒng)大多數都是以統(tǒng)計模型方式進行技術構建的,統(tǒng)計的模型方式優(yōu)勢在于,其能夠準確的識別語音和語義的相近頻率,并提高語言語義的精確性,從而使計算機系統(tǒng)更好的進行智能識別。該模型設計結構如圖1。
2.2 模塊設計
2.2.1 語言信號的特征提取模塊
特征提取模塊的功能是對語言信號所輸入的相關信號進行提取,以便聲學模型做進一步處理,在該模塊的運作過程中要注意環(huán)境干擾、語音識別誤差等因素,可使用信號處理技術進行干擾降低。
2.2.2 統(tǒng)計聲學模塊
統(tǒng)計聲學模塊主要是保真和還原智能識別系統(tǒng)的語言。現有的統(tǒng)計聲學模塊在設計過程中大多數都采用一階隱馬爾科夫模型進行系統(tǒng)的構建,該模型能夠很好的保證發(fā)音系統(tǒng)的還原度,使語言和語音在識別過程中能夠與單元模塊保持一致。
2.2.3 語言模塊
該模塊的功能主要是對語言系統(tǒng)識別中的語言進行建模。語言模塊既包括語義識別、語義理解分析,還包含了語境正則語言。在語言模塊中所采用的智能識別技術大多為具有統(tǒng)計學意義的N元文法語言識別模式。
2.2.4 解碼器模塊
解碼器模塊是智能識別語言系統(tǒng)中最為重要的部分,也是該系統(tǒng)的核心組成。解碼器的主要功能是為系統(tǒng)提供信號詞串的識別。在智能識別語言系統(tǒng)中所輸出與輸入的語言信號,通過統(tǒng)計聲學和語言語義學的過濾與查找,再通過解碼器模塊進行正確識別。
計算機智能識別技術中的各模塊之間都存在一定的聯系,如語言處理模塊就是通過既定的語言信號輸入特征進行序列提取,并從中求出語言信號的符號集。在進行語音識別的統(tǒng)計過程中,首先輸入信號或語言特征的序列,符號集,通過符號串求解可得:
再用貝葉斯公式進行計算,可得出下列公式:
在給定的語言信號輸入中,輸入串o,P(O)為既定數值,及時省略該部分也不會對最終處理結果產生影響,因此在自然語言的處理方面,要針對問題的性質進行顯示。此外,在處理模塊中,系統(tǒng)所出入的語言信號必須經過預處理,及通過語言信號模塊對語音信號進行提取,并對語音信號(S)到特征列(O)的映射進行采集。之后即可形成聲學模塊單元,從而通過特定的語言信號輸入特征進行P[o|uk]估計。由于在自然語言模塊中提供了P(w),而解碼器模塊主要通過由UI和t(時間標度)所構成的搜索空間進行W尋找。
綜上所述,基于計算機智能識別技術下的自然語言處理模型設計在今后必然會有著廣闊的應用和發(fā)展空間,為了更好地把握該技術的發(fā)展方向,我們必須不斷對自然語言處理技術進行研究,緊跟時代步伐及時革新智能識別技術,從而使自然語言處理模型能夠真正投入使用,開拓計算機技術新領域。
[參考文獻]
[1]蔡艷婧,程顯毅,潘燕.面向自然語言處理的人工智能框架[J].微電子學與計算機,2011,28(10).
[2]王利鑫,耿煥同,孫凱,張茜.基于自然語言處理的文本泄密自動檢測技術[J].計算機工程與設計,2011,32(8):2600-2603.
摘 要:自然語言處理模型主要以自然語言為對象進行語言轉換與識別處理,該技術的出現極大的豐富了人們的生活,同時也拉近了人與機器之間的距離,其很可能成為未來信息技術的一大主要發(fā)展方向。本文將對自然語言處理模型工作原理進行簡要闡述,并就基于計算機智能識別技術下的自然語言處理模型設計展開研究。
關鍵詞:計算機;智能識別技術;自然語言處理
所謂的自然語言處理模型,主要用于人類的日常語言問答中,自然語言處理模型能夠讓計算機理解人類的日常用語并理解自然語言中所包含的文字語義,同時能夠針對人類所提語言問題,以對話的形式將答案轉為自然語言進行回答。自然語言處理技術的研發(fā),是希望能夠在人與機器之間建立起一種信息的傳遞關系,使智能機器能夠更好地為人類提供信息傳遞功能。目前,自然語言處理技術主要運用在情報檢索、專家系統(tǒng)、知識工程建造以及辦公室自動化系統(tǒng)中,并實現了人機接口,極大的方便了人類的生活。
1 計算機智能識別技術在自然語言處理模型設計中的原理
自然語言處理模型設計以計算機智能識別技術為核心,其設計原理主要包括以下三個方面,一是識別人類語言時,該語言必須通過發(fā)出信號的時間序列進行排序變化,在進行信息編碼轉換,從而使輸入語言變?yōu)橹悄茏R別機器可識別的編碼。二是語言信息已完成可識別信息編碼轉換后,該編碼已處于可供閱讀的形式,而編碼內容則是通過聲學信號進行傳達,在此基礎上,一般采用與編碼語音信號相對應的離散型符號進行呈示,該符號具有區(qū)別性特征。三是此類符號繼續(xù)采用計算機智能識別技術進行識別認知,并識別語言內容中所包含的具體語音和語義,并運用語法和語義與語言的情境結構相結合,再進行計算機智能識別技術中的人工智能方式轉換為與人類語音相似的方式進行內容輸出。
2 基于計算機智能識別技術的自然語言處理模型設計
2.1 模型結構圖
我國目前所使用的計算機智能識別語言系統(tǒng)大多數都是以統(tǒng)計模型方式進行技術構建的,統(tǒng)計的模型方式優(yōu)勢在于,其能夠準確的識別語音和語義的相近頻率,并提高語言語義的精確性,從而使計算機系統(tǒng)更好的進行智能識別。該模型設計結構如圖1。
2.2 模塊設計
2.2.1 語言信號的特征提取模塊
特征提取模塊的功能是對語言信號所輸入的相關信號進行提取,以便聲學模型做進一步處理,在該模塊的運作過程中要注意環(huán)境干擾、語音識別誤差等因素,可使用信號處理技術進行干擾降低。
2.2.2 統(tǒng)計聲學模塊
統(tǒng)計聲學模塊主要是保真和還原智能識別系統(tǒng)的語言。現有的統(tǒng)計聲學模塊在設計過程中大多數都采用一階隱馬爾科夫模型進行系統(tǒng)的構建,該模型能夠很好的保證發(fā)音系統(tǒng)的還原度,使語言和語音在識別過程中能夠與單元模塊保持一致。
2.2.3 語言模塊
該模塊的功能主要是對語言系統(tǒng)識別中的語言進行建模。語言模塊既包括語義識別、語義理解分析,還包含了語境正則語言。在語言模塊中所采用的智能識別技術大多為具有統(tǒng)計學意義的N元文法語言識別模式。
2.2.4 解碼器模塊
解碼器模塊是智能識別語言系統(tǒng)中最為重要的部分,也是該系統(tǒng)的核心組成。解碼器的主要功能是為系統(tǒng)提供信號詞串的識別。在智能識別語言系統(tǒng)中所輸出與輸入的語言信號,通過統(tǒng)計聲學和語言語義學的過濾與查找,再通過解碼器模塊進行正確識別。
計算機智能識別技術中的各模塊之間都存在一定的聯系,如語言處理模塊就是通過既定的語言信號輸入特征進行序列提取,并從中求出語言信號的符號集。在進行語音識別的統(tǒng)計過程中,首先輸入信號或語言特征的序列,符號集,通過符號串求解可得:
再用貝葉斯公式進行計算,可得出下列公式:
在給定的語言信號輸入中,輸入串o,P(O)為既定數值,及時省略該部分也不會對最終處理結果產生影響,因此在自然語言的處理方面,要針對問題的性質進行顯示。此外,在處理模塊中,系統(tǒng)所出入的語言信號必須經過預處理,及通過語言信號模塊對語音信號進行提取,并對語音信號(S)到特征列(O)的映射進行采集。之后即可形成聲學模塊單元,從而通過特定的語言信號輸入特征進行P[o|uk]估計。由于在自然語言模塊中提供了P(w),而解碼器模塊主要通過由UI和t(時間標度)所構成的搜索空間進行W尋找。
綜上所述,基于計算機智能識別技術下的自然語言處理模型設計在今后必然會有著廣闊的應用和發(fā)展空間,為了更好地把握該技術的發(fā)展方向,我們必須不斷對自然語言處理技術進行研究,緊跟時代步伐及時革新智能識別技術,從而使自然語言處理模型能夠真正投入使用,開拓計算機技術新領域。
[參考文獻]
[1]蔡艷婧,程顯毅,潘燕.面向自然語言處理的人工智能框架[J].微電子學與計算機,2011,28(10).
[2]王利鑫,耿煥同,孫凱,張茜.基于自然語言處理的文本泄密自動檢測技術[J].計算機工程與設計,2011,32(8):2600-2603.