孫 熒, 王 荊
(1.西北工業大學外國語學院, 西安 7100722;2.國網陜西省電力公司電力科學研究院, 西安 710100)
中國具有世界最龐大的英語學習群體。然而,由于師資力量的不均以及地區教育的差異,中國的英語學習者所接受到的英語教育水平存在著較大的差異。基于人工智能的教育教學模式是解決這一問題的良好途徑[1-2]。人工智能系統通過學習采集到的大量樣本數據,可以達到一定的智能程度,例如在圖像識別、無人駕駛、語音識別等領域,人工智能已取得出色的成績,在某些方面,尤其是英語翻譯等,完全可以取代人類的工作[3-4]。近年來,基于人工智能的英語翻譯模式一直是業界的焦點。Hameed等[5]學者研究智能系統通過采集并學習大量的學生學習狀態、性格及年齡等相關信息,建立一個學習能力的分析模型,并利用這種模型分析人在英語翻譯中的特點,為英語翻譯算法提供幫助。隨著信息技術的發展,這種英語翻譯系統可以在一定程度上消除英語教育資源的不均所帶來的教育差異[6]。所以對英語翻譯算法的研究是十分必要的。在英語實際應用場景中,Behnamian[7]基于人工智能建立聽力資源的語料庫,可以自動分配聽力資源,同時也可以實現情境交互,從而增強了翻譯的準確性。基于云平臺的人工智能技術是另外一個研究熱點之一,Moradi等[8]研究者利用云平臺的大數據處理計算能力,將人工智能引入翻譯,云平臺系統可以追蹤人工翻譯的譯文,及時準確地了解每個語言場景的翻譯特點從而量化的輸出翻譯結果[9-13]。基于此,探索人工智能能否在英語翻譯活動中作用,用粒子群優化算法加速神經網絡的訓練,使其可以更快地收斂。用真實教學樣本數據進行測試,從而驗證方法的可行性。
假定粒子群中i粒子的粒子坐標為Xi=(xi1,xi2,…,xin),最佳位置是記為p1,所有粒子的最佳記錄位置為p2,粒子的移動速度為Vi=(vi1,vi2,…,vid)。在粒子的搜索過程中,每一次迭代過程,粒子在空間中的軌跡如式(1)和式(2)所示。

(1)
(2)
式中:c1和c2分別為加速度常數,其目的是使粒子更快地向最佳位置和所有粒子的最佳位置移動;rand()為[0,1]的隨機數;粒子移動速度的最大值為Vmax。當粒子的速度達到最大值Vmax時,速度不會增加,但會保持速度不變。設定粒子速度最大值的目的就是為了在整個搜索過程中提高搜索精度。當粒子速度過高時,會導致粒子錯過當前解空間的最優值;當粒子速度過小時,粒子會陷入局部最優解。因此,這種設置是必要的。
從式(1)可以看出,粒子的速度主要由三部分組成,第一部分是粒子的初始速度運動,描述粒子的運動狀態,在沒有任何干擾,粒子的速度將保持不變。第二部分是粒子的認知能力,這個過程可以模擬鳥類的認知行為。第三部分是信息的共享,在優化過程中粒子之間會有相互作用,可以使整個粒子群共同進化,體現了粒子的社會學特征。
大多數優化算法都是基于梯度信息進行優化的,但粒子群優化不需要梯度信息,粒子群優化是一種利用概率模糊搜索的方法。在實際優化過程中,雖然需要大量的評價函數來確定粒子的適應度,但與傳統的進化算法相比仍有許多明顯的優勢。
在粒子群優化過程中,問題的整體解的質量不會受到個體的影響,因此具有較高的魯棒性。此外,整個粒子群中的個體之間的信息交換并不是直接進行的,因此可以保證整個系統具有良好的可擴展性。在求解粒子群優化算法的過程中,可以采用分布式處理模式,通過協調多處理器進行并行計算,提高了整體求解的效率。粒子群優化算法不需要問題的特定連續性,與傳統的智能算法相比具有更高的可擴展性。粒子群優化算法的一般流程如圖1所示。

圖1 粒子群優化的步驟Fig.1 General steps of particle swarm optimization
人工神經網絡通常由多個神經元和多個節點組成,多層前饋神經網絡模型是應用最廣泛的神經網絡模型,主要包括輸入層、輸出層和隱藏層。輸入層主要是從外部獲取所需信息,然后將獲取的信息輸入到神經網絡中,等待后續處理;隱藏層是指加工的過程;輸出層是將處理的結果輸出到所需的位置。
在英語翻譯的教學過程中,如何獲得客觀的數據并利用這些數據進行正確的分析是非常重要的。因此,提出一個應用模型來分析學生在英語翻譯教學過程中的學習能力,即學習能力分析模型,如圖2所示。

圖2 學生學習能力分析模型Fig.2 Analysis model of students learning ability
學習能力分析模型的目的是分析學生在英語翻譯學習過程中的一些與學習相關的特點,通過分析得出學生學習狀態的相關信息,并且利用分析的結果,為學生制定有針對性的教學任務,從而促進英語翻譯教學的發展。在數據采集階段,主要通過問卷調查的方式進行初步的數據采集。在數據提取階段,需要對原始數據進行預處理,消除無用數據對整個分析過程的干擾。由于原始數據的部分缺失和遺漏,不完整,需要按照一定的標準填寫填充過程,然后將處理后的數據輸入神經網絡進行分析。
再者,需要確定神經網絡模型的拓撲結構、輸入層的節點數、輸出層的節點數和隱藏層的節點數。隱藏層節點的計算公式如式(3)所示。
(3)
式(3)中:J為隱藏層節點數;M為輸出層節點數;N為輸入層節點數。根據式(3)可以得到網絡訓練次數與隱藏層節點數之間的關系。為了簡化兩者之間的關系,繪制網絡訓練次數和隱藏層節點數。如圖3所示,當神經網絡隱藏層的節點數為4時,整個網絡模型的訓練次數最短。

圖3 隱藏層節點數和訓練次數的關系Fig.3 The relation of the training time and hidden layer node number
將粒子群算法的優化原理引入神經網絡,增強了算法的全局尋優能力;該復合算法利用粒子的移動和更新來尋找初始階段神經網絡的最優解,算法的執行流程如下。
Step 1對特征數據的預處理。
在人工神經網絡的學習過程中,為了消除大值數據對基于模型的預測或診斷的影響,對數據進行歸一化處理。數據的變化被限制在一定范圍內,通常是在(0,1)。因為Sigmoid函數用作神經網絡的輸出層的轉換函數,Sigmoid傳遞函數具有特殊的特征,當x接近正值時或負無窮大,輸出值將接近0或1,因此輸出變量范圍為(0,1)。沒有規范化數據,小值神經元對網絡的影響可能遠遠小于大值神經元,從而影響訓練結果,歸一化公式如式(4)所示:
(4)
對輸出值進行反歸一化處理,反歸一化公式如式(5)所示:
(5)

Step 2設置神經網絡相關參數。
采用BP(back propagation)神經網絡對代價模塊進行估計,其中BP神經網絡有幾個重要參數,包括隱藏節點數、隱藏層數、激活函數、學習率、動量系數。
(1)隱藏節點數:隱藏節點越多,收斂速度越慢,但誤差可能越小,尤其是“訓練樣本”誤差。但是,當數量增加到一定程度時,再增加數量也不能減少錯誤,執行時間可能會突然延長。采用式(3)計算隱藏層節點數。
(2)隱藏層數:隱藏層數對于網絡的收斂速度有著重要的影響,通常1~2層較為理想且可以解決大多數應用問題。采用一層進行訓練。
(3)激活函數:Sigmoid函數用來作為激活函數,其計算公式如式(6)所示:
(6)
式(6)中:t為Sigmoid函數的自變量。
(4)學習率及動量系數:學習率對網絡的收斂速度有顯著影響,通常取η=0.1~1.0,一般情況下,學習算法會附加一個動量系數,即加入一定比例的之前的權值變化,以減弱收斂中的振蕩,加速收斂。設置η+μ=1.0。
Step 3隨機生成粒子群的初始速度和位置
設置Xi=(xi1,xi2,…,xin)為粒子i初始位置,設置Vi=(v1,vi2,…,vid)為粒子i初始速度,Pg=min{P0,P1,…,Ps}為所有粒子的最佳位置記錄,即局部最優位置,粒子群在n維空間中的速度和位置向量在(0,1)隨機生成。
Step 4計算神經網絡前向的輸出向量。
隱藏層輸出向量H如式(7)、式(8)所示。
(7)
(8)
式中:th表示第h層的輸入加權和;aih為第i層與第h層之間的聯接參數;xi為第i層的激活值;θh表示第h層的偏置量。
計算輸出層的向量Y如式(9)、式(10)所示:
(9)
(10)
式中:tj為第j層的輸入加權和;Yj為第j層的輸出量。
Step 5計算反向差δ:
δj=Yj(1-Yj)(Tj-Yj)
(11)
(12)
Step 6計算權重矩陣Δw及偏置向量Δθ變化量:
Δwhj=-ηδjHh
(13)
Δθj=-ηδj
(14)
更新權重矩陣與偏置向量,得:
(15)
(16)

Step 7計算每個粒子的適應度。
根據問題特定的目標函數估計每個粒子的適應度,將適應度函數值與記憶中的最佳函數值進行比較,然后粒子根據記憶中的最佳值修改下一階段的搜索速度。誤差平方和(sum of squared error,SSE)如式(17)所示:
(17)
式(17)中:Ti為算法擬合出的數據;Ei為原始數據。
Step 8記錄粒子位置并更新其位置速度向量。
將粒子最佳值與全局最佳值進行比較,如果粒子最佳值優于全局最佳值,則修改內存中的全局最佳值,同時每個粒子修正位置速度,為下一次全局搜索準備。
(18)
(19)

Step 9應用粒子群優化的神經網絡算法模型對英語翻譯教學效果進行驗證。
當粒子群達到全局最優狀態時,網絡訓練完成,得到訓練集的平均誤差數據,用樣本集數據進行測試得到誤差數據.
應用粒子群優化的神經網絡算法模型對英語翻譯教學效果進行了驗證。首先,完成對學生英語翻譯學習特征的樣本采集,然后分兩個步驟進行,第一步利用粒子群優化算法對神經網絡進行訓練;第二步對模型的有效性進行評估和測試。
數據集作為神經網絡算法實現中關鍵的一環,對模型輸出結果的可信起著決定性的作用。從阿里巴巴公司的Tianchi Data Sets中獲取2 000條學生英語翻譯數據,在保證樣本多樣性的前提下剔除數據集中沒有對應翻譯結果、顯示模糊、無法提取特征點的數據;同時,為了在不影響模型有效性的前提下增加數據量,提高模型的泛化能力,對數據進行了增加噪聲等數據增廣操作,使數據集中包含有4 500條可測試的數據。通過上述過程獲得的數據集,能夠最大程度的保證英語翻譯特征樣本采集結果的準確性和多樣性。
當使用粒子群優化算法對神經網絡進行訓練時,不僅需要對已有的數據進行處理,還需要設置一些參數。將早熟因子設置為0.01,其他參數以隨機形式產生。根據粒子群算法選擇粒子群規模的慣例,設置3個不同的粒子數,即5、10、20,并分析3種不同粒子數的運行效率。當迭代次數分別達到243、437、295時,算法輸出的結果與訓練樣本、測試樣本之間的誤差以足夠小,并保持一段時間沒有更優的解出現。因此此時結果即為最優解,隨即停止迭代,記錄相關數據如表1所示。

表1 粒子群優化的神經網絡模型的案例結果Table 1 Experimental results of the particle swarm optimization algorithm to train the neural network
結合英語翻譯的實踐,由表1可以看出,采用粒子群優化算法對神經網絡進行訓練,可以得到不同粒子數種群的最優解,并且誤差值較小。基于所提出的學習分析模型,可以用樣本訓練好的粒子群優化的神經網絡模型對學生的英語翻譯能力進行正確程度的分析,幫助教師估計學生的翻譯能力水平,為下一步的教學提供參考。
通過研究粒子群優化算法的數學模型和算法流程,以及人工神經網絡模型的基本原理;并基于粒子群優化的神經網絡模型,提出了學習能力分析模型,確定了該模型的神經網絡的拓撲結構和隱藏層的節點數;基于英語翻譯教學的樣本數據,建立了研究模型。通過對實驗結果的分析,發現本文方法可以幫助教師估計學生的翻譯能力能力水平,為學生進一步提高英語翻譯水平提供參考。所提出的應用人工智能算法幫助英語教學的研究方法,隨著計算機技術的進一步發展,可以在廣泛推廣至英語教學的眾多方面。