






摘" 要:隨著信息化和智能化水平的提高,農業設備使用逐漸向人工智能技術發展,同時人機交流和機器語言成為機械化設備應用的重要角色。研究對水稻生產機械化農機的應用進行了專業術語的雙語語料庫設計,并對語料庫進行機器翻譯模型的構建,從而實現農機智能化發展和國際市場的擴張。通過雙語語料庫和機器翻譯模型的測試分析,得出專業術語中字符的識別正確率最高為99.03%,而字符的翻譯準確率最高為98.16%。在語句識別中,平均精度為93.69%,翻譯的平均準確度為92.76%。綜合分析結果可說明研究提出的農機專業術語翻譯方法具有優越性,可為智慧農業的發展提供有效的技術方案和服務平臺。
關鍵詞:農業機械化;水稻生產;農機設備;專業術語;機器翻譯
收稿日期:2024-10-15
作者簡介:王翠(1986—)女,碩士,講師,研究方向:英語翻譯,英美文學。
中圖分類號:TP391.2""""""""""""""""""""""""""""" 文獻標志碼:A文章編號:1673-6737(2025)01-0044-06
The Translation of Professional Terminology for Mechanized Agricultural Machinery in Rice Production
WANG Cui
(Weinan Normal University,School of Foreign Languages,Weinan Shaanxi 714000, China)
Abstract: With the improvement of informatization and intelligence level, the use of agricultural equipment is gradually developing towards artificial intelligence technology, and human-machine communication and machine language have become important roles in the application of mechanized equipment. A bilingual corpus of professional terminology was designed for the application of mechanized agricultural machinery in rice production, and a machine translation model was constructed for the corpus to achieve the intelligent development of agricultural machinery and the expansion of the international market. Through testing and analysis of bilingual corpora and machine translation models, it was found that the highest recognition accuracy of characters in professional terminology was 99.03%, while the highest translation accuracy of characters was 98.16%. In sentence recognition, the average accuracy is 93.69%, and the average accuracy of translation is 92.76%. The comprehensive analysis results show that the proposed method for translating agricultural machinery professional terms has superiority and provides effective technical solutions and service platforms for the development of smart agriculture.
Key words: Agricultural mechanization; Rice production; Agricultural machinery equipment; Technical term; Machine translation
水稻作為重要的糧食作物,為人類生產生活提供了重要的發展基礎,目前新稻種的不斷研發不僅增加了栽培方式,提高了糧食產量,還豐富了經濟價值和額外功能研究[1]。隨著農牧業的現代化發展,農畜產品在種植、生產和加工處理過程中所使用的各種機械統稱為農業機械[2-3]。農業機械中,相應的農機設備也利用機械化技術和自動化裝置來優化水稻生產環節,不僅提高水稻產率,還嚴保品質。現代信息技術和自動化技術的發展為農業機械設備的改進提供了較好的基礎,而互聯網技術將農機和信息技術進行有效融合,能夠加強農業生產的智能化管理[4-5]。國外農機機械化發展較為先進,引進先進的農機設備或者自主研發的農機裝備,均有利于促進國內外農機智能化發展和農業生產質量提高[6]。然而國內外農機設備的專業術語影響著農機操作和市場交流,同時農機語料庫的建立和翻譯領域仍處于初級研究階段,未形成全面且系統的農機雙語應用平臺。基于此,研究對水稻生產的農機專業術語進行處理和更新,以適應現在農業領域的需要。研究的創新性在于,首先對專業術語列表進行雙語語料庫的設計,同時分析其對齊方法。在此之后,采用了詞嵌入模型對語料庫進行特征提取和詞向量計算,為后續翻譯模型提供較好的數據基礎。最后對機器翻譯模型進行優化改進,從而實現水稻農機專業術語的機器翻譯應用。研究旨在提高目前農機設備的生產效率,并為農業生產提供技術支持,促進農業信息化建設。
1" 水稻生產農機的雙語語料庫和機器翻譯方法
1.1" 農機專業術語的處理和雙語語料庫的設計
農機雙語語料庫以農業機械的功能、參數和操作等專業術語為主,為計算機翻譯平臺提供語言文本,以支持農業智慧化管理[7]。由于時代和技術的更新,農機專業術語標準有了擴展,也增加了同義詞的混淆。因此需要對增加的術語進行過濾處理,以降低模型的訓練量。農機專業術語的擴充處理首先對現有專業術語列表進行預處理,清除停用詞,在農機領域中分出水稻生產相關的術語,并統計其高頻詞來建立高頻詞列表。其次將高頻詞列表與現有術語的補充進行組合以構成語料庫,再生成測試集和訓練集的樣本,用于語言處理模型。由于將高頻詞中最高頻次作為閾值,測試樣本的頻率需要達到這個閾值,才能經過模型的權重矩陣,并計算出詞向量[8]。在訓練過程中詞向量的計算可有效去除列表中的術語同義詞,完成語料庫的預處理流程。最后將過濾好的高頻列表與現有術語進行融合,組建一個新的水稻生產農機專業術語表,從而實現農機專業術語的擴充處理。
水稻生產農機的專業術語經過更新和擴充處理后,提高了專業詞匯的出現頻率,有利于農機市場的更新和應用,并為雙語語料庫提供新穎的術語列表。之后研究以英漢/漢英雙語語料庫為框架,制定農業機械設備的專業術語翻譯、派生詞翻譯和同詞異譯等語言數據集。根據文獻資料和字典查詢等,農機雙語語料庫的框架設計如圖1所示。
從圖1中看出,針對國際市場的農機雙語語料庫構建,首先需要廣泛收集關于農機專業的術語文本,包括特定用語、不斷豐富的文本數據以及漢英之間匹配的語料信息。其次通過文本讀取對領域語料進行詞句、段落和語塊的對齊,以進行語料加工階段。然后將收集的原始語料進行清理、標注和特征提取的處理,并對其進行人工校對,以確保雙語語料的正確對應,再收錄在農機專業術語雙語語料庫中。最后用戶可在系統界面通過數據庫系統,來完成農機專業術語的查詢和翻譯等相關操作。
由此可知信息化技術的發展為農業生產發展提供先進技術,在農業種植和生產中提供實時且精確的數據,深入分析農田數據和狀態變化,為品種研發和病情監測等內容提供有力依據[9-10]。而雙語語料庫的設計在統計資料和文獻搜索上,可幫助農業設備的操作和作物信息的探索,推動智慧農業發展。
1.2" 農機雙語語料庫的對齊方法
雙語語料的對齊是其框架的核心,直接關系著后續機器翻譯的效果,因此詞匯和語句的對齊方法為農機領域的翻譯處理提供高質量的語料信息[11]。其中詞對齊的雙語語料需要將雙語詞典與提取單詞進行匹配,同時結合詞性、詞義變化等對雙語的單詞對應進行相似度計算,以提高匹配效果。詞匯相似度計算如式(1)所示。
式(1)中,FDice表示相似度度量函數,z1和z2分別為字符串,comm為兩個字符串中相同字符的個數,length為字符串的長度。當一個原始的詞匯對應多個翻譯文本,需要將譯文本與目標詞匯進行兩兩組合的相似度計算,最終取其最大值作為相似度值[12]。為進一步提高詞句對齊的精度,研究采用編輯距離法來篩查相似詞匯的字符位置。具體如式(2)所示。
式(2)中,D表示編輯距離,m和n分別為詞匯中兩個不同的字符串,ED為相似度距離。λ為頻數因子,且λ≥0(λ∈R),i為字符。fim代表字符i在m中的頻數,fin為字符i在n中的頻數。綜合相似度計算,編輯距離越小則說明兩個字符串之間越相似,計算精度較高[13]。
另外針對擴展的語句、段落和語塊的對齊方法,研究選擇詞嵌入模型對其進行文本訓練,再引入注意力機制自動學習上下文的相關性,提高模型對詞匯的識別率。具體如圖2所示。
從圖2中看出,連續詞袋模型是根據上下文的詞匯來預測目標詞,利用高維編碼對嵌入層中的向量進行映射,以轉換為低維的嵌入詞向量。再引入注意力機制自動學習上下文之間的詞匯關聯性和重要性,同時嵌入向量與權重矩陣相乘可得出對應向量。由于注意力機制的加入,使得向量計算生成注意力分數。而激活函數對分數進行激活得到注意力權重,最后輸出注意力結果和目標詞匯的出現頻率。模型結構對農機專業術語的雙語對齊具有較好的向量訓練,可提升對高頻術語的概率提取并降低時間復雜度。
綜合農機雙語語料庫的框架設計和雙語語料對齊的方法,不僅實現農業機械專業術語的處理,還增強雙語語料中詞向量的映射,提升專業術語在機器翻譯中的精度和成績。
1.3" 水稻農機專業術語的機器翻譯模型結構
"根據農機專業術語的擴充處理和雙語語料庫設計,研究首先使用雙向編碼器對動態詞向量進行預訓練,以增強Transformer模型的特征提取、運行效率和機器翻譯的性能。其次采用遷移學習技術將預訓練模型遷移至Transformer神經網絡模型中,實現雙向編碼器和Transformer模型融合。最后對融合的機器翻譯模型進行優化,通過迭代訓練以提高模型的計算效率和機器翻譯的效果。因此農機專業術語的機器翻譯模型結構圖3所示。
從圖3中看出雙向編輯器對農機專業術語的語言領域進行預處理,以實現其Transformer模塊的優化。再將優化好的模型遷移至神經網絡中,使得編碼器將輸入序列映射到隱藏層中,同時Transformer模型的解碼器將目標語句轉換為隱藏層表示,以強化語句特征。最后利用Transformer模型對語句進行強特征提取,獲取完整語句的語義特征,并將其作為機器翻譯的正向參數,輸出為翻譯文本[14]。雙向編碼器為模型的處理、檢測、識別和應用等進行了較好的連接,同時其注意力層的引入也保證了優化模型的實用性和有效性[15]。最后將處理好的雙語語料庫用于機器翻譯,同時進行迭代訓練,有利于提高專業術語的翻譯效果。
另外機器翻譯模型中的注意力機制在編碼器中,為模塊輸出向量進行殘差和正則化處理,同時在Transformer模型的解碼器中聯系語句的上下文,從而增強特征提取和翻譯質量。因此綜合水稻生產農機的雙語語料庫設計和機器翻譯模型,不僅更新和擴充了農機領域的專業術語,加強了雙語語料庫的特征提取和對齊效果,還有效提升了農機領域專業術語的查出率和翻譯精度。
2" 水稻生產農機雙語語料庫的應用結果和分析
2.1" 專業術語在雙語語料庫平臺的測試結果
在農機專業術語的擴充處理中,研究使用語言處理模型對水稻生產農機語料庫及其高頻詞進行驗證分析,并選擇Windows10的系統操作平臺來顯示農機專業術語的可視化圖。因此水稻生產農機的雙語語料庫系統開發環境如表1所示。
由表1可知JQuery Mobile軟件作為常用的開發框架,其可視化工具能夠展示語料庫中高頻詞的內容,同時便于具體內容的查詢、添加和刪除等。開發語言的使用為語言處理模型提供穩定的信息處理系統,并為多種語言的輸入提供開放的系統環境和普適的處理操作。在高效的系統開發環境中,水稻生產農機專業術語不僅可實現高頻詞的可視化說明,還為后續的分類識別測試提供可靠數據,可實現語料庫中同義詞的過濾。結果如圖4所示。
從圖4(a)中得出英漢雙語語料中對農機專業術語的部分高頻詞以作物種植和生產為主,機械化農機的應用對水稻生產具有精細化的操作。高頻詞列表為農機術語語料庫的建立提供比較完善的文本。在圖4(b)中,對部分高頻詞進行語言預處理模型的識別,矩陣結果可得出對應識別正確率在80%以上。但仍存在柴油的英漢同義詞混淆,使得其相關識別率為30%,所以對齊同義詞的過濾還需進一步篩選,確保后續農機語料庫在機器翻譯模型上的準確性。
2.2" 機械化農機專業術語的翻譯結果
在機器翻譯模型中,計算機硬件環境為Intel Core i5-10400F,其最大單核睿頻為4.30GHz,且支持睿頻加速技術。而軟件環境采用ROSETTA邏輯數據工具和矩陣實驗室(Matrix Laboratory,MatLab R2019b),再將處理的雙語語料庫進行訓練,比較注意力機制引入對模型的預測結果。如圖5所示。
從圖5(a)中得出注意力機制對語料庫數據的預測結果較為明顯,其中原模型對專業術語的字符和語句預測準確率為83.54%,召回率為87.61%。而引入注意力機制后的模型對其預測準確率為96.73%,說明模型改進對語料庫對齊具有可行性。在圖5(b)中得出隨著迭代次數的增加,基于注意力機制的連續詞袋模型對術語預測的結果基本保持在90%以上。當迭代次數為400時,其模型對專業術語的字符和語句預測準確率為95.28%,召回率和F1值分別為93.76%和92.15%,綜合結果說明農機雙語語料庫的設計和預測具有優越性,為后續機器翻譯提供較好的語言基礎。
經過雙向編碼器和Transformer模型的融合,農機專業術語的雙語語料庫能夠適應農業生產領域,為水稻生產方面的機械化操作提供精確的指令。對于優化的機器翻譯模型,研究選擇語料庫中1000條高頻詞組,并劃分水稻農機專業術語的字符集合和語句幾何,再分別對其進行翻譯效果的分析,結果如圖6所示。
圖6(a)中,隨著實驗次數的增加,識別準確率不斷下降,當實驗到40次時,字符識別精度為95.35%,而翻譯的準確率為95.18%。由此,在Transformer模型的基礎上,優化的機器翻譯模型對專業術語的翻譯準確率平均為95.66%。Y因此表明引入Transformer模型的機器翻譯模型,對簡單字符的識別和翻譯效果較為優秀。圖6(b)中,模型對語句識別的精度最高為98.24%,且翻譯的準確率整體低于字符翻譯結果。語句的翻譯會摻雜多義詞的干擾,使得語句翻譯效果存在定義偏差。當實驗次數為50時,語句翻譯準確率為91.46%。綜合以上結果可知,研究方法對水稻生產機械化農機的專業術語翻譯具有優越性,并驗證了翻譯模型的魯棒性。
3" 結論
針對水稻生產農機的專業術語翻譯問題,研究提出使用農機雙語語料庫和機器翻譯模型來進行應用分析。通過雙語語料庫的系統開發和術語高頻詞的分析,得出水稻農機高頻詞在雙語語料庫中的分類識別率高達80%以上,說明了水稻生產農機的專業術語在雙語語料庫中的構建具有實用性。在機器翻譯模型的結果中,未加入注意力機制的模型對語料庫數據的準確率為83.54%,引入注意力機制后的模型提高了13.19。同時對基于注意力機制的翻譯模型進行迭代訓練,得出訓練的平均準確率為95.42%,證明了其機器翻譯模型對農機專業術語及其語料庫的預測具有可行性。最后將農機生產專業術語的高頻詞組進行翻譯分析,得出對字符識別平均準確率為96.11%,翻譯準確率最高為98.16%。同時研究方法對語句翻譯的準確率最高達到96.61%,進而表明了研究方法的優越性。但研究對于術語的更新和錄入還缺少更先進的引入方法和處理流程,對語言文本的轉換需要更快速的識別模塊,所以后續研究在農業領域的機器翻譯還需要進一步探索和改進。
參考文獻:
[1] 李健雄,陳建酉,涂從勇,等.試驗基地建設新模式的探索與實踐——以廣東省農業科學院水稻研究所試驗基地為例[J].中國稻米,2024,30(5):136-140.
[2] 成科揚,朱雪森,裴運申,等.農業自動化機械障礙物檢測研究進展[J].江蘇大學學報(自然科學版),2023,44(4):415-425.
[3] 陸紅飛,王濤,喬冬梅,等.物聯網在農業灌溉中的應用:從灌溉自動化到智慧灌溉[J].灌溉排水學報,2023,42(1):87-99.
[4] 趙博,張巍朋,苑嚴偉,等.農業裝備運維與作業服務管理信息化技術研究進展[J].農業機械學報,2023,54(12):1-26.
[5]趙明欣.自動化控制技術在農業機械中的應用[J].中國農業資源與區劃,2023,44(6):242+252.
[6] 羅建強,張弛.農機裝備制造業服務型制造模式研究[J].中國工程科學,2023,25(1):178-186.
[7] 姜京池,關昌赫,劉劼,等.基于主動學習與眾包的農業知識標注體系及語料庫構建[J].中文信息學報,2023,37(1):33-45.
[8] 潘雨晨,尉楨楷,洪宇,等.融合高頻屬性信息的屬性抽取研究[J].中文信息學報,2023,37(1):132-143.
[9] 鄒耀鵬,裴杰,劉一博,等.田塊尺度水稻農情遙感監測平臺設計與試驗[J].中國農機化學報,2024,45(10):233-240.
[10] 楊家豪,房欣,馬瀏軒,等.水稻育秧機械的研究和進展[J].農機化研究,2023,45(6):264-268.
[11] 谷仕威,劉靜,李丙春,等.無監督句對齊綜述[J].計算機科學,2024,51(1):60-67.
[12] 張小艷,李薇.基于Roberta的中文短文本語義相似度計算研究[J].計算機應用與軟件,2024,41(8):275-281+366.
[13] 葉遠波,王吉文,汪偉,等.基于哈希和編輯距離算法的SCD雙層向量化與變更校驗技術[J].中國電力,2024,57(1):255-262.
[14] 賀楚祎,張家俊.融合雙語命名實體信息的神經機器翻譯模型[J].中文信息學報,2023,37(12):44-53.
[15] 耿波,潘曙輝,董曉旭.面向電力設備異常檢測的深度自編碼支持向量數據描述模型研究[J].湖南電力,2024,44(1):119-127.