梁亞敏
(陜西咸陽師范學院,陜西咸陽 712000)
語料庫主要指的是兩種語言對照的雙語語料的集合,能夠在翻譯的時候,通過軟件或是工具匹配翻譯語段和語料庫的匹配程度,幫助翻譯人員完成翻譯工作[1]。異質性是一種生物學概念。但將其運用在數據上時,主要指的是一個群體中所有個體的特征差異程度。異質性越大,其對應的個體特征分布越分散[2]。隨著翻譯語料庫內容不斷地豐富,處理的翻譯數據對象越來越復雜,數據的特征維數也不斷增多。
貪心算法是指對問題求解時,總是做出當前最好選擇,也就是針對問題得到局部最優解。根據數據的處理方式與變量處理方式的不同,如今的貪心算法可分為經典貪心算法、分布式貪心算法以及隨機式貪心算法[3]。為此,本研究使用貪心算法構建一種翻譯語料庫異質性特征自動挖掘方法,將異質性數據控制在同一個空間領域中,形成一個自動挖掘過程。
多數的翻譯語料庫中存在大量的搜索條件[4],對于異質性特征來講,特征選擇的解空間大小為2|C|,此時翻譯語料庫內的空間可用高度為|C|的完全二叉樹來描述,形成的空間樹結構如圖1所示。

圖1 翻譯語料庫形成的空間樹結構
在如圖1所示的空間樹結構下,可將異質性特征劃分為代價敏感、最小測試代價以及約束特征三個特征選擇過程[5]。首先針對代價敏感語料,假設該敏感語料A為獨立狀態,并且AC,其中C為翻譯語料庫,此時該敏感語料獨立翻譯語料庫的過程就可表示為:……p>