楊政
(信息工程大學洛陽校區,洛陽 471003)
自然界萬事萬物永遠不是孤立存在的,千絲萬縷的關系將事物聯結起來。但是自然語言對于兩個事物間關系的描述有多種類別。概念層次網絡理論(Hierarchical Network of Concepts,HNC)是關于自然語言理解的理論體系,其目標是以概念聯想脈絡為主線,建立一種模擬大腦語言感知過程的自然語言表述模式和計算機理解處理模式,使計算機獲得消解模糊的能力[1]。從人類大腦對語言的感知理解出發,HNC 總結了自然語言對萬事萬物進行總體表述的六個基本角度,也是一切事物發生、發展和消亡的六個基本環節,即作用、過程、轉移、效應、關系和狀態,稱為作用效應鏈。
在HNC 的語義網絡中,關系一級節點下有七個二級節點,是對關系七個側面的描寫,分別是結合與分離、依存于排斥、支持與反對、主宰與從屬、使用與舍棄、擁有與失去以及適應與干擾。這些二級節點作為關系概念,完成對關系類別的劃分和描述,其純凈性是越來越弱的,前兩個是純凈的關系概念,而其后的關系概念都是與其他的基元概念有交叉關聯性的,例如支持與反對是與反應關聯的。
HNC 研究是通過以概念聯想脈絡為主線,建立一種模擬大腦語言感知過程的自然語言表述模式和計算機理解處理模式[1]。HNC 通過建立自然語言概念體系模式以及自然語言語義塊和語句的表示模式等,使計算機可以模擬人類感知語言的過程。HNC 從語言表述的抽象概念出發設計行車了三大語義網絡,分別是基本概念、基元概念以及邏輯概念[2]。
基本概念是對萬事萬物基本特性的描述,例如時間、空間、質、量、度等。基元概念是自然語言對自然中萬事萬物進行表述的角度,根據作用效應鏈的六個環節描述,這六個環節是作用、過程、轉移、效應、關系、狀態。其中關系處于第五個環節。邏輯概念則是各類語義塊的標識和說明符。
本文從HNC 理論出發,分析自然語言對具有雙向特征基元概念為關系形成的關系句進行分析,從雙向關系句以及擴展雙向關系句兩個側面。隨后提出算法改進這兩類關系句的機器翻譯,并進行實驗驗證。
HNC 關系句就是對關系的描述。在對關系進行描述時,除了關系本身,還需要表述關系的雙方,在關系句表示式中用RB1 和RB2 表示。通過關系雙方參與度和主動權的不同,關系句分為單向關系句、雙向關系句、擴展單向關系句以及擴展雙向關系句。其中,單向關系句和雙向關系句可統稱為基本關系句,兩類則可以統稱為擴展關系句。
雖然基本關系句可分為單向關系句和雙向關系句,但是對于關系一級節點下的七個二級節點來說,有的基元概念基本上只存在單向關系句,例如45 使用與舍棄、46 擁有與失去。同樣,有的基元概念基本只存在雙向關系句,例如41 結合與分離、42 依存與排斥。而43 支持與反對、44 主宰與從屬和47 適應與干擾則是兼有單向關系和雙向關系特性。因此,在對以具有雙向特征基元概念為關系形成的關系句中,本文只分析41、42、43、44 和47 形成的雙向關系句和擴展雙向關系句。
雙向關系句的語句表達式為:RmJ=RB+R。其中,m 取值為關系一級節點下的二級節點編碼,由于本文主要分析具有雙向特征基元概念為關系形成的關系句,因此m 取值為不包括5、6。RB 是指關系雙方,包括RB1 和RB2,R 指的是關系本身。在雙向關系句中,關系雙方RB 內的RB1 和RB2 間一般有語義塊組合標識符,如“和、同、與”等。
例如:西藏和平解放以來,很多著名的宗教界人士同中國共產黨政府合作。(R34J)
句中,RB1 是很多著名的宗教界人士,RB2 是中國共產黨政府,RB1 和RB2 都屬于pp 類概念,RB 內部的語義標識符為“同”。在這一句中,關系雙方之間不僅有明確的標識符,還具有一定的對仗性。
例如:挪威奧斯陸大學人權研究所和越南胡志明政治學院人權研究中心合作。(R34J)
句中,RB1 挪威奧斯陸大學人權研究所和RB2 越南胡志明政治學院人權研究中心就具有比較好的對仗性,其RB 內部語義標志符為“和”字。但是,關系雙方之間也可能不顯含標識符,而是隱含的。
例如:甲乙雙方共同協商。(R74J)
在該句中,RB1 和RB2 由一個詞語來表達,這樣的關系雙方就被隱藏在一個詞語“甲乙雙方”中,不會顯含標識符。
除此之外,雙向關系句還有一個特征,即在出現語義標志符時,特征語義塊R 的上裝常常分離,放于語義標志符的前面。
例如:2010 年以來,中國即將與聯合國兒童基金會駐華代表處開展合作。(R34J)
句中,RB 內部的語義標志符“與”前的“繼續”,就是特征語義塊“繼續開展合作”的上裝,被分離到語義標志符之前。
例如:中國市場的很多做法還不能與國際市場接軌。(R4J)
句中,特征語義塊R 的上裝“還不能”就被分離到RB 內部的語義標志符“與”之前。R 應當是“還不能接軌”。
在以具有雙向特征基元概念為關系形成的關系句中,除了雙向關系句,還有擴展雙向關系句。擴展雙向關系句比基本關系句多了關系雙方的共同表現RC,RC 一定塊擴。擴展雙向關系句的句類表示式為:Rm0J=RB+R+RC。以上一節的幾個句子為例,其加上關系雙方的共同表現RC 的擴展雙向關系句如下,其中加下劃線的部分是RC。
西藏和平解放以來,很多著名的宗教界人士同中國共產黨政府合作共事,參政議政。(R304J)
挪威奧斯陸大學人權研究所和越南胡志明政治學院人權研究中心合作,翻譯出版了人權著作。(R304J)
甲乙雙方共同協商決定停車費的收取標準。(R704J)
2010 年以來,中國即將與聯合國兒童基金會駐華代表處開展合作,舉辦《兒童權利公約》宣傳、培訓活動。(R304J)
由于RC 是關系雙方的共同表現并且一定塊擴,所以RC 的格式是!31J 省略格式,省略的JK1 就是擴展關系句中的RB1 和RB2。
例如:中國與外國企業合作生產了MD-82、MD-90等大型客機。(R304J)
句中,中國與外國企業是關系雙方RB,關系雙方的共同表現RC 是生產了MD-82、MD-90 等大型客機,RC 塊擴且省略了JK1,就是RB。
除此之外,關系句的關系雙方RB1 和RB2 基本都是pp 類的概念,并且大部分關系雙方都不含C。
例如:1987 年,中國同聯合國合作在北京召開了“世界裁軍運動”區域討論會。(R304J)
在擴展雙向關系句中還有一個特殊現象,由于特征語義塊R 之后的關系雙方的共同表現RC,并且RC是!31J 的省略格式,省略了JK1,因此R 之后一般直接跟RC 的E,從而形成了動詞連見的情況。
例如:中國和日本于1986 至1992 年合作調查黑潮出現的情況。(R304J)
在這句中,特征語義塊R“合作”和RC 的E 即“調查”形成的動詞連見。但是這樣的兩個動詞不屬于同一層次的動詞,它們是廣義上的因果關系,因此前面的動詞是Ep,而后面的動詞是Er。
本文從雙語語料庫中選取了25 條雙向關系句和40 條擴展雙向關系句,對國內評估較高的在線機器翻譯網站的漢譯英進行了測評,根據測評的結果對兩種句類的翻譯進行改進,主要從改動翻譯的原文輸入入手,再將輸出修改為符合語法規范的句子。改進算法如下:
算法 擴展雙向關系句翻譯
(1)定位該句語義標志符R 的位置,Rm0J=RB+R+RC;
(2)定位RB 內部的語義標志符,若有則將RB1和RB2 分開,若沒有顯含語義標志符則直接翻譯;
(3)補充RC 省略的E,翻譯RC;
(4)將(2)和(4)連接。
改進后的翻譯結果統計顯示,25 條雙向關系句改進前的正確率為88%,改進后為92%,40 條擴展雙向關系句改進前的正確率為70%,改進后為82.5%。幾個典型例句舉例如下:
①1987 年,中國作為東道主同聯合國合作在北京召開了“世界裁軍運動”區域討論會。
原譯:In 1987, China hosted a regional seminar on the "World Disarmament Movement" in Beijing as a host country in cooperation with the United Nations.
改進:In 1987, China in cooperation with the United Nations, hosted the Regional Symposium on World Disarmament Campaign in Beijing.
②幾名教練還分頭同隊員們談心。
原譯:Several coaches also talked with the players.
改進:Several coaches also spoke to the players separately.
③中國政府還同有關國際組織密切合作,組織有關人員出國考察學習。
原譯:The Chinese government has also worked closely with relevant international organizations to organize relevant personnel to study abroad.
改進:Chinese government has in close cooperation with related international organizations, sent people abroad to study.
從改進結果看,由于雙向關系句多是簡單句,因此原譯文正確率就相對較高,改進效果不明顯,而擴展雙向關系句由于涉及到省略格式的RC,因此改進效果較好。
本文以具有雙向特征基元概念為關系的關系句為內容,分析了雙向關系句和擴展雙向關系句,并根據分析要點和機器翻譯測評結果,對這兩類句式的機器翻譯進行改進。實驗結果顯示,在對這兩類句式進行分析后在分部分進行翻譯的效果,比直接進行翻譯的效果要好,并且對更為復雜的擴展雙向關系句翻譯提升效果更為明顯。