杜家利, 于屏方
(1. 廣東外語外貿大學 詞典中心,廣東 廣州 510420;2. 南京大學 外國語學院,江蘇 南京 210093;3. 廣東外語外貿大學 中國語言文化學院,廣東 廣州 510420;4. 中國社會科學院 語言研究所,北京 100732)
?
花園幽徑現象理解折返性的數據結構分析
杜家利1,2, 于屏方3,4
(1. 廣東外語外貿大學 詞典中心,廣東 廣州 510420;2. 南京大學 外國語學院,江蘇 南京 210093;3. 廣東外語外貿大學 中國語言文化學院,廣東 廣州 510420;4. 中國社會科學院 語言研究所,北京 100732)
該文討論了花園幽徑現象(GPP)的數據結構。GPP數據結構呈現理解折返的認知樹形結構,不同于語法前狀態的詞集合結構、句子理解的語法線性結構和語義匹配多對多的歧義圖狀結構。GPP結構的顯著性特征如下:(1)GPP理解初期,數據結構呈線性特征;(2)GPP理解中期, 語義觸發點迫使原解碼模式被推翻,數據結構表現為詞集合結構;(3)GPP理解末期, 行進式錯位導致回溯形成,解碼結構最終呈現樹形結構;(4)GPP動態解碼融合了除歧義圖狀結構之外的兩種結構特征,語義觸發語的激活產生額外認知負擔。GPP樹形結構與歧義圖狀結構的不同從數據結構角度證實了兩種語法現象的迥異,從而為計算語言學解讀GPP提供了理論支撐。
花園幽徑現象;數據結構;認知;折返性;語義觸發
花園幽徑現象(Garden Path Phenomenon,GPP)是初始結構被迫調整引發語義折返的特殊認知現象,其得名于解碼過程中的迷途知返,就好像在花園中走入了一條不能通達的幽徑,徑盡路絕,絕而后返。其先期理解貌通而實不暢。在語義觸發點出現后,解碼者被迫返回到原來節點重新進行結構重組以實現解碼。此現象曾引發學者從語法[1-4]、語義[5-7]、語用[8-9]、心理[10-13]、信息處理[14-16]、認知[17-21]等其他角度[22-25]進行研究。GPP先揚后抑的理解折返特性蘊涵結構性回溯,可借助數據結構知識進行解構。
數據結構是指系統中數據元素間不同關系的集合,包括離散關系的集合結構、具有對應關系的線性結構、多對多并行的圖狀結構、一對多單向解讀的樹形結構。這4種數據結構恰好和語法前狀態詞集合的解讀、句法關系的線性解讀、語義匹配多對多的歧義解讀、GPP回溯性結構解讀具有對應關系。本文借助數據結構的不同形式來討論語言結構的多樣性。為便于直觀有效地比較各種數據結構解碼特點,例句解讀采用美國斯坦福大學自然語言處理中心的Stanford Parser作為解析器(http://nlp.stanford.edu/software)。
非GPP的數據結構包括詞集合結構(圖1)、語法線性結構和歧義圖狀結構。前一類因不符合句法關系而屬于詞匯范疇,后兩類則屬于句法和語義范疇。
2.1 集合結構分析
語法前狀態的詞集合結構是指元素之間除了同屬于一個集合外,別無其他關系。

圖1 詞集合結構
下面例句所形成的關系都是詞集合結構關系,“*”表示此例句不被語法接受。我們利用Stanford Parser在線解析,并將具體代碼和解析結構表示如下:
The/DT; new/JJ; singers/NNS; song/NN;old/JJ; women/NNS; boat/NN; building/NN; window/NN; sun/NN。
例1 *The new singers the song.
(ROOT
(NP
(NP (DT The) (JJ new) (NNS singers))
(NP (DT the) (NN song))))
例 2 *The old women the boat.
(ROOT
(NP
(NP (DT The) (JJ old) (NNS women))
(NP (DT the) (NN boat))))
例 3 *The building window the sun.
(ROOT
(NP
(NP (DT The) (NN building) (NN window))
(NP (DT the) (NN sun))))
如上所示,解碼均未成功,例句最終形成的都是NP結構形式。此類離合結構因不符合語法,處于無關聯的分散狀態,不能形成正確有效的句法生成式。例1 [The new singers]NP+[the song]NP,例2 [The old women]NP+[the boat]NP,例3[The building window]NP+[the sun]NP各認知元素相對獨立,難以形成完整語義鏈條。此集合結構是語法前狀態的詞匯累積,不屬于句法范疇。
2.2 線性結構分析
與詞集合狀態不同,語法線性結構符合語言規范。句子理解過程中各認知結構元素形成一對一、如同線性排列的關系。
在句法分析時,線性結構中的成分具有排列的唯一性,同一元素在句法上不可能同時具有多種句法功能。如圖2所示,認知解碼順序是1-2-3-4-5。集合結構中的例句經過調整可形成語法線性結構。

圖2 語法線性結構
The/DT; new/JJ; singers/NNS; sing/VBP; the/DT; songs/NNS; old/JJ; women/NNS; sail/VBP; a/DT; boat/NN; building/NN; window/NN; reflects/VBZ; sun/NN。
例 4 The new singers sing the songs.
(ROOT
(S
(NP (DT The) (JJ new) (NNS singers))
(VP (VBP sing)
(NP (DT the) (NNS songs)))))
例 5 The old women sail a boat.
(ROOT
(S
(NP (DT The) (JJ old) (NNS women))
(VP (VBP sail)
(NP (DT a) (NN boat)))))
例 6 The building window reflects the sun.
(ROOT
(S
(NP (DT The) (NN building) (NN window))
(VP (VBZ reflects)
(NP (DT the) (NN sun)))))
如上所示,例4—6所形成的解析結果均為表示句子終結的S, 這表明系統認定這些句子符合語法條件且能夠成功解讀為完整句。例4中的[The new singers] NP+[[sing]VBP+[the songs]NP]VP,例5中的[The old women]NP+[[sail]VBP+[a boat]NP]VP, 例6中的[The building window] NP+[[reflects]VBZ+[the sun]NP]VP分別充當各自的SVO句法功能,先后排列的認知元素具有唯一的句法功能,各部分語法結構和位置順序具有清晰性和唯一性,線性理解特征明顯。
我們可依據以上信息構建一個擴充轉移網絡(Augmented Transition Network,ATN)來解碼例4。“PUSH”表示下推至相關子網絡;“POP”表示上托回上一級網絡;“SETR”表示把相關信息送入寄存器;“I”表示解碼復雜度為一級且為初始級。“A-1”表示編號為1的弧(Arc)。

表1 線性結構的解碼算法
按照表1和圖3(見下頁),例4解碼共需要16步,涉及10個相關的解碼弧,具體算法如下:

圖3 線性結構的擴充轉移網絡
1. Arc-1, 系統S主網絡試圖解析NP,根據知識庫信息將
2. Arc-4,NP子網絡啟動,解析Det
3. Arc-7,解析Adj
4. Arc-5,解析N
5. Arc-6,解析NP
6. Arc-1,S主網絡將NP結果整合后送入寄存器;
7. Arc-2,S主網絡嘗試解析VP并根據知識庫信息將VP
8. Arc-8,VP子網絡啟動,解析V
9. Arc-9,VP子網絡試圖解析NP
10. Arc-4,第三層NP子網絡啟動,解析Det
11. Arc-5,解析N
12. Arc-6,第三層NP子網絡NP
13. Arc-9,NP
14. Arc-10,VP子網絡成功解析
15. Arc-2,S主網絡將VP
16. Arc-3,S主網絡完成解析,將S
以上算法顯示,該句解碼共需要3個網絡: S主網絡、NP子網絡和VP子網絡。其中NP子網絡分別在S主網絡和VP子網絡中兩次被調用,這使得該句解碼復雜度達到III級。
2.3 圖狀結構分析
與語法線性結構中各元素一一對應關系不同,歧義圖狀結構中的各元素可以是多多相對的關系,無論選擇哪種語義對應關系均能實現認知解讀,也就是說認知結構中的認知元素在語義匹配多對多的歧義圖狀結構中具有多對多的語義對應關系。結構如圖4所示。

圖4 歧義圖狀結構
圖中的認知元素具有多重釋義,無論節點擴展方向指向哪里均可實現認知解碼,只是意義表達不同而已。請見例7。
例7 Failing student looked hard.
在Stanford Parser中,概率高低是取詞依據,所以在所有圖狀結構中,概率最高的詞義將得到凸現。
(ROOT
(S
(NP (NN Failing) (NN student))
(VP (VBD looked)
(ADJP (JJ hard)))))
如上所示,Stanford Parser默認
G={Vn,Vt,S,P}
Vn={S,NP,VP,Adj,Grd,V,N,Adv}
Vt={failing, student, looked, hard}
S=S
P:

表2 多維語義選項的歧義圖狀結構
本句的理解具有多重性,主要體現在failing和hard的意義多維性上。Failing可以作為形容詞(Adj)也可以作為動名詞(Grd)兩種狀態存在,hard也可以具有形容詞(Adj)和副詞(Adv)兩種狀態。所以,兩個不確定的語法點相互排列組合就形成4種意義完全不同的解釋。這4個句子S1/S2/S3/S4的狀態可以通過下列語法進行分析。
如上面語法所示,形容詞和名詞可以形成名詞詞組,Failing (adj) student 符合該語法規則因此可以生成正確的NP生成式。在與具有歧義的hard進行匹配時,hard的形容詞狀態和副詞狀態的雙重語法特性形成了能構筑兩個不同意義的解碼程序。S1的解碼程序是f-h-b-i-f-d-a。S2的解碼程序是f-h-b-i-j-e-a。兩程序的不同來源于對hard詞性選擇的不同。兩種選擇都符合解碼條件,只是生成的句義不同: “落榜生看來是難的”(S1);“落榜生似乎很努力”(S2)。
同樣,Failing (Grd) student中,動名詞Grd和名詞N可以形成名詞詞組NP。這樣作為動名詞用法的failing與具有形容詞和副詞雙重語法功能的hard便形成兩個新的句義,其各自的解碼途徑也迥異。S3的解碼程序為g-h-c-i-f-d-a, 意為“讓學生落榜看來是難的”。S4的解碼程序為g-h-c-i-j-e-a, 意為“讓學生落榜這件事似乎干得很努力”。
由上面分析可知,在上述的CFG語法中,failing具有(f)和(g)的雙重語法功能,因此NP生成可參照(b)和(c)的規則,具有歧義性。hard具有(f)和(j)的雙重語法功能,VP生成也具有歧義: 既可以參照(d)也可以參照(e)的規則。這種雙歧義的搭配就形成了四種不同句義解讀。
詞匯語法功能的多樣性和生成規則的非唯一性決定了語法生成式的多樣性,導致歧義語義產生。歧義特性在數據結構上對應的是多對多的圖狀結構(圖5)。

圖5 “Failing student looked hard”的數據結構
為了更直觀地分析歧義產生的圖狀結構,可構建一個ATN來實例分析語義多維性。
該網絡由主網絡S、子網絡NP和VP組成,共涉及11個轉移弧。歧義出現在弧4/弧5,弧8/弧10。由此產生的解碼算法列表如下:

表3 圖狀結構的解碼算法

圖6 圖狀結構擴充轉移網絡
算法共由11步組成,在不考慮概率的情形下生成2×2的矩陣,對應4種不同語義解釋。兩個歧義點分別出現在第2步對Adj
1. Arc-1, 主網絡首先對NP解碼,根據知識庫信息將
2. Arc-4/ Arc-5, NP子網絡啟動,CFG語法中
3. Arc-6,將
4. Arc-7, NP
5. Arc-1,主網絡將返回的NP
6. Arc-2,主網絡開始解碼VP
7. Arc-9,VP子網絡啟動,V
8. Arc-8/ Arc-10, 第二個歧義點出現,子網絡不論選擇Arc-8或者Arc-10均能通過CFG語法規則,遂產生兩個不同的語義取向;
9. Arc-11, VP
10. Arc-2, 主網絡將VP
11. Arc-3, 寄存器中第一個和第二個歧義點排列組合產生2×2的語義矩陣,可成功生成四種解碼結果;系統解碼成功。
以上分析可知,語法線性結構和歧義圖狀結構的非GPP結構都具有非折返的單向性特點,系統不需要回溯,符合語法的選擇都可以解碼成功,不存在被迫中止的休克現象。
GPP結構與前面3種結構既有相同之處也有不同之處,這些異同分別出現在解碼的不同階段,最終形成的數據結構表現為樹形結構。
GPP理解折返性的樹形結構是指結構中的元素存在一對多的數據關系,當其中的一種關系作為認知原型進行缺省解讀時,就好像由根向節點進行擴展,失敗后的解碼模式被迫順原路返回到根,再順著下一個節點進行解讀,直到結構中的元素得到正確匹配。其結構如圖7所示。

圖7 理解折返的樹形結構
在圖7中,設定根元素具有一對三的認知關系,而且正確解讀的認知項是最右側下方的10號,那么解碼順序是: 1-2-3-3-2-1-4-5-6-6-5-4-1-7-8-9-10。由此可見GPP認知解碼具有折返性: “3-2-1”和“6-5-4-1”的出現表明在解碼完成前經歷了兩次回溯性折返。這種對前期理解否定之否定的折返性過程具有程序上的可驗證性。從數據結構角度分析,解碼初期(即1-2-3和1-4-5-6)具有線性結構特征,系統解碼按照知識庫中原型信息(即概率較高信息)順序解讀;解碼中期(即3-2-1和6-5-4-1)具有集合結構特征。系統在語義觸發點(即3和6)出現后,原來的解碼模式被打破,順序解讀的結果在寄存器中不再是按照語法規則排序的線性結構而是呈現游離的集合狀態;解碼后期,系統參照回溯信息重新調整解碼策略,放棄原型的高概率解碼模式,啟用低概率信息,解碼成功的數據結構與前期解碼結構共同組成樹形數據結構。下面以實例解讀GP句(Garden Path Sentence)的數據結構分析。
例8 The new record the song.
3.1 GPP解碼初期的線性結構分析
在Stanford Parser中,解析器是按照概率高低進行解碼的,高概率的原型信息首先被系統解讀。具體信息如下:
The/DT; new/JJ; record/NN; song/NN;
(ROOT
(NP
(NP (DT The) (JJ new) (NN record))
(NP (DT the) (NN song))))
解碼初期,系統默認record為名詞,對NP
3.2 GPP解碼中期的集合結構分析
解碼中期,線性結構NP
無序集合結構向再次有序的線性結構(后線性結構)的過渡,使系統產生回溯。
3.3 GPP解碼末期的樹形結構分析
解碼末期,
G={Vn,Vt,S,P}
Vn={S,NP,VP,Det,Adj,V,N}
Vt={the new record song}
S=S
P:
Processing Procedure(Bottom-Up)
1: The new record the song
SUCCESS
解碼可按照樹形圖結構進行解釋,其正確的認知順序為: 1-2(f)-3(g)-4(h)-5(d)-6(f)-7(h)-8(c)-8(c)-7(h)-6(f)-5(d)-4(h)-3(g)-9(g)-10(b)-11(i)-12(f)-13(h)-14(c)-15(e)-16(a)。這樣,在規則3(g)-9(g)中,因為涉及record名詞和動詞同形的選擇而成為認知折返的根,由其擴展出的樹形節點包括名詞解釋的節點3(g)-4(h)-5(d)-6(f)-7(h)-8(c)和動詞解釋節點9(g)-10(b)-11(i)-12(f)-13(h)-14(c)-15(e)-16(a)。兩者在形成過程中的數據結構都是線性結構,如圖8所示。

圖8 “The new record the song”的數據結構
8(c)不能形成正確的句法生成式,作為線性結構的終端,該點成為認知頓悟的語義觸發點。由8(c)
向3(g)的逐步回溯,即8(c)-7(h)-6(f)-5(d)-4(h)-3(g)就打破原來生成的線性結構,并游離出句子元素,這個過程產生了GPP的理解折返性。
游離元素

圖9 樹形結構的擴充轉移網絡
例8樹形結構ATN包括S主網絡、NP子網絡和VP子網絡,涉及11個弧。以理解折返性回溯(backtracking)為主要特征的解碼算法表如表4所示。

表4 樹形結構的解碼算法

續表
ATN解碼算法共包括回溯在內的22步。第1—7步,形成的是基于高概率解碼的線性結構。回溯出現時,原結構被打破,游離的句子元素構成集合結構。第8—22步,基于低概率解碼的后線性結構形成。綜合來說,例8中理解折返的動態數據結構是蘊涵“線性結構——集合結構——后線性結構”的樹形結構軌跡圖。
從語法理論角度分析,歧義句和花園幽徑句都涉及結構中部分成分的局部歧義。前者允許多種結構勝出而不折返;后者往往是低頻次選結構顛覆高頻優選結構后在某個解讀不通的觸發點上折返后勝出,具有排他性。
從線性結構、圖狀結構和樹形結構的解碼算法可以看出: (1)從復雜度角度看,歧義句解碼復雜度是II級,普通句和花園幽徑句的復雜度是III級,這說明歧義句具有多重理解的可能,不論哪種解碼方式均可獲得成功,所以,單純從句法角度來說解碼較為簡單;(2)從解碼算法角度看,歧義句、普通句和花園幽徑句涉及算法步驟分別是11、16和22,后兩者雖具有相同的復雜度,但后者解碼涉及的算法步驟較前者多,這說明花園幽徑句因蘊涵理解折返特性,解碼最困難。
花園幽徑現象是具有語義觸發機制的認知現象,理解初期產生行進式錯位并適時折返,形成解碼模式的否定之否定。花園幽徑現象的認知數據結構,不同于語法前狀態的詞集合結構、句子理解的語法線性結構和語義匹配多對多的歧義圖狀結構,是具有理解折返的認知樹形結構。其動態過程蘊涵“線性結構——集合結構——后線性結構”。通過對GPP程序分析和歧義多對多認知匹配的對比,本文以基于ATN的實例驗證了GPP的非歧義性在于其回溯性結構的存在。
致謝 感謝英國伯明翰大學Wolfgang Teubert教授和教育部語言文字應用所博士生導師馮志偉教授的指正。
[1] Bever T G. The cognitive basis for linguistic structures[A]//Hayes, J. R. (ed.), Cognition and the Development of Language. New York: John Wiley and Sons, 1970: 279-352.
[2] Pritchett B L. Garden path phenomena and the grammatical basis of language processing[J]. Language, 1988,64: 539-576.
[3] H?ussler J, Bader M. The assembly and disassembly of determiner phrases: Minimality is needed, but not sufficient[J]. Lingua, 2009, 119(10): 1560-1580.
[4] Malsburg T, Vasishth S. What is the scanpath signature of syntactic reanalysis?[J].Journal of Memory and Language, 2011, 65(2): 109-127.
[5] Jin Y H. Semantic analysis of Chinese garden-path sentences[C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, 2006,7: 33-39.
[6] Christianson K, Hollingworth A, Halliwell J, et al. Thematic roles assigned along the garden path linger[J]. Cognitive Psychology, 2001,42: 368-407.
[7] Wilson M P, Garnsey S M. Making simple sentences hard: Verb bias effects in simple direct object sentences[J]. Journal of Memory and Language, 2009, 60(3): 368-392.
[8] Foss D J, Jenkins C M. Some effects of context on the comprehension of ambiguous sentences[J]. Journal of Verbal Learning and Verbal Behavior, 1973,12: 577.
[9] Bailey K G D, Ferreira F. Disfluencies affect the parsing of garden-path sentences[J]. Journal of Memory and Language, 2003,49: 183-200.
[10] Bader M, Haussler J. Resolving number ambiguities during language comprehension[J]. Journal of Memory and Language, 2009,61(3): 352-373.
[11] Patson N D, et al. Lingering misinterpretations in garden-path sentences: Evidence from a paraphrasing task[J]. Journal of Experimental Psychology: Learning, Memory, and Cognition, 2009, 35(1), 280-285.
[12] 杜家利,于屏方. 花園幽徑現象頓悟性的認知解讀[J]. 外語與外語教學,2011,6: 26-29.
[13] Choi Y, Trueswell J C. Children’s (in)ability to recover from garden paths in a verb-final language: Evidence for developing control in sentence processing[J]. Journal of Experimental Child Psychology, 2010, 106(1):41-61.
[14] 馮志偉. 花園幽徑句的自動分析算法[J]. 當代語言學, 2003,4: 339-349.
[15] Yu P F, Du J L. Automatic analysis of textual garden path phenomenon: A computational perspective[J]. Journal of Communication and Computer, 2008, 5 (10): 58-65.
[16] 杜家利, 于屏方. 花園路徑現象認知解讀的程序化特性分析[J]. 計算機工程與應用, 2011,47 (21): 5-9.
[17] Malaia E, Wilbur R B, Weber-Fox C. ERP evidence for telicity effects on syntactic processing in garden-path sentences[J]. Brain and Language, 2009, 108(3):145-158.
[18] McMurray B, Tanenhaus M K, Aslin R N. Within-category VOT affects recovery from "lexical" garden-paths: Evidence against phoneme-level inhibition[J]. Journal of Memory and Language, 2009, 60(1): 65-91.
[19] O’Rourke P L, Petten C V. Morphological agreement at a distance: Dissociation between early and late components of the event-related brain potential[J]. Brain Research, 2011, 1392(5): 62-79.
[20] Staub A. Eye movements and processing difficulty in object relative clauses[J]. Cognition, 2010, 116(1): 71-86.
[21] Christensen K R. Syntactic reconstruction and reanalysis, semantic dead ends, and prefrontal cortex[J]. Brain and Cognition, 2010, 73(1): 41-50.
[22] 于屏方, 杜家利. 良構子串表在自然語言處理中的程序化應用: 以花園幽徑句為例[J]. 中文信息學報, 2012, 26(5): 107-113.
[23] 宋艷雪, 張紹武, 林鴻飛. 基于語境歧義詞的句子情感傾向性分析[J]. 中文信息學報, 2012, 26(3): 38-43.
[24] 張仰森, 黃改娟, 蘇文杰. 基于隱最大熵原理的漢語詞義消歧方法[J]. 中文信息學報, 2012, 26(3): 72-78.
[25] 張祿彭,易綿竹,周云. 中文歧義研究25年——以《中文信息學報》論文為例[J]. 中文信息學報,2012, 26(4): 73-84.
Towards Data Structure Analysis of Half-Returned Feature of Understanding Garden Path Phenomenon
DU Jiali1,2, YU Pingfang3,4
(1. Lexicographical Research Center, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510420, China;2. School of Foreign Studies, Nanjing University, Nanjing, Jiangsu 210093, China;3. Faculty of Chinese Language and Culture, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510420, China;4. Institute of Linguistics, Chinese Academy of Social Sciences, Beijing 100732, China)
This paper discusses data structure of garden path phenomenon (GPP). The data structure of GPP belongs to cognitive tree-liked structure rather than the other structures, e.g. word set structure in pre-grammar condition, linear grammatical structure in syntactic understanding, and ambiguous map-liked structure in semantic-matched multiple cognition. The distinctive structure features of GPP include. (1) In the early understanding, the data structure of GPP shows a linear feature; (2) in the medium-term understanding, semantic trigger point brings the breakdown of the original model, and the data structure of GPP is a word set structure; (3) in the late understanding, processing breakdown results in backtracking and GPP creates a tree-liked data structure at the end; (4)the dynamic understanding of GPP is the integration of two structures except map-liked one, and the activation of semantic trigger point brings additional cognitive load. The difference between tree-liked data structure of GPP and map-liked data structure of ambiguity reflects the dissimilarity between these two syntactic phenomena from the perspective of data structure, which provides the theoretical support for computational linguistics to interpret GPP.
garden path phenomenon; data structure; cognition; half-returned feature; semantic trigger

杜家利(1971—),副教授,主要研究領域為計算詞典學,計算語言學,句法學和術語學。E?mail:dujiali68@126.com于屏方(1971—),教授,主要研究領域為詞典學和漢外語言對比。E?mail:yupingfang68@126.com
1003-0077(2015)01-0028-10
2013-01-25 定稿日期: 2013-03-18
國家社科后期資助項目(12FYY019; 12FYY021);廣東外語外貿大學人才引進項目(399-X3413012)
TP391
A