










關鍵詞 人工智能;大語言模型;語言學知識;空間語義理解;數據合成
中圖分類號H002 文獻標識碼A 文章編號2096-1014(2024)05-0007-15DOI 10.19689/j.cnki.cn10-1361/h.20240501
一、引言
ChatGPT 等大語言模型的問世,引發了對以喬姆斯基理論為代表的語言學研究理念的尖刻批評,如Piantadosi(2023),Hinton(2024)。語言學家不甘示弱,做了針鋒相對的回擊,如Katzir(2023),Chomsky,Roberts amp; Watumull(2023)。
喬姆斯基在《語言知識:性質、來源及使用》(Chomsky 1986)一書中提出了兩個發人深思的問題。一曰“柏拉圖問題”(Plato’s problem):為何人能在證據嚴重不足的條件下知道如此之多?二曰“奧威爾問題”(Orwell’s problem):為何人在證據充足的情況下卻又如此無知?前者關乎個人認知,是喬姆斯基提出的“語言先天論”的主要依據a ;后者關乎社會認知,是喬姆斯基政治評論的核心關切b。這兩個問題有著強烈的“沖突張力”。其中所謂的“證據”(evidence),可以理解為一般常說的“數據”(data);而與“數據”相對的,則是人所知道的“知識”(knowledge)。這樣來看,喬姆斯基提出的這兩個問題,實際上共同關聯著一個更為基本的問題,即“知識”和“數據”之間到底是怎樣的關系。更進一步,在今天大語言模型引領的人工智能(AI)時代,面對以ChatGPT 為代表的大語言模型有時表現出的堪比人類水平的自然語言生成和理解能力,作為語言學研究者,很自然地會沿襲喬姆斯基的提問方式,生發出這樣的疑問:為何機器能在不需要語言學知識加持的條件下,獲得如此驚人的語言能力?為何人在語言學知識如此豐富的條件下,卻始終未找到幫助機器把語言學知識轉化為語言能力的可行途徑?
本文并不打算展開探討上面這兩個宏大的問題,而是嘗試以這兩個問題為背景,從機器學習的視角,重新思考如何認識知識與數據之間的關系。我們相信,要在AI 時代更好地發展語言學研究,發揮語言學研究成果的價值,更需要堅持實證主義的研究路徑,通過大量不斷地與機器的語言交互,來深入考察和分析機器在自然語言相關任務上的“能”與“不能”,從而深化對機器以深度學習方法學習人類語言這種特殊方式的理解,同時也加深我們對人類自身語言能力和語言學知識之間關系的理解(詹衛東2024)。
需要強調的是,數據是具體可觀察的,在本文中特指語言材料;知識是抽象的模型,在本文中如不說明則特指語言知識。語言學家提出的各種語言學理論,稱為“語言學知識”,是人類對于語言知識的想象和外化,而非語言知識本身。
二、機器空間語義理解能力評測任務設計
人與機器的關系,可類比人類語言教學中教師與學生之間的關系,可以分為教學和測試兩個方面來看。
先看教學,在人類嘗試讓機器具備人類自然語言能力的早期探索階段,是完全按照人類師生教學的模式進行的,即把人總結出的語言學知識(詞典和語法規則)轉換為形式語言表述的結構化知識庫,作為語言模型教給機器。構建這樣的語言模型,主要依賴人的洞察力,或者直接由人工發掘,或者借助計算機輔助人來發掘,都是以顯式符號為基礎、對人而言可理解的知識表征。這就是所謂“符號主義”(Symbolism)的人工智能研究路徑。后期崛起的“聯結主義”(Connectionism)人工智能則完全是另一條路徑,機器學習人類語言的方式從向人學習逐漸發展演變成了以“自學”(Self-SupervisedLearning)為主。受人類大腦的神經網絡工作原理啟發,計算機科學家設計了多層深度人工神經網絡,直接通過“輸入字符串–輸出字符串”的數據配對(可大致理解為“問題–答案”樣例),學習一個能夠映射“輸入–輸出”數據的函數,即所謂“端到端”(end-to-end)的學習方法,使得機器在給定輸入字符串條件下,能得到正確的輸出字符串結果(參見Wolfram 2023)。以“張三是縣長___來的”為例,如果以這個缺失了詞語的句子作為輸入,輸出字符串可以是“派/ 請/ 抓/ 昨天招聘來”等等。把這樣的“輸入–輸出”數據對,喂給深度神經網絡學習,在句子數量足夠多、神經網絡參數足夠大的情況下,機器最終就可以捕捉到漢語中任意詞語之間在特定語境條件下的依賴關系,從而表現出能夠理解句子意思以及生成出自然句子的能力。
再說測試。機器的語言能力和智能水平,需要通過測試來檢驗(Legg et al. 2007 ;Chollet 2019 ;董青秀,等2021)。針對機器的測試,大致有4 類做法。(1)可看作考語言學知識,比如讓機器完成中文分詞、詞性標注、句法結構分析等任務,機器需要掌握詞、詞類、句法結構層次分析等語言學專業知識。但這種測試方式在大語言模型出現后基本已經行不通了,因為語言學知識和語言實際應用能力之間并無必然的關系,從最終應用的角度看,人們希望機器具備實用的語言能力(比如翻譯、寫文章等),而不是具備語言學能力。(2)直接拿考人的題目來考機器,比如用高考這樣的標準化考試來考大語言模型。可參看Zhong et al.(2023)。(3)大型綜合性評測。具體又可分為兩種不同的情況:一種是有較為系統的測試體系,并且由程序來判分,如SuperCLUE、C-Eval、OpenCompass 等大型測試平臺a ;另一種是不設測試體系,由人類投票,采用Elo 等級打分系統來評分,如大模型盲測競技場LMSYS Chatbot Arenab。(4)專項考試。這種方式相當于單科測試,一般聚焦于考察機器某一特定方面的能力,比如考察常識推理能力的Winograd 挑戰賽及其升級版Winogrande 挑戰賽a。
本文介紹的SpaCE 評測研究工作b,屬于上述第四類專項考試的范疇,考試科目可以概括為中文空間信息語義理解。開展這項研究的動機是探索以語言學知識來指導具體測試任務的設計和數據集的制作。概括來說,我們的指導思想有二。(1)從“形式— 意義”對應關系的視角看機器的語言能力,區分“形式—意義”配對容易和困難的問題。之所以選擇空間信息語義理解這個主題,是因為空間信息的主要語言標記方位詞屬于指示語(deixis)范疇。跟實詞(如“國王、女人、旅行”等)不同,指示語的具體意義,需要依賴上下文和現實世界的情境,其“形式—意義”的對應關系超越了符號字面形式。人在理解的時候,需要調用更深的認知加工能力,才能在符號跟現實世界之間建立正確的聯系。(2)測試任務應有層次性和結構性,應能從多個維度和不同深度探測機器的語言能力。探測結果不是一個簡單的分數,而應該是機器語言能力的一個細粒度的綜合呈現,類似于一個詳細的體檢報告。第一點認識,是我們選擇空間領域作為測試主題的原因;第二點認識,則是我們進一步剖析空間領域內的具體問題,規劃測試子任務的工作依據。
下面逐一介紹針對文本空間信息理解設計的6 個任務,大體上遵循語言學中“語法—語義—語用”的遞進關系來展開。在SpaCE2021 到SpaCE2024 的評測賽事實踐中,后一屆賽事相對于前一屆,基本上是一個不斷增加任務類型的過程,SpaCE2024 覆蓋了這6 項任務中的5 個,是任務類型最多的(參見下文表8)。
(一)空間信息正誤判別
請看下面兩個例句。其中例(1a)是從自然語料中抽取的富含空間信息的一個段落,例(1b)是把(1a)中“遂右轉彎由東向西行駛”替換成了“遂右轉彎由西向東行駛”。
(1)a. 大客車沿新源路由北向南行駛至曹安公路路口處遇綠燈,遂右轉彎由東向西行駛,適逢被害人李紅英騎電動自行車沿新源路西側非機動車道由北向南行駛至此,兩車相撞。
b. ……遂右轉彎由西向東行駛,……
圖1顯示了例(1b)中的空間信息沖突。大客車由北向南行駛到十字路口右轉彎,其行進方向只能是由東向西,而不是由西向東。(1b)文本中蘊含的這個空間信息沖突,涉及對同一個實體(大客車)的3 個空間信息描述“由北向南”“右轉彎”“由西向東”在時序上無法銜接這一空間常識知識的理解。
當把例(1a)和(1b)這樣的句對呈現給計算機的時候,計算機應該能像人一樣,判斷(1a)中的空間信息是正確的,符合常理;(1b)中的空間信息是錯誤的,與常識相悖。
(二)異常空間信息識別
在判斷一段話中存在異常空間信息的同時,實際上也應該能清晰地將異常信息的片段抽取出來,這就是比文本空間信息正誤判斷更具體的文本中異常空間信息識別任務。下面來看一個文本中包含異常空間信息的例子。
(2)夫妻倆商量了幾天,買了一輛農用三輪車。農用三輪車的油門在左把手上,張順東請人改到左邊,他就能用左手操作了。
例(2)中的異常空間信息在于“農用三輪車的油門在左把手上,張順東請人改到左邊”這個片段。既然已經“在左把手上”,還要“改到左邊”,就不合常理,形成信息沖突。如果用自然語言來描述(2)中的異常空間信息,不同的人可能會有不同的表達方式。為便于對機器的答案進行自動評分,最好是對標注格式進行統一規范。為此,我們提出了S–P–E 空間三要素標注法,其中S 代表空間實體,P 代表空間方位信息,E代表跟S–P有關的事件信息(一般E 由動詞表達)。表1 展示了對例(2)的3 種S–P–E 標注形式。很顯然,第1 種標注各要素對應整齊,最為合理;另外兩種標注,P要素或E要素信息標注各有不合理的地方。限于篇幅,這里不展開討論,有興趣的讀者可訪問SpaCE 網站查詢關于S–P–E 標注的詳細規范。
(三)缺失參照成分補回
中文常見的表達空間方位的形式是“名詞+ 方位詞”,如“教室里面”“桌子上面”。但行文中方位詞前的名詞常常也會出現承前省略的現象。例如:
(3)a. 這20 管試劑都被封存在一個長方形的紙箱里,上面貼了一張白色的標簽。
b. 這20 管試劑被封存在一個長方形的透明玻璃箱里,上面事先都貼了不同顏色的標簽。
例(3a)和(3b)逗號后面小句開頭的“上面”這個方位詞不是緊跟在名詞之后,這個“上面”依賴前文哪個名詞,需要聯系上下文,在理解句子中實體之間語義關系的基礎上才能確定。這兩個句子的詞語差異并不是很大,但“上面”所依賴的參照成分卻是明顯不同的:(3a)的空間信息應解讀為“紙箱上面貼了一張白色的標簽”,(3b)則應解讀為“20 管試劑上面都貼了不同顏色的標簽”。人有能力準確地理解整句所表達的空間場景信息,其中就包含一種能力,即在方位詞前面補出缺失的空間參照成分。
(四)空間語義角色標注
從語言學角度講,人對文本中空間信息的理解能力不僅可以通過前面3 個任務體現,還可以進一步通過對文本中空間信息的結構化分析,在更深的層面上做更細粒度地刻畫。下面例(4)是前文例(1)的更完整的文本。表2 就是對這一文本中空間信息的結構化標注。
(4)2020年7月16日7時8分許,牌號為XXX的大客車沿新源路由北向南行駛至曹安公路路口處遇綠燈,遂右轉彎由東向西行駛,適逢被害人李紅英騎電動自行車沿新源路西側非機動車道由北向南行駛至此,兩車相撞。
跟上文提到的S–P–E 三要素標注相比,表2 展示的空間語義角色標注多了一個時間(T)要素。我們把這個語義角色標注體系稱為“STEP 空間語義角色標注體系”。其中P 細分為10 個空間角色(如“處所、方向、朝向、起點、終點、路徑……”等等),對每個“事件E”,還要進一步標注論元角色“施事”“受事”等。此外,語料中“此”指“曹安公路路口”,“兩車”指“大客車”和“電動自行車”,這樣的同指(co-reference)信息也需要標注。限于篇幅,這里不展開討論,有興趣的讀者可訪問SpaCE2022 網站查詢STEP 空間語義角色標注規范。
(五)空間表達異形同義判別
空間方位詞在實際使用中,存在語義對立消失的現象,比如“汽車上有炸彈= 汽車里有炸彈”。這也正是上文說過的,方位詞屬于指示語范疇,其具體的空間方位所指,需要更多的認知加工參與,其形式和意義之間的對應關系比其他實詞類表達更為復雜。下面來多看幾個這種“異形同義”的例子,即句子間存在空間表達的形式差異(通常是一詞之差),但不同形式卻可以指相同的空間場景。例如:(5)a. 至今菲律賓的土著居民在見面時,握過手后還要轉身向后走幾步,意思是向對方表明背后沒有藏刀。
b.……握過手后還要轉身向前走幾步,……
(6)a. 昨晚,飯桌上,奶奶、爸爸和我爭著同媽媽說話,直到我雙手將媽媽的臉扳向我為止。
b. 昨晚,飯桌旁,……
(7)a. 在一座小縣城的一間教室里,工人們正在安裝一塊電子白板。“借助網課,我們的學生坐在教室里,就可以跟著里面的名師學習,享受優質的教育資源。”校長興奮地說。
b.……就可以跟著外面的名師學習,……
c.……就可以跟著上面的名師學習,……
例(5)兩個句子一句是“向后”,一句是“向前”,形式有別,但整句所表達的空間場景信息實際上并無區別。(5a)的“向后”是相對于“轉身之前”的方向而言,(5b)的“向前”則是相對于“走”的方向而言,即(5a)是“轉身向后”,(5b)是“向前走”。表面上(5a)和(5b)在相同的位置上“后”跟“前”對立,但這個形式上的差異僅僅是表層線性字符串層面的差異,從語言學深層句法結構的層面來看,(5a)跟(5b)是相同的結構,即“轉身+ 走幾步”,表層的“向后”或“向前”可以刪去而不影響句子的語義。
例(6)“飯桌上”跟“飯桌旁”的對立消失,類似于“汽車上”有時候相當于“汽車里”,“大門前”有時候相當于“大門外”,都跟方位詞的多義性,以及空間認知圖式有關。
例(7)中在相同位置有3 個方位詞“里面、外面、上面”形成形式上的對立差異,但由于方位詞前可補回的參照成分不同,實際上整句可以表達完全相同的場景。
空間表達異形同義包含了不同的類型。除方位詞的對立有時會消失外,趨向動詞也有類似現象。
漢語語法學界討論較多的所謂“主賓換位”現象,有的也屬于空間表達異形同義。如“門口站兩個人”“兩個人站門口”,“北大西門正對著蔚秀園東門”“蔚秀園東門正對著北大西門”,等等(參見第4 節表11)。有關空間表達異形同義現象,我們擬專文討論,這里不展開。
(六)空間方位關系推理
要考察機器對文本空間信息的綜合理解水平,最合適的任務是空間方位關系推理。下面是一個空間關系推理題例子。
(8)桌上有三塊積木,紅的在綠的上面,黃的在綠的下面。現在把最下面的拿到最上面來。移動之后,中間的積木是什么顏色的?
例(8)中包含3個實體,題面涉及“上面、下面”,以及隱含的“中間”方位(題面上未出現,僅在題干部分出現)。像這類涉及實體較少、空間關系相對單一的推理任務,大語言模型的表現比較好。但實際上,當空間中實體數量變多、空間關系類型增加之后,大語言模型在空間關系推理任務上的表現會出現顯著下降。下文將介紹我們在SpaCE2024 中制作空間關系推理題的情況(見表8),以及大語言模型在這一任務上的表現(見表9)。
三、空間語言理解能力評測數據集制作
上一節提出了針對文本空間語義理解的6項任務。要將這些任務轉化落實為對機器空間語言理解能力的考試,就需要制作一定規模的數據集。表3概括呈現了6項任務的類型及數據集制作方式,之后對SpaCE系列評測的數據制作的總體情況做簡要討論。
為了制作包含異常空間信息的語料,我們首先對自然語料文本中跟空間方位信息有關的詞語進行替換,然后由人工來判斷替換后的文本是否存在空間信息異常,同時對文本中的異常信息片段進行標注和分類,這樣就可以得到任務1 和任務2 的數據(詹衛東,等2022)。其中空間標記詞390詞,空間實體詞632 詞。表4 中的空間標記詞就是候選的替換詞。根據詞語的實際用法特點,分布相近的詞語構成替換詞族,由程序掃描原始語料,將一段語料中的空間標記詞批量替換成同一個替換詞族中的其他詞語,形成新的語料,進入標注流程。
圖2 是SpaCE2022 數據集制作工作流程圖,全面展示了文本空間語義理解能力測試中主要數據集(任務1 到任務4)的制作工作步驟(圖中標記了12個主要環節)。
圖2 中,標注? 位置的工作是對數據集中的語料進行分配。除一般機器學習常見的劃分訓練、驗證、測試數據集外,在SpaCE 系列測試任務中,還要在不同子任務中放置一定比例的同源題。如上文例(7),同樣的題面,既可以用作異形同義判別的任務,也可以用于缺失參照實體補回的任務,因為這個例子中的3 個替換詞語位置分別是“里面”“外面”“上面”,3 句話屬于異形同義句組,而造成異形同義的原因,正是這3個方位詞前面省略的參照物實體不同:(7a)是“(網課)里面”,(7b)是“(縣城)外面”,(7c)是“(電子白板)上面”。表5 統計了SpaCE2022 和SpaCE2023 兩屆評測中同源題的占比,SpaCE2022 的同源題在測試集中占比不足15%,這對分析機器在不同任務上表現的相關性是不利的。因此,SpaCE2023 將同源題在測試集中的占比提高到了超過45%(表10 報告了機器在SpaCE2023 同源題上的成績相關性)。
任務5 很難從自然文本中收集語料:采用替換詞語方法造成的“異形”句對,很難恰好滿足“同義”條件。這一任務的數據制作主要針對特定的方位詞對、趨向動詞對,依靠人工編寫來得到符合“異形同義”條件的語料,同時借助大語言模型的生成能力來生成候選語料。表6 展示了GPT–4 輔助生成“異形同義”句對語料的例子。
任務6同樣也難以從自然語料中獲取,人工編寫推理題成本太高,而且很難保證試題質量。為此,我們提出了一種基于空間布局知識庫由程序自動生成推理題的數據合成(data synthesis)方法(將另文討論)。下面是一個示例。
(9)豬八戒、高翠蘭、東海龍王、鐵扇公主四人來到茶餐廳吃飯,坐在四人卡座上。卡座分東西兩排,每排坐兩人,坐東邊的兩人面朝西,坐在西邊的兩人面朝東,兩排人面對面而坐。已知:高翠蘭面朝東且在東海龍王左手邊挨著坐,豬八戒右手邊坐著鐵扇公主。請問:高翠蘭坐在_____ 正對面。(圖3)
程序自動出題方法的基本思想是:基于一個已知的空間布局(其中實體數量確定、實體方位關系固定),由程序從該空間布局的知識庫文件(包含該空間布局的全部實體方位信息的陳述和推導規則)中隨機抽取(生成)n 條命題,該n 條命題須能夠還原出一個完整的空間布局,然后以其中n-1 條命題構成題面,剩下的1 條命題中去除1 個空間實體或空間關系詞,構成問題,即生成1 道有效的推理題。目前已實現四人卡座,六人向心(面對)圍坐,六人離心(背對)圍坐,三層兩列置物架等4 類空間布局,生成了近4000 道推理題a。
我們按照上述數據制作方法完成了從SpaCE2021 到SpaCE2024的數據加工,語料規模如表7 所示。
需要說明的是,SpaCE2023 和SpaCE2024 語料均取自SpaCE2022 語料池(近0.9 億字)。該語料池中一般性語料占比83%,專業領域語料占比17%。前者包括:報刊語料(36%),文學作品語料(25%),中小學語文課本語料(20%),語言學空間研究相關論文例句語料等其他類語料(2%);后者包括:交通事故判決書語料(9%),體育動作訓練教材語料(6%),地理百科語料(2%)。最終得到SpaCE2022 數據集總共約2.5 萬條語料,每條語料長度范圍為16~256字,平均長度114.23字,標準差49.64字,總字數約285萬。
SpaCE2023 對已有數據做了質量優化處理,未增加新的語料;SpaCE2024在原有基礎上小幅擴充了語料標注規模,同時用程序生成了一部分語料(空間關系推理題)。SpaCE2024 對全部任務統一采用選擇題形式來命題,覆蓋了5 個任務:異常空間信息識別(DSA),缺失參照實體補回(RSR),空間語義角色標注(ISR),空間表達異形同義判別(RSE),空間方位關系推理(SPR)。表8 是SpaCE2024 數據集各類任務數據規模統計表。
四、機器空間語義理解能力評測結果簡要分析
關于SpaCE 歷屆賽事中參賽系統的表現,可參考詹衛東等(2022)、肖力銘等(2023a,2023b),也可在SpaCE 評測網站查詢詳情。本節對機器表現值得關注的幾個方面略做簡要分析。表9 呈現了SpaCE2024 賽事部分參賽系統在5 項任務上的得分情況。
SpaCE2024 的參賽系統全部采用大語言模型完成任務(具體選擇的模型及采取策略各有不同)。表9 按照系統在5 項任務上表現優劣從左到右排序。可以看到,模型在空間語義角色標注、缺失參照成分補回、異常空間信息識別等任務上表現更為出色,而在異形同義判別、空間關系推理任務上表現不佳,尤其是空間關系推理任務,最好成績也不到38 分。值得注意的是,在語義角色標注、缺失參照成分找回、異常空間信息識別任務上,基線1 的成績超過基線2,說明對于常見的任務類型,微調效果顯著;而對于異形同義判別、空間關系推理等難度更高、訓練樣本數據較少的任務類型,基線1表現低于基線2,微調沒有明顯效果,模型的參數規模起到更顯著的作用。
下面再簡要看一下SpaCE2023 的3 個子任務上的機器表現情況。表10呈現了基線系統(基于BERT 微調模型)在SpaCE2023 的task1(異常空間信息識別)和task2(空間語義角色標注)兩個子任務同源題上得分的相關性。
BERT 微調模型在task1 和task2 兩個任務上的總體表現不佳,得分分別是0.55 和0.48,模型在兩個任務同源題上的成績相關系數非常低。這說明機器在完成空間語義理解任務時,即便是同一領域的不同子任務,仍然可能是針對特定任務形式進行學習,而沒有“打通”底層的語義邏輯。
表11 呈現了大語言模型在SpaCE2023–task3(異形同義判別任務)上的表現。因試題數據規模不大(只有100 題),不一定能從大語言模型的表現得出可靠的結論。但值得注意的是,ChatGPT–3.5 在異形同義題上的得分比異形異義題低12 個百分點,應該能反映大語言模型的“知識能力”仍具有非常突出的“數據驅動”特點,因為在日常語料中,絕大多數的情況都是“異形異義”,這屬于常規數據。相比之下,“異形同義”是從語言學研究者角度特別關注的稀有超常規數據,大語言模型的表現相對較差,也就在情理之中了(可對照Liu et al.(2023)基于“分布外(out of distribution,OOD)數據”對大語言模型推理能力的測試研究a)。
空間表達的異形同義現象可以從不同角度認識和分類。對此我們將另文討論。這里簡要說明表11中的分類:方位圖式相同指“上–里”同義的情形;趨向動詞指“插上–插下”同義的情形;方位詞義包含指“上端–頂端”類同義情形;方位詞義相同指“里–中–內”同義情形;實體投影關系指“鏡頭前–鏡頭里”同義的情形。SpaCE2023–task3 要求機器分兩步來答題,先判斷一組句對屬于“異形同義”句還是“異形異義”句,然后再按照一定的模板格式,解釋判斷理由。表11 中分“判斷”和“解釋”兩列呈現了機器表現情況。
總的來看,對大語言模型來說,SpaCE 系列空間語義理解能力評測,依然是高挑戰性任務。解決問題的線索越是依賴表面分布特征(形式線索),機器就越容易獲得好的成績,而越是依賴深層語義理解的任務(認知能力),或者可獲得的訓練樣本數據量越小的任務,機器就越容易表現不好。本文沒有介紹SpaCE 系列任務上人類測試的情況(可參考詹衛東,等2022)。值得注意的是,對于空間語義理解中“異形同義判別”這類凸顯認知加工主觀性的任務,初步的人類測試結果也顯示了不同個體之間較為突出的不一致性,對此將另文討論。
五、結語
本文較為全面地介紹了基于語言學理念設計SpaCE 系列評測任務以及相應的數據集制作工作的總體情況。這項研究還有許多可改進之處,比如測試題對各類空間語言現象的覆蓋率,試題內部的結構化設計,包括難度在內的更多更靈活的特征變量控制,等等。
在面向大語言模型的語言能力測試研究工作中,本文引言中提出的問題—— 知識和數據的關系—— 具體化為:如何依據語言知識提出好的語言能力測試問題,制作出高質量的測試題(數據)。如果語言知識真的足夠可靠,就可以基于語言知識,由程序來自動生成數據。SpaCE2024中的空間關系推理題,就是從人類語言知識出發實現由程序自動出題的一次嘗試。更進一步,我們需要思考:能否在更大范圍內、更系統地進行類似的實踐?換言之,如何讓語言學知識來系統地指導“從知識生成數據”的語言工程實踐?在符號主義AI 時代,語言學知識的價值在于以程序可讀知識庫形式,直接用“顯性符號知識”去武裝機器的“大腦”;在當前的聯結主義AI 時代,語言學知識的價值需要重新定位,即用于指導生產小而精的高品質語言數據,人類不再直接以知識,而是以數據(即語料)形式來“喂養機器的神經網絡”,實現提升機器學習的效果和效率的目標。
喬姆斯基開創的“生成語言學”革命,首次把語法視作一種“生成裝置”,即“一個語言(L)的語法將是一個生成所有L 序列而不生成任何非L 序列的裝置”(Chomsky 1957,第2 章)。如果語法真的能做到這一點,也就實現了喬姆斯基為語法研究勾畫的“All and only”的宏偉藍圖(Chomsky 1957,第8 章)。在今天的時代背景下,為了計算應用的目的,或許在喬姆斯基當年明確提出的語法研究的3 個目標“對語言現象的觀察充分(observational adequacy)、描寫充分(descriptive adequacy)、解釋充分(explanatory adequacy)”(Chomsky 1965,第1 章)之上,還應該升格一個更具挑戰性的目標——生成充分(generative adequacy)。
1965 年,諾貝爾物理學獎得主、物理家理查德·費曼(Richard Feynman)在黑板上留下一句名言:“What I cannot create, I do not understand.”(一個事物可理解的前提是我能創造它。)創造了ChatGPT的OpenAI 公司同樣把這句話作為生成式人工智能的宣言。無獨有偶,世界著名華人數學家丘成桐先生也表達過類似的看法:“理解幾何結構最透徹的方法就是弄明白如何從零開始構建幾何結構。”這些思想,跟生成語法學的理論追求一致,或許都可以概括為:檢驗知識的最佳手段,就是用知識去生成數據。
語言學家的大腦應該是比計算機程序更厲害的語言數據生成器。比如喬姆斯基創造的那些例句,實際上對于今天的大語言模型來說,仍然構成挑戰。d 在深度學習技術為主流的AI 研究中,通過知識生成數據,再將數據用于模型訓練和測試,不僅可以檢驗知識的可靠性,更可以直接助力提升模型的性能。而能夠用知識生成數據的前提,正是“知識是可靠的”。反過來,如果語言學知識無法生成出“正確的語言數據”,人們就有理由懷疑:已有的語言學知識不可靠,或者還不夠可靠。因此,語言學工作者應該借助計算機程序,或者借助自己的腦力,將更多語言學研究成果轉化為語言數據。知識是不是有效,生成數據測一測才知道。在AI 時代,語言學理論的價值是用理論生成(創作)例句,而不僅僅是用理論解釋例句。