大語言模型的誕生“在人類歷史上稱得上史無前例的技術成就”(孫茂松),因為這使機器真正能跟人自由對話了。先前的自然語言處理—— 具體到漢語就是中文信息處理,其目的就是要讓機器能理解我們人所說的話語,反過來又能生成讓我們人能接受的話語,以實現“人機對話”。為達到此目的,上世紀70 年代解決了“字處理”問題;80 年代進一步解決了“詞處理”問題,包括分詞和詞性標注;90 年代逐步解決了“句處理”問題,包括句子的句法分析和語義分析。處理方法逐步由基于規則進而采取基于規則和統計相結合的手段。進入21 世紀,進一步嘗試研制并使用淺層神經網絡模型,同時開始使用多層感知機(MLP)、卷積神經網絡(CNN)和循環神經網絡(RNN)等“數據驅動”來實施自然語言處理,實際上已綜合使用詞匯分析技術、語法分析技術、語義理解技術、上下文關聯分析技術和深度學習算法,以提升中文信息處理的準確度。然而效果還不是十分理想。應該承認,大語言模型無疑大大超越了自然語言處理已有的成果。
面對這樣的情況,有的語言學者開始哀嘆自己的研究;而一部分學者,如辛頓這樣的諾貝爾物理學獎獲得者,竟對語言學加以蔑視,甚至大罵喬姆斯基。然而我們必須清醒地認識到,大語言模型的“語言”,跟自然語言有著本質的不同。
人賴以交際的語言是“自然語言”。自然語言的特點是跟人腦心智相連的,是與人的認知相連的。因此自然語言的能力,亦即人說話的能力,“來自人腦的學習能力”“來自人腦的語言知識”(詹衛東)。自然語言知識的底層是通過“范疇+ 規則”來處理的。要知道,人類任何一種自然語言都是一個音義結合且具有適用性的符號系統,這個符號系統隨著社會的發展而不斷發展變化。在這個音義結合的符號系統里,必然存在大小不等的音義結合的符號。自然語言的語法就是根據交際的需要由小的音義結合體構成大的音義結合體所遵循的一整套規則;具體說就是由語素構成詞、由詞構成短語、由短語構成句子、由句子構成段落篇章所遵循的一整套規則。語言工作者為了搞清楚這整套規則,就不斷地在各個層面上設立各種各樣的范疇,而每一層面的規則體現了不同范疇之間的聯系。
由于自然語言跟人腦心智相關聯,因此能不斷產出具有原創性的新的語言表達式。語言跟客觀世界并不直接聯系,都得經由認知域。人通過感覺器官感知客觀世界并形成直感形象或直覺;在認知域內進一步抽象,由直感形象或直覺形成意象圖式;在認知域內借助內在語言進一步由意象圖式形成具體的概念框架。
具體的概念框架投射到外在語言,尋找最能表示該概念框架的具體的表達式—— 可能已有的表達式能用來表達;也可能跟已有的表達式發生碰撞,產生新的表達式,并呈現為具體的句子。這種新的表達式廣為使用,所蘊含的新的語法規則就由此而產生。
可是,大語言模型的語言是“人造語言”,大語言模型只能從已有的人類文本中獲取“知識”。它不可能產生出原創性的新的表達式,因為它的所謂“語言數據”與語言外部的客觀世界不發生任何聯系。因此,大語言模型只是處理自然語言本身的數據,并不能處理豐富多彩的語言外的信息。
總之,必須清醒認識到,大語言模型跟人類的自然語言,其性質是迥然不同的。