張瑞朋
(中山大學 國際漢語學院,廣東 廣州510275)
目前在對外漢語教學與研究方面,中介語語料庫的建設與運用是個熱門,但是漢字偏誤標注信息,尤其是錯字信息在中介語語料庫中體現得還不夠。
北京語言大學HSK動態作文語料庫是目前公開的規模較大的綜合性語料庫。該庫從字、詞、句、篇、標點符號等角度對語料進行了全面標注,其中關于漢字的標注項目有:錯字、別字、漏字、多字、繁體字、異體字、拼音字等。語料庫對錯字的處理方式是:在語料中用正確字代替錯字,并在旁邊標注出錯字符號,用戶要想查看錯字原貌,必須打開原始的掃描語料。但因為掃描版中的錯字沒有編碼,故無法直接檢索和統計,更無法進行字形對比。其他能見到的語料庫中,錯字偏誤標注信息也不充分,僅僅表示是錯字或者別字,這除了與計算機技術水平有關外,也與語言學界對漢字偏誤的研究有關。
留學生“學習一定的漢語詞匯,對漢語和母語詞匯方面的差異有了一定的了解,學生在運用漢語詞匯的時候,就會有意識地擴大這種差異,由于掌握的漢語詞匯知識的不足,從而導致偏誤”[1]。偏誤分析自中介語理論引進以來,在我國已全面展開研究。目前關于偏誤分析,主要集中于詞匯和語法方面,在外國人書習漢字的偏誤方面雖已有所探討,但尚未系統展開。關于外國人書習漢字的偏誤,學界主要有對漢字偏誤進行分類、考察漢字習得的形音變化……