999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間跨度的漢語教學常用詞表統計研究①

2010-01-11 09:39:14王治敏
華文教學與研究 2010年4期
關鍵詞:詞匯

王治敏

(北京語言大學漢語學院,北京 100083)

基于時間跨度的漢語教學常用詞表統計研究①

王治敏

(北京語言大學漢語學院,北京 100083)

統計特征;教材編寫;統計詞表

本文利用語料的頻次信息和時間跨度,通過設計不同的統計時點,建立了兩個可以反映詞語歷時變化的漢語名詞常用詞語統計詞表。兩個統計詞表不僅為《漢語水平詞匯與漢字等級大綱》新詞的收取和歷史詞的過濾提供了有價值的數據,也為人工選取教學詞匯提供了有益的參考。為驗證統計詞表的可靠性,本文又進行了統計詞表與教材高頻詞的對比研究,結果表明《人民日報》雖然是新聞語料,但是基本包含了漢語作為第二語言教材中的常用詞匯。

1.前言

漢語常用詞表的研制歷史由來已久,學者們經過多次實踐,研制出多個面向不同需求的常用詞詞表,例如:1986年北京語言學院研制的《現代漢語頻率詞典》;1989年北京航空航天大學的《現代漢語常用詞詞頻詞典》;北京師范大學的《中小學漢語教學詞表》;1990山東大學的《現代漢語常用詞庫》以及 1992年國家漢語水平考試委員會辦公室考試中心研制的《漢語水平詞匯與漢字等級大綱》(簡稱 HSK詞匯大綱)。其中 HSK詞匯大綱的影響最大,大綱中詞匯的篩選不僅集成了上述各類詞表的資源成果,同時還邀請了 33位對外漢語教學專家進行人工干預。詞匯大綱曾經作為我國對外漢語總體設計、教材編寫、課堂教學、教學測試的重要依據,在學界發揮了重要的作用,但是由于詞匯大綱所用的統計語料全部來自上個世紀 80年代,多年來未曾更新,有些詞匯已經不再使用。

長期以來,學者們對于詞匯大綱的修訂提出過種種建議。趙金銘 (2003)提出在大型語料庫進行精詞頻和義頻統計之后重新進行詞語篩選和分級。姜德梧 (2004)從詞匯的發展變化、收詞標準、詞性標注、同形詞和一詞多義的處理、輕聲和兒化等多個方面提出了解決這些問題的原則和方法。李紅印 (2005)提出把大于詞的短語、結構、成語和習用語歸入新增的 “語匯大綱”,與已有的 “漢字等級大綱”、“詞匯等級大綱”相照應。劉長征 (2008)提出利用語言監測的相關結果,實現對外漢語教學用詞表定期更新的設想。如何繼承原有大綱的成果,研制新的大綱是亟待解決的問題。

因此,本文嘗試利用大規模語料的統計結果,自動提取和發現漢語常用詞語,建立名詞常用詞語統計詞表,為詞匯大綱的詞條收取和更新提供科學可靠的依據,也為制定基于統計特征的漢語教學本科詞匯大綱提供思路。

2.常用詞語統計詞表的設計方法

常用詞的界定往往要和基本詞匯聯系在一起,常用詞就是當代社會中常用的詞,它可以是基本詞匯的詞,也可以是一般詞匯的詞,常用詞的確定完全根據詞在最流行的書刊中的頻次 (劉叔新,1964)。一個詞語是否常用,往往是憑借經驗和直覺的判斷,但是這種直覺判斷往往帶有主觀的個人因素,不同的專業背景可能有不同的結果,因此,制定一個詞語收取的客觀標準非常重要。

國家語言監測與研究中心在《中國語言生活狀況報告》中發布了針對中國內地報紙、廣播電視和網絡的用字用詞的調查結果。該調查基于超大規模語料,考慮了平面媒體、有聲媒體、教材媒體等多方面的因素,而且發布了年度流行語的監測。由于時間只有一年的跨度,上述調查還無法判斷詞語的持續性,無法作為判定常用詞的標準。

因此,本文給出了一個量化的定義,衡量一個詞語是否常用,最重要的應該看該詞是否能夠在特定的時間段中持續流行,這就是說,一個詞語的常用程度不能只通過一個點的頻次記錄來衡量,而應該把該詞語放在歷史大背景下,通過考察詞語在多個統計時點的變化來確定其常用程度。如果一個詞在特定歷史時段中的統計時點上出現數量很多且分布很均勻,根據出現的頻繁和穩定程度可以認為該詞為常用詞匯。如果一個詞語在某一個特定歷史時段的多個統計時點上出現很少或者不出現,我們就認為該詞的使用情況復雜,有待于觀察,不能作為常用詞匯。為了驗證這一假設,本文以《人民日報》作為基本語料,考察《人民日報》(1999~2003)這一歷史時段詞語的發展變化。選擇《人民日報》主要是考慮到語言的規范、發行量、影響力等多方面的因素。

在 5年的《人民日報》中如何確定統計時點是首先要考慮的問題。本文設計了兩種統計方案,第一種以 5年《人民日報》中 20個季節時點作為統計對象,第二種選擇以 5年《人民日報》中的第一個季度 (5個季度)作為統計對象,期望通過兩種統計的對比分析,確定最合理的常用詞語提取方法。語料加工如下:

首先,利用北京大學計算語言學研究所自主研制的分詞軟件對 5年的《人民日表》進行切分標注,然后把經過分詞標注后的語料按照季度分成 20個子集 S1、S2……S20。先后提取詞語在 20個子集和第一季度 5個子集的詞頻統計數據,建立兩個可以反映詞語變化曲線的《人民日報》統計詞表。這兩個統計詞表記錄了在 5年時間詞語在季度上的統計數據。

其次,常用詞語必須滿足在 20個季度或者5個季度的統計詞表中均有出現,通過這樣的篩選,在任意一個季度不出現,都會被過濾掉。最后兩個統計詞表所收的名詞如表1所示:

表1:漢語名詞統計詞表收詞情況統計

兩個統計詞表的統計時點不同,得到的常用詞語集合也有所差別,統計的時點越多,限定條件越嚴格,得到的名詞條數越少。20個季度統計詞表中的名詞詞條只有 8607條,而 5個季度統計詞表得到的名詞要高得多,名詞總數達到 11175條。兩個詞表詞條總數不同,詞語分布是否也存在差異?筆者對此進行了調查,調查結果表明,當名詞的平均頻次大于 10次、50次、100次時,詞表的名詞個數變化曲線基本重合。當名詞的平均頻次小于 10次時,兩個詞表的個數出現了明顯的分化,兩個統計詞表的名詞數分別為 2562條和 5297條。數量上有了明顯差距,這說明兩個詞表最重要的收詞差異在于低頻詞的收取方面,具體分布如圖 1所示:

圖1:統計詞表詞語分布與對比分析

詞語在兩個詞表的季度節點上的平均頻次紀錄較高,往往很常用。例如:“經濟、企業、公司”是現代生活中的高頻詞,它們在兩個詞表的平均頻次全部超過了 2000次以上。因此未來新詞的收取主要考慮平均頻次靠前的詞語。

有一些詞語在統計詞表上雖然有記錄,但是頻次非常低,說明其常用程度不高。例如:“大哥大”現在已經不用,只是語料中還有零星紀錄,不過這樣的詞語相對于頻次高的詞語,它的變化曲線也幾乎為零。例如:

圖2:“大學、信息、大哥大”的詞語變化圖示

還有一些詞語,在 20個季度中分布不穩定。例如:“小鬼”在 20個季度的平均頻次為2.15次,在 2000年和 2003年第四季度的頻次為 0,與之相比,“火柴”的頻次相比高一些,平均頻次為 4.95,但是其分別在 2001年第一季度、2002年第二季度和 2003年的第四季度分別出現了 0紀錄。“火柴”這個詞語反映了人們社會生活的變化,原來人們使用火柴點火做飯,現在出現了電子打火,城市里居民幾乎不再使用火柴?!盎鸩瘛钡念l次出現了明顯變化。因此“小鬼、火柴”被排除在統計詞表之外。

圖3:“小鬼、火柴”的詞語變化圖示

漢語中有很多詞語可能會在這一時段出現,但不能保證在所有的統計時點中出現,大量的低頻、分布不均勻的詞語都會被本文設計的統計詞表自動排除。

統計詞表中還有一些詞語,受突發事件的影響,在個別季度中出現急劇增加。以“肺炎、疫情、傳染病”為例:

圖4:兩個統計詞表中“肺炎、疫情、傳染病”的變化圖示

這 3個詞語在 2003年的使用頻次猛增,致使這 3個詞語的季度平均頻次不能反應它們的真實使用程度,因此詞語的收取不能光考慮平均頻次,還需要考慮它的穩定程度。

3.統計詞表的穩定參數設計

王治敏 (2009)提出一個衡量詞語穩定程度的U作為選取常用詞語的依據,該模型反映了詞語在語料中出現的平均頻次及詞匯波動性等因素。因此本文采用該模型來計算。

式 (1)中,f表示詞語出現的平均頻次,其計算公式如式 (2)所示;stdev(f)表示詞語出現頻次的標準差,其計算公式如式 (3)所示。

式 (2)、式 (3)中,n為詞語統計頻次f的個數。從公式 (1)可以看出,參數與詞語在語料庫中出現的平均頻次成正比,與詞語出現頻次的標準差成反比。詞語的季度平均值反映了使用該詞語的頻繁程度,一個詞語使用得越頻繁,其在語料中的季度平均值越高。標準差stdev(f)反映了該詞語出現頻次的波動程度,一個詞語在季度中的分布越不穩定,其標準偏差的值越大,U的值就越小。比如和年度突發事件的詞語標準偏差很大,參數U就會把這些詞語排除在外。

按照評價參數U,排名越靠前,詞語穩定性和季度出現頻繁程度就越高。我們按照兩個統計詞表中的U值排列順序統計發現,排名靠前的詞語中有大量名詞可以作為未來 HSK詞匯大綱的備選新詞語。不過,兩個統計詞表在備選詞語提取方面存在明顯的差異,具體如圖 5所示:

圖5:統計詞表中新詞備選分布圖示

在U排名前 500條詞語中,5個季度的統計詞表中在新詞備選遠遠高于 20個季度的統計詞表,備選詞語有 258條,已經占總數的 51.6%。而 20個季度的統計詞表前 500位中只包含備選詞語 156條,占總數的 31.20%。這說明 5個季度的統計詞表在新詞提取方面具有明顯的優勢。因此,未來 HSK詞匯大綱的新詞收取應主要參考 5個季度統計詞表的數據。

4.HSK詞匯大綱中名詞的更新

漢語名詞統計詞表記錄了詞語的各種統計特征,為漢語詞匯大綱的所有詞語提供了在大規模語料中的歷時分布,也為濾掉陳舊詞匯提供了可能。筆者分別用兩個統計詞表對 HSK詞匯大綱的名詞進行了篩選和人工統計,結果如下:

圖6:兩個統計詞表中未出現的 HSK歷史詞匯

兩個統計詞表分別濾掉 HSK名詞 179條和153條,從上面的統計可以看出,丁級詞匯比例最高,兩個詞表分別為 145條、124條,相比較而言,20個季度的統計詞表的過濾能力比 5個季度的過濾能力稍強,這可能與兩個統計詞表的詞語限定條件有關。兩個詞表的交叉部分為138條。具體分布如表2所示:

表2:兩個統計詞表共同過濾掉的 HSK歷史詞匯

丁級詞匯的交叉部分為 112條,占絕大部分。甲級詞匯最少,只有一例 “汽水”。 “汽水”原來是人們生活中常用詞,但由于生活水平的提高,出現了種類繁多的飲品,人們常常統稱為“飲料”,可以考慮用 “飲料”替換掉“汽水”。上述詞語絕大多數都是不常用的詞匯,例如“火柴、冰棍兒、?;?、尼龍、的確良”等詞語所指的事物已經在人們生活中基本消失,應該考慮剔除。除此之外,還有與農業生產、戰爭相關的詞語,對留學生的漢語教學作用不大,也可以征求專家意見后考慮有選擇地剔除。

5.教材高頻詞和統計詞表的對比研究

2006年中國語言生活狀況報告中發布了漢語作為第二語言教材用詞調查結果,并給出了漢語作為第二語言教材中具有代表性的 1500條高頻詞 (蘇新春,2006)。這 1500條高頻詞語由 12套教材統計得到,最低頻次為 33次,覆蓋了總語料的 77%,這樣高的比例足以說明學者們在編寫教材時對這些詞語的認同。為此筆者對這些高頻詞作了進一步的統計,考察發現二字詞最多,占到全部詞語的 59.60%,一字詞位居第二,占全部詞語的 37.73%,三字詞 38個,占全部詞語的 2.53%。名詞在 1500高頻詞中共計 479條,基本占全部高頻詞語的 1/3。在這些名詞中,一字名詞 99條,二字名詞 359條,三字名詞 20條,沒有四字名詞。

圖7:1500高頻名詞字數分布

從上面的統計可以看出,二字名詞的比例非常高,已經占全部名詞的 72.23%。因此二字名詞將是研究的重點。除此之外,高頻名詞中沒有四字詞語,這說明對外漢語教材中四字成語使用非常少,這可能和 HSK詞匯大綱的收詞有關,在 HSK詞匯大綱中成語不在考慮范圍內,今后也要加強這方面的研究。

教材中的高頻名詞大多是我們生活中的基礎詞匯,它們在《人民日報》中分布如何?在本文設計的統計詞表中有多大比例?筆者對此做了詳細考察,發現 479高頻名詞中有 466個詞語都包含在 20個季度統計詞表中,占全部詞語的 97.29%。這足以說明,《人民日報》雖然是新聞語料,語體方面很正式,但是基本涵蓋了人們日常的生活詞匯。因此,選擇《人民日報》語料作為實驗語料完全可行。

不在《人民日報》加工出來的統計詞表的詞語共計 12個,它們是 “嬸、太祖母、少爺、掌柜、一年、每年、每天、年輕人、期中、民族、英語、大聲”。其中 “嬸、太祖母、少爺、掌柜”并不是常用的稱呼用語,特別是 “少爺、掌柜”現在已經基本不用?!耙荒辍⒚磕辍⒚刻臁睕]有出現在《人民日報》統計詞表中主要是由于切分問題,在語料中,“一年、每年、每天、年輕人”不是以一個詞語的形式出現,分別被切分成兩個詞。“民族”在語料中以 “民族之林 /n、民族主義 /n、少數民族 /n”出現。統計詞表中雖然沒有 “英語、漢語”,但是 “中文、英文”都在統計詞表中,這可能和《人民日報》的語體有關。

6.結語

本文以名詞為例,利用語料的時間跨度和頻次信息設計了兩個漢語名詞常用詞語統計詞表,并利用該詞表自動過濾 HSK詞匯大綱中過時的詞匯,實現了詞匯大綱的半自動更新,常用詞語統計詞表為詞匯大綱中的所有詞匯繪制了一個歷時的詞語變化圖譜,為人工選取教學詞匯提供有益的參考。兩個統計詞表在新詞收取和歷史詞匯更新方面具有各自的優勢,因此未來詞匯大綱的收詞應該綜合利用兩個統計詞表的統計數據。上述方法同樣也可用于其他詞類的常用詞語提取研究。

另外,統計詞表和教材高頻詞的對比研究也表明,《人民日報》雖然是新聞語料,但是基本包含了漢語作為第二語言教材中的常用詞匯,這為利用新聞語料開展常用詞語的統計研究提供了有價值的證據。

北京語言學院語言教學研究所 1986 《現代漢語頻率詞典》,北京語言學院出版社。

國家漢語水平考試委員會辦公室考試中心 2001 《漢語水平詞匯與漢字等級大綱》 (修訂本),經濟科學出版社。

國家語言資源監測與研究中心 2006 《中國語言生活狀況報告 2005》(下編),商務印書館。

國家語言資源監測與研究中心 2007 《中國語言生活狀況報告 2006》(下編),商務印書館。

姜德梧 2004 《關于〈漢語水平詞匯與漢字等級大綱〉的思考》,《世界漢語教學》第 1期。

李紅印 2005 《〈漢語水平詞匯與漢字等級大綱〉收“語”分析》,《語言文字應用》第 4期。

劉長征 2008 《對外漢語教學用詞表的多元化與動態更新》,《語言文字應用》第 2期。

劉叔新 1964 《論詞匯體系問題》,《中國語文》第3期。

蘇新春 2006 《對外漢語詞匯大綱與兩種教材詞匯狀況的對比研究》,《語言文字應用》第 2期。

王治敏 2009 《漢語常用名詞的自動提取研究——兼論“漢語水平詞匯與漢字等級大綱”的詞語更新問題》,《全國第十屆計算語言學學術會議論文集》(CNCCL):52-58。

趙金銘 張 博 程 娟 2003 《關于修訂 <漢語水平詞匯等級大綱 >的若干意見》,《世界漢語教學》第 3期。

The Statistical Research on Diachron ic Changes of the Common Wordlist for Chinese Teaching

WANG Zhi-min
(College of Chinese Studies,Beijing Language and Culture University,Beijing100083,China)

statistical characteristics;textbook compilation;statistical database

Frequency and time span of corpus are used to establish two statistical databases for common nouns,which can reflect the diachronic changes of Chinese nouns by designing different time points.The databases not only provide the valuable data for collecting the new words and filtering the historical words for Syllabus ofGraded W ords and Characters for Chinese Proficiency,but also provide the beneficial reference for artificial selection of the teaching vocabulary. In order to verify its reliabilty,we make a contrast analysis of the statistical database and high frequencywords of textbook.The results show that thePeople'sDaily,as a news corpus,contains the basic common nouns for Chinese as a second language teachingmaterials.

H195

A

1674-8174(2010)04-0049-07

2010-06-18

王治敏 (1972-),女,北京語言大學副教授,博士,碩士生導師,主要從事對外漢語教學、自然語言處理研究。

教育部人文社科研究項目 (09YJC740010);國家語言資源中心平面媒體分中心課題

①本文曾在國家語言資源監測與研究中心暨平面媒體分中心成立五周年學術會議上宣讀,陸儉明教授、馮志偉教授、楊爾弘教授提出了諸多寶貴意見,特此致謝。

【責任編輯 蔡 麗】

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
一些常用詞匯可直接用縮寫
山東醫藥(2017年33期)2017-10-09 12:31:41
詞匯小達人
一些常用詞匯可直接用縮寫
山東醫藥(2014年48期)2014-12-02 04:34:34
一些常用詞匯可直接用縮寫
山東醫藥(2014年34期)2014-12-02 04:33:52
主站蜘蛛池模板: 四虎精品国产AV二区| 色老头综合网| 国产日韩精品欧美一区喷| 激情在线网| 国产主播在线一区| 欧美精品v| 亚洲天堂伊人| 欧美高清日韩| 黑人巨大精品欧美一区二区区| 她的性爱视频| 日本久久网站| 亚洲精品卡2卡3卡4卡5卡区| 欧美精品黑人粗大| 亚洲精品国偷自产在线91正片| 国产欧美日韩专区发布| 国产一级二级在线观看| 日韩天堂在线观看| 98超碰在线观看| 亚洲天堂.com| 国产18在线播放| 欧美在线天堂| 日韩黄色精品| 久久综合亚洲色一区二区三区| 91久久精品日日躁夜夜躁欧美| 97se亚洲| 国产精品久久国产精麻豆99网站| 亚洲一级毛片| 色婷婷视频在线| 99热6这里只有精品| 深爱婷婷激情网| 亚洲精品无码日韩国产不卡| 午夜国产不卡在线观看视频| 99视频在线精品免费观看6| 99re热精品视频国产免费| 亚洲精品动漫在线观看| 国内a级毛片| 亚洲精品国产成人7777| 一级毛片无毒不卡直接观看| 人妻丰满熟妇啪啪| 国产在线第二页| 在线无码av一区二区三区| 自慰网址在线观看| 丰满的少妇人妻无码区| 欧美高清视频一区二区三区| 国产成人av一区二区三区| 91久久天天躁狠狠躁夜夜| 国产一二三区视频| 国产成人免费手机在线观看视频 | 在线a视频免费观看| 最新国产精品鲁鲁免费视频| 亚洲天堂日韩在线| 久久这里只有精品2| 免费在线国产一区二区三区精品| 毛片在线播放网址| 亚洲成人高清在线观看| 99久久无色码中文字幕| 国产麻豆va精品视频| 亚洲制服丝袜第一页| 久热re国产手机在线观看| 无码aⅴ精品一区二区三区| 亚洲熟女中文字幕男人总站| 欧美国产成人在线| 激情午夜婷婷| 国产精品蜜芽在线观看| 亚洲第一极品精品无码| 日韩人妻少妇一区二区| 亚洲天堂网2014| 欧美一区二区啪啪| 成人蜜桃网| 免费国产福利| 热这里只有精品国产热门精品| 国产一区二区丝袜高跟鞋| 国产伦精品一区二区三区视频优播| a亚洲视频| 免费精品一区二区h| 成人看片欧美一区二区| 亚洲AⅤ综合在线欧美一区| 久久久噜噜噜久久中文字幕色伊伊 | 婷婷六月激情综合一区| 欧美日韩国产综合视频在线观看| 国产精品尤物在线| 91丝袜乱伦|