郗昕
·專家筆談·
當前中文言語測聽的幾個誤區
郗昕1
中文言語測聽材料歷經60年的曲折發展,近十年來取得了長足的進步[1],建立起了成人普通話言語測聽的完整體系,基本能滿足日常臨床言語測聽的需求。但在全國推廣中文言語測聽的過程中,筆者發現許多耳科醫師、聽力師對言語測聽的基本概念和臨床意義存在著一定的誤區。
人類聽覺最重要的功能是接收和理解言語,如果只能選擇一種測試來評價聽覺功能,那就一定是言語測聽[2]。換句話說,受試者的言語識別能力是評判其聽功能的金標準。
眾所周知,人類的言語是一種其強度和頻率都隨時間不斷變化著的聲信號,其頻率范圍約為100~6 000 Hz,且世界各語種的長時平均會話語譜都大體一致[3](圖1)。但正是由于世界上(從高度文明的西方社會到尚處荒蠻的原始部落)存在著多種語言,使得聽力學家要尋求更易于為全人類共同使用的測聽方法,這就催生了純音測聽技術。純音信號易于標準化,國際上已形成了一套完備的技術標準和測試規范,因此可以作為各種客觀聽閾檢查(如ABR、ASSR)的參照系。但必須意識到,純音測聽只是測試了言語頻率范圍內若干個倍頻程頻率處的聽閾,它并不能反映言語識別過程中的諸多細節;純音聽閾并不一定與言語識別能力相匹配,否則就不會有今天大家都在熱議的“聽神經病譜系障礙”了。
回顧一下聽力學的早期發展史,就可以很明晰地看到:言語測聽與純音測聽技術始終并駕齊驅。二戰結束后,以英語為主的言語測聽在評估退伍老兵的聽力傷殘和選配助聽器時占有重要地位,在美國、英國得到迅速發展并走向規范化。隨后的60多年,圍繞言語測聽的研究熱潮一直沒有降溫,各國基于英文測聽范式開發的多語種言語測聽日漸豐富[4]。我國幅員廣闊、民族眾多、方言龐雜,開發中文言語測聽材料的任務十分艱巨。自20世紀50年代嘗試開展中文言語測聽以來,一些語音學家、心理學家、耳科醫師和聽力學工作者傾注了大量心血,在21世紀的第一個十年終于初步建立起中文普通話言語測聽的標準化體系[5]。

圖1 長時平均會話語譜在純音聽力圖上的分布呈香蕉狀,故俗稱香蕉圖
隨著人工耳蝸等聽覺康復技術在我國的廣泛開展,學術界、政府及慈善家都希望能真切地了解助聽器、人工耳蝸的康復成效,為規范臨床診療實踐、規劃國家中長期的殘疾人輔助政策提供依據[6]。由于認識到開展中文言語測聽的緊迫性,國內以解放軍總醫院[7]、北京同仁醫院[8]為代表的多家研發團隊已先后研發出不同版本的單音節字、雙音節詞和短句測聽材料。這本是十分可喜的局面,但許多單位在啟動言語測聽臨床檢查項目時卻首先遇到了一個困惑——如何選擇恰當的測試材料?
僅就單音節表而言,甲單位每表25個字并正式出版了CD,乙單位每表50個字并進行了臨床驗證,丙單位僅僅是邀請播音員照著前人的字表念了一遍;就短句表而言,甲單位可在安靜及噪聲下測試,同時提供發音人的視頻,允許在視、聽、視+聽三種模式下進行,乙單位在同一張語句表中的句子有長有短……由此不少耳科醫師建議中華耳鼻咽喉頭頸外科學會應規范中文言語測聽,建立起一套全國通用的標準化的言語測聽材料。
但事實上,追溯標準化的起源,典型的事例之一是:當初不同的工廠都在各自生產螺釘與螺母,但由于缺乏統一的規格尺寸,A廠生產的螺釘,無法裝配到B廠生產的螺母上,導致極大的浪費。后來國際標準化組織制訂了螺釘與螺母的系列性的標準尺寸(直徑、螺距等),眾廠家都采用此系列標準,彼此的產品就可以通用了。從上述例子可以看出,標準化并不意味著螺釘與螺母只能由一家生產,只要出廠的螺釘與螺母符合標準尺寸,該工廠的產品就可以被廣泛使用。
言語測聽材料可以看作是一個測量工具,借助它可以測試患者的言語識別能力。而言語識別能力是軟性指標,只有理論上的識別率,量程范圍為0%~100%。既然言語測聽材料是一個測量工具,它就涉及到測量效能(稱為效度)、結果的可靠程度(稱為信度)、區別差異的能力(稱為敏感度)等問題[9]。
3.1 效度 所謂效度,反映的是測量工具的有效性,即該測試工具是否能真實測量出需要測試的內容。具體到言語測聽,效度考察的就是使用該言語測試材料能否準確地反映出患者言語識別能力的殘障程度。從語前聾兒童到語后聾成人,其言語認知能力跨度很大,這就要求針對不同的測試對象或測試目的開發多種難度水平的言語測聽材料。換句話說,不能用中學生的試卷來考小學生,否則無論優劣,小學生的得分都會很低;相反,也不能拿小學生的試卷來考中學生,否則能力平庸和能力出眾的中學生都會得高分,無法真實地反映他們的能力差異。
對新開發的言語測聽工具的效度進行評價,可以選用一個為業界公認的言語測聽“金標準”,將兩者的測試結果進行平行對照,以印證新開發的測聽材料的有效性。但當業內尚未確立公認的言語測聽材料時,多采用表面效度的方式進行。表面效度評價的是測量方法或觀測結果所說明的問題是否符合專家和公眾共識[10]。
3.2 信度 信度反映的是測試結果的可靠性。若只是由于擔心受試者對測聽語料存有記憶而在前后兩次測試中采用了兩張彼此等價的測試表,其它所有測試條件都保持不變,而受試者在前后兩次測試時得分的變異度(variability)很小,則可以認為該測聽工具具有良好的可靠性。測試材料的可靠性,蘊含了兩方面的內容——得分在多次測試中的穩定性和多張表之間的一致性。當用同一張表重復測試同一組受試者時,希望前后兩次得到的分數是穩定的,可用復測信度[11]來描述。當用同一套測試的多個詞表測試同一受試者時,希望各個詞表的得分都是一致的,可用復本信度(也常被稱為表間等價性)來描述。
有關信度指標可分別在聽力正常及聽力減退的人群中進行重復測量,只要其得分的變異度能與統計學上的隨機誤差的量級大體對應,并符合臨床上對測量誤差的寬容度[12](如純音聽閾可允許±5 dB的誤差),就是符合信度要求的測試工具。
3.3 敏感度 敏感度反映的是測量工具所能區分出的最小差異值。當改變測試條件(如言語強度、信噪比)時,受試者言語分辨能力上的“實際”差異,若能通過某一言語測聽工具反映出來,則該測聽工具是敏感的。
言語測聽材料的敏感度通常體現為識別率隨言語聲級(或信噪比等)增減而出現的分值變化,即識別率-強度(P-I)函數的斜率。采用敏感度高的測試材料,則言語聲級(或信噪比)上的稍許提高就足以使識別率的提升量超出隨機誤差的波動范圍,而易于得出可靠的結論。因此言語測聽材料在編制過程中應追求較高的敏感度。
用另外一種測量工具——溫度計為例,可以更生動地說明效度、信度和敏感度指標在標準化中的意義。在市場上可以買到不同廠家生產的多種溫度計——水溫計、氣溫計、體溫計,它們的特征見表1。針對不同的測量目的,三種溫度計采用了不同的材質并具有特定的量程范圍和長短不一的外形;也為了測量可靠性的需要,出廠前均經過質量檢驗,保證了測量誤差在允許的范圍之內。水溫計本也可以用來量體溫,但為什么還要生產專門的體溫計呢?關鍵的原因在于兩者的敏感度差異很大。體溫每升高1℃,體溫計中的水銀柱會增0.6 cm,而水溫計中的酒精柱只增0.2 cm,對人眼常規目視能力而言,顯然體溫計對微小的溫度變化是最敏感的。只要滿足上述測試效能(效度)、測量可靠性(信度)和區分度(敏感度)的要求,溫度計可以由不同的廠家生產。

表1 各類溫度計的量程范圍(效度)、誤差(信度)與敏感度
如上所述,標準化的言語測聽材料應是經過臨床驗證的、符合效度、信度和敏感度指標的測試材料。不論它是A單位還是B單位開發的,也許它們都是單音節表,只是在編排上、測試項的數量上存有差異,但只要是經過了效度、信度和敏感度驗證的測聽語料,它們就都是標準化的言語測聽材料。
隨著我國聽力學的發展,特別是助聽器、人工聽覺植入技術的廣泛開展,面對不同年齡、認知水平的兒童及成人患者,面對不同言語康復階段的聾兒,還需要花大力氣研發更多的標準化言語測聽材料。但在制訂某一具體的研究方案時,比如開展全國多中心的國產人工耳蝸研究時,就應針對測試對象(成人或兒童、兒童的認知和言語能力)和實驗目的(成效評估或中文編碼策略改進)選定某一種最適宜的標準化言語測聽工具。
必須充分認識到研發標準化中文言語測聽材料的艱巨性。卜行寬教授[13]曾說,在科技史上恐怕很難找到一個像中文言語測聽一樣經歷了50年仍然未能較好推廣的項目了。原因正如從事了60年中文語言聲學研究的張家騄研究員所言,敢于從事言語測聽材料的開發,是需要極大的勇氣和耐心的。僅就測聽材料的文字編撰而言,就涉及到語言學(音系學、語音學、詞法、句法、語法、語用學)、心理學(兒童發展、心理測量)、統計學(測試項的數目及同質性)等多學科的知識[14]。錄音及后期處理又涉及到許多聲學或信息技術。測聽材料的表間等價性、測量的隨機誤差范圍等性能指標,則需要經過嚴格的多中心的臨床實驗的驗證[15]。但遺憾的是,某些進口聽力計的廠家,在缺乏理論根基的情況下,只是請播音員將前人編制好的詞表文字稿錄了音,未經任何效度、信度和敏感度認證,就將其擴充到號稱具有內置式中文言語測聽的聽力計中,實在是“無知者無畏”的行為,應引起學界的高度警惕。
圍繞言語測聽材料的研發工作,各單位應揚長避短、相互切磋,合理布局、避免撞車。建議由各級與聽力相關的學會,通過舉辦學習班、網絡教學等渠道,大力推廣標準化的中文言語測聽,厘清基本概念和澄清錯誤認識,使中文言語測聽真正能夠成為可與純音測聽比肩的常規測試項目。
1 郗昕.中文言語測聽材料的新進展[J].中國眼耳鼻咽喉科雜志,2008,8:341.
2 Hall JW,Mueller HG.Speech audiometry[M].In:Hall JW,Mueller HG,eds.Audiologist’s Desk Reference.San Diego:Singular Publishing Group,1997.115~174.
3 Byrne D,Dillon H,Tran K.An international comparison of long-term average speech spectra[J].J Acoust Soc Am,1994,96:2 108.
4 Wilson RH,Mc Ardle R.Speech signals used to evaluate functional status of the auditory system[J].J Rehabil Res Dev,2005,42(4 Suppl 2):79.
5 亓貝爾,張寧,劉博.中文言語測聽材料概述[J].中華耳鼻咽喉頭頸外科雜志,2012,47:607.
6 郗昕,黃高揚,冀飛,等.計算機輔助的中文言語測聽平臺的建立[J].中國聽力語言康復科學雜志,2010(1):31.
7 張華,王碩,王靚,等.普通話言語測聽材料的數字化錄制與等價性分析[J].臨床耳鼻咽喉科雜志,2006,20:1 011.
8 張宇晶,郗昕.成人人工耳蝸植入相關的中文言語識別評價體系的建立[J].聽力學及言語疾病雜志,2012,20:387.
9 郗昕.言語測聽工具的效度、信度與敏感度[J].中華耳科學雜志,2008,6:1.
10 顏艷,徐勇勇.數據處理的其它統計方法[M].見:孫振球,徐勇勇,主編.醫學統計學.北京:人民衛生出版社,2002.485~509.
11 冀飛,郗昕.言語測聽材料的復測信度評估[J].中華耳科學雜志,2008,6:50.
12 Killion MC,Niquatte PA,Gudmundsen GI.Development of a quick speech-in-noise test for measuring signal-to-noise ratio loss in normal-hearing and hearing-impaired listeners[J].J Acoust Soc Am,2004,116:2 395.
13 卜行寬,倪道鳳.推進中文言語測聽材料的標準化和臨床應用[J].中華耳科學雜志,2008,6:9.
14 郗昕,顧瑞,冀飛.發展言語識別率測試材料的理論框架[J].聽力學及言語疾病雜志,2006,14:401.
15 冀飛,郗昕.影響言語測聽的若干因素[J].聽力學及言語疾病雜志,2009,17:209.
(2012-10-08收稿)
(本文編輯 周濤)
10.3969/j.issn.1006-7299.2012.06.001
時間:2012-11-01 12:50
R764.04
A
1006-7299(2012)06-0509-03
1 解放軍總醫院耳鼻咽喉頭頸外科(北京 100853)
網絡出版地址:http://www.cnki.net/kcms/detail/42.1391.R.20121101.1250.023.html