范俊軍
(暨南大學 文學院, 廣東 廣州 510632)
?
【語言學研究】
中國瀕危語言自然話語轉寫規則(試行)*
范俊軍
(暨南大學 文學院, 廣東 廣州 510632)
本文定義了中國瀕危語言自然話語轉寫規則,內容包括五個部分:一、定義和范圍;二、引用和參考的規范性文件;三、口語現象;四、轉寫規則;五、轉寫符號集。本規則適用于中國瀕危語言自然話語的采集、記錄和建檔,也可作為中國語言口語語料庫建設的參考準則。
中國瀕危語言; 自然話語; 轉寫規則
本文定義了瀕危語言自然話語中常見的口語現象,制定了自然話語錄音錄像的轉寫規則,適用于中國瀕危語言口語聲像資料的采錄、加工和建檔,也可作為漢語方言和少數民族語言田野調查記錄以及口語語料庫建設的參考準則。
(1)美國加州大學圣巴巴拉分校《美國英語口語語料庫轉寫規則》(SBCSAE DT2,2006)。
(2)臺灣語言研究所《口語現象標記》(2005)。
(3)德國語言研究院《話語分析轉寫系統》(GAT2,2009)。
(4)維也納大學、牛津大學出版社《維也納—牛津國際英語語料庫轉寫規則》(VOICE Transcription Conventions,2008)。
自然話語是語言社群日常交際中自然發生的口語,包括獨白口述、情景對話、游戲、表演和說唱,等等。口語由言語、口音現象、非語音人聲和背景聲音構成。言語是口語的主體。口音現象是說話人在說話過程中的伴隨發音特征。非言語人聲是說話人發音器官發出的非語音聲音和肢體動作聲音。背景聲音是說話人之外的自然環境聲音和人為聲音。
(一)口音現象 phonological phenomena
【拖長音】字音或詞音節發音拖長,不限定在音節中的出現位置。
【吞音/合并音】說話過快或圖省力而出現的幾個音節合并、一帶而過的囫圇發音。
【同化音】由語流發音影響而改變本來發音。
【異讀音】同一個字詞有兩種或以上習慣發音。
【習慣發音偏差】發音偏離標準發音,但習慣上固定,有規律可循,仍可辨識字詞。新老派發音差異歸入此類。
【臨時發音偏差】發音偏離標準發音,無規律可循,但仍可辨識字詞。
【鼻化音】標準音無任何鼻音而實際說話時出現鼻音。不包括鼻塞產生的鼻音。
【喃喃自語】說話中無意讓對方聽見的連續不斷的獨自小聲說話,內容清楚可辨。
【無法辨識的語音】說出的話語無法聽清是何音、何字、何意。
【不確定字詞音】根據前后話語可猜出大意,但不完全確定;或能聽清發音并猜測大意,但無法確定具體字詞。
【外來影響音】母語人能明顯分辨的其他方言或語言借入的語音,或受其他方言和語言影響而產生的非母語習慣發音。
【語碼轉換】話語中插入或轉說別的語言或方言。
【外語詞】話語中的外語詞,包括用母語譯音的專有名詞。
【沉默】說話人因話題銜接不上而無法維持正常接話速度時產生的停頓。
【停頓】語流中500毫秒以上的自行中斷。對話回應中因態度猶豫而產生的有意停頓也歸入此類。
【短停頓】語流中200~300毫秒的自發中斷。
【口吃】說話人習慣性的發音重復、中斷、拖長、含混現象。
【無停頓續語】本應先停頓再接著說卻沒有停頓而連續的話語。
【片段音】字詞音節發音不完整,但能根據前后內容判斷是何音、何字、何詞。
【半截字詞音】一個詞只說了一半便突然中斷,而轉說別的詞語。
【打住話頭/半截話】一句話未說完即中斷,并開始新的語句;或發覺不該說而半途中斷說話。
【被打斷語句】話語未結束即被另一說話人搶走說話權,造成說話被迫中斷。
【重復語】因說話受干擾或說話人自身緣故而出現的同一個字詞兩次重復發音。多次習慣性重復歸入口吃。
【口誤】說話中的用詞和語法錯誤。發音錯誤歸入臨時發音偏差。
【更正插語】說話時提示或糾正口誤和發錯音的插入語。
【停頓插入語】說話時用于舒緩語氣和緩沖時間,以便思索組織話語的習慣插入語。如“這個,這個”等。
【重疊話語】說話人話輪還未結束,另一說話人同時開始新的話輪。
【回應插語】對話過程中聽話人不時說出的簡短字詞,表示在聽對方說話,或表示回應、同意、附和。
【同聲回應】多位聽話人同時應答或呼應。
【語速變快】語流中明顯快于習慣速度的話語。
【語速變慢】語流中明顯慢于習慣速度的話語。
【嗓音提高】說話過程中突然提高嗓門或大聲說話。
【耳語】能聽清語意內容的耳語。
【輕聲細語】語流中嗓音和音量明顯低于正常說話聲的話語。
【引語仿聲】說話過程中為模仿他人說話而改變自身嗓音和音色。
(二)非言語人聲 non-phonological sounds
【口腔或鼻腔音】笑聲、哭聲、呼氣聲、吐氣聲、喘氣聲、吸氣聲、咂嘴聲、嘖舌聲、嘆氣聲、哈欠聲、打嗝聲、噴嚏聲、沙啞聲、鼻塞聲、清喉嚨聲、咳嗽聲、口哨聲、吞口水聲、哽喉聲,以及其他無法辨識的聲音。
【肢體動作聲】掌聲、叩擊聲、腳步聲,其他肢體動作發出的聲音。
(三)背景聲音 background noises
【自然界噪聲】風聲、雨聲、雷聲、流水聲、獸叫聲、鳥叫聲、蟲叫聲、牲畜叫聲、家禽叫聲,以及其他自然界聲音。
【機械噪聲】車船飛機聲、廣播電視聲、家用電器聲、手機電話鈴聲、電流聲、音樂聲、電磁波、干擾聲,以及其他機械電器噪聲。
【背景人聲】喊叫聲、吵鬧聲,說話人以外的其他說話聲,其他的人為噪聲。
轉寫*轉寫通常指口語中言語部分的文字記錄,而對言語的翻譯、解釋、分析等記錄則稱為標注。本規范的轉寫包含轉寫和標注。是將錄音錄像的話語和言語行為按時序用文字和符號做作同步記錄,使口語變成可閱讀文本。轉寫分為最簡轉寫、基本轉寫、綜合轉寫三個等級。最簡轉寫定義瀕危語言口語錄音錄像的必需轉寫項,基本轉寫定義最簡轉寫之上的增加項,綜合轉寫是包含最簡轉寫、基本轉寫和多模態轉寫的復雜精細轉寫。
(一)轉寫精細度層級 Transcription delicacy hierarchy
1.最簡轉寫 Minimal transcript
最簡轉寫包括下列各項:
a.說話人姓名,或假名、代號;
b.話語的標準正字(詞)法轉寫(適用于有文字的語言);
c.話語的羅馬字母轉寫(適用于無文字的語言);
d.話語國際音標注音;
e.普通話逐句意譯;
f.普通話逐詞對譯;
g.話語口音現象標注;
h.非言語人聲和背景聲標注;
i.注釋或說明。
2.基本轉寫 Basic transcript
基本轉寫包括下列各項:
a.句(末)語調;
b.句子重音;
c.詞重音;
d.韻律句(可選);
e.音步(可選)。
3.綜合轉寫 Complex transcript
綜合轉寫包括下列各項但不限于:
a.手勢、身勢和互動行為;
b.聲學數據(可選);
c.其他多模態數據(可選)。
(二)轉寫數據結構 Transcript data structure
口語轉寫應使用轉寫軟件工具。轉寫文本采用分層結構,文本與錄音對齊鏈接。使用普通文字處理軟件轉寫口語,應按話輪和語調單位行間轉寫。非言語聲音的轉寫符號應同步在言語轉寫文本中標記,其他非聲音或多模態內容應另層標記。
用漢字轉寫的普通話和方言話語文本原則上不分詞,口語現象隨漢字文本標記。也可增加拼音文本。拼音文本必須分詞。口語現象也可以在拼音文本中標記。
從右到左書寫和豎排的少數民族轉寫文本,應增加羅馬字母拼寫文本,口語現象在拼音文本中標記。
轉寫符號用于轉寫話語結構要素、口音現象、非言語人聲、背景噪聲等現象。
(一)話語結構要素標記符號 Symbols of discourse structural elements

要素轉寫符號使用說明說話人Lidahai用漢語拼音或羅馬字母拼寫,開頭字母大寫。化名~Zhangsan化名前面加波浪號。會話場景Geka
(二)口音現象標記符號 Symbols of speech phenamena

要素 轉寫符號 使用說明結尾語調 語調單位結束,用句點。停頓語調 語句未完時的停頓,用逗號。疑問語調 疑問語調單位,用問號。帶笑話語 @ <@>話語@>一個詞帶笑聲,在該詞首標記。幾個詞帶笑聲,在起始和結束處標記。嗆喉或沙啞話語 % <%>話語< %>一個詞帶沙啞聲,在詞首標記。幾個詞帶沙啞聲,在起始和結束處標記。變聲說話 話語< p>在變快話語的兩側標記。吞音/合并音<*>詞語< *>在發生吞音或合并音詞語的兩側標記。同化音 * 詞語在發生同化的字詞前面標記。異讀音 x 詞語在發生異讀音的字詞前面標記。習慣發音偏差<++>字詞< ++>在發生偏差音的字詞兩側標記。臨時發音偏差/口誤<+>字詞< +>在出現偏差音或口誤的字詞兩側標記。鼻化音<+n>字詞< +n>在出現鼻化音的字詞兩側標注。無法辨識語音 ### 猜測字詞 用#號標記無法猜測的字詞;或寫出猜測的字詞。不確定話語<#>話語< #>在不確定話語的兩側標記。喃喃自語 (三)非言語人聲標記符號 Symbols of non-phonological vocals 要素轉寫符號要素轉寫符號要素轉寫符號笑聲{@@}嘆氣聲{hi}鼻塞聲{nn}哭聲{MYMMYM}哈欠聲{ah}咳嗽聲{kk}呼吸聲{hh}打嗝聲{ee}口哨聲{oo}吸氣聲{xi}噴嚏聲{aq}掌聲{pp}吐氣聲{tu}沙啞聲{ss}叩擊聲{bn}喘氣聲{ha}吞口水聲{gu}腳步聲{dd}咂嘴聲{bb}哽喉聲{ka}其他肢體動作聲{!!}嘖舌聲{zz}清喉嚨聲{gg}無法辨識的聲音{##} (四)背景聲音標記符號 Symbols of background noises 風聲{feng}機械聲{^^^}雷聲{lei}車船飛機聲{feiji/chuan/che}雨聲{yu}廣播電視聲{tv}流水聲{shui}音樂聲{123}鳥叫聲{niao}手機電話鈴聲{tel}蟲叫聲{chong}其他家電聲{jiad}家畜叫聲{gou/niu/ji/ya}電流聲{~~~}獸叫聲{shou}吵鬧/喊叫/說話等人為噪聲{xxx}爆炸聲{bong}其他聲音{***} [責任編輯 閆月珍 責任校對 池雷鳴] 2016-05-10 范俊軍(1963—),男,湖南桂陽縣人,暨南大學漢語方言研究中心研究員、博士生導師。 國家社科基金重大項目《中國瀕危語言數字博物館建設的理論與實踐研究》(批準號:12AYY002)。 H0 A 1000-5072(2016)10-0030-06 * 本規則在“中國瀕危語言有聲資源采錄和立檔技術高級講習班”暨南二期、三期、四期上試用,本次公開發表,希望更廣泛征求意見。
