對話、念讀兩種說話狀態下聲紋特征變化的實驗研究

2021-03-04 08:41:32黃頎涵陳維娜劉貽杰

實驗技術與管理 2021年1期

黃頎涵，陳維娜，劉貽杰

（中國人民公安大學，北京 100038）

當前，電信網絡詐騙案件持續高發，作案手段通常“只聞其聲不見其人”。為了贏得受害者的信任，犯罪分子往往會扮演特定的角色，以對話的形式實施詐騙；而在語音樣本錄制時，嫌疑人往往配合程度不高，以沒有感情的念讀形式進行錄音。因此在實踐中，檢驗人員通常要面對檢材為對話語音，樣本為念讀語音的情況。

在對話和念讀兩種不同說話狀態下，個人的聲紋特征勢必會發生一定變化。Brungart[1]曾指出，說話方式的改變會對聲紋鑒定產生巨大的影響。但國內針對不同說話狀態下語音的變化研究長期以來主要集中在語言學領域，如劉亞斌等[2]通過對ASCCD、CASS和CADCC這 3個語料庫的統計分析，歸納出朗讀語料與自然口語在音節、聲韻、副語言學和非語言學現象、語篇話題、話輪轉換、基頻變化以及音段音變現象等方面的不同之處。王茂林等[3]對漢語口語與朗讀話語陳述句音高進行了比較，結果顯示對話與朗讀話語多數語句的音高呈前高后低的走勢，不過口語對話較長語句最后一個韻律詞的音域相對較大，而朗讀話語內部韻律詞的音域大多沒有差異。而在法庭科學領域中，不同說話狀態下個人的發音會有怎樣的變化，是否會對聲紋鑒定產生影響，目前還缺少相應的研究。

為應對當前電信網絡詐騙案件的高發態勢，利用語音證據打擊違法犯罪，亟需確定對話、念讀兩種不同情境下個人聲紋特征的變化情況，評估這些變化對聲紋鑒定的影響。本文采用聲學-語音學研究方法，對普通話語流中代表發元音時舌頭活動外圍極限的3個主要單元音[a]、[i]、[u][4-6]進行研究，系統分析其聽覺特征和頻譜特征這兩大類聲紋特征的變化情況，總結其變化規律，擬為檢驗人員在司法實踐中提供有價值的參考意見。

1 實驗設計

1.1 錄音對象

考慮到涉案嫌疑人大多為青年男性，故實驗邀請了20位年齡在25~35歲、普通話較為標準的男性作為錄音對象，編號Y1—Y20。錄音時，發音人身體健康，未做過咽喉部手術，無嗓音疾病、感冒、醉酒等異常癥狀。

1.2 錄制過程

1.2.1 對話語音的錄制

使用帶有指向性的麥克風，FocusriteScarlett 2i4型聲卡，AdobeAudition錄音軟件（參數設置：采樣頻率16 kHz，精度16 bit，單聲道）以對話的形式，圍繞“談談你對校園內部管理的看法”“你寒假會和誰一起去哪里旅游”這兩個話題與錄音對象進行面對面交談，其中錄音對象的有效語音時長不少于120 s，且兩個話題中有較多相同音段。將錄音按編號和說話狀態進行命名，保存為WAV格式。

1.2.2 念讀語音的錄制

使用“訊飛聽見”語音軟件將對話錄音轉寫成文本，校對文本后讓錄音對象念讀3遍，以保證念讀語音與對話語音中有大量可供比對的相同音段。將錄音按編號和說話狀態進行命名，保存為WAV格式。

1.2.3 被檢音段的選擇

使用“國音智能聲紋鑒定系統”打開同一人的對話錄音和念讀錄音，檢索含央低元音[a]、前高元音[i]、后高元音[u]的單元音音段；經初步聽辨及語圖分析后，選擇個人在不同狀態下對應調音音質相同的音段，如寒[xan]、提[thi]、宿[su]等；確定每個人、每種狀態下包含3個單元音的6個特征音段為被檢音段，即每種狀態下檢測120個音段，共計檢測240個音段。

1.2.4 聲紋特征分析

首先，從聽覺上解析并判斷同一人在不同說話狀態下的發音差異；然后，通過聲紋鑒定系統制作語音的寬帶語圖，觀察并記錄 F1—F5共振峰走向、強度等頻譜特征的變化情況；最后，提取 F1—F5共振峰頻率值，進行聲學參數的測量和分析。

2 實驗結果

2.1 聽覺特征的定性分析

除了存在失真、升沉和掩蔽外，人耳是最好的辨音“儀器”[7-8]。運用人耳進行聽覺分析發現，說話狀態由對話轉為念讀時，發音人的共鳴方式并未發生明顯變化，但平均音高和音強等聽覺特征均有不同程度的變化。

從圖1可以看出，說話狀態改變后，20位錄音對象的待檢音段聽覺特征均發生了變化。其中，上述 6個音段中有 2~4個音段發生變化的共 17人，占總人數的85%。這說明在聲紋鑒定中，多數人的多數音段聽覺分析結果可能會受到說話狀態改變的影響。

圖1 說話狀態改變后聽覺分析的人數統計

由于個體發音具有一定的動態變化，故分別對兩種狀態下聽覺特征的穩定性和變異性進行統計，結果表明：在同一狀態下的120個待檢音段中，聽感無明顯差異的有107個，占89.2%，有差異的僅有13個，占10.8%；當說話狀態改變時，聽感無差異的降至59個，占49.2%，有差異的則有61個，占50.8%，詳見表 1。根據卡方檢驗，假設說話狀態的改變不會影響聽覺分析的判斷，計算得到漸進顯著性（P值）= 0，即P<0.05，拒絕原假設。由此可知說話狀態改變會影響聽覺分析的結果。詳見表2。

表1 二分類變量相關性分析個

表2 聽覺分析的卡方檢驗

2.2 頻譜特征的定性分析

2.2.1 共振峰走向

共振峰走向是指共振峰中心線在頻率—時間平面上的曲線形態[4]。圖2和3是同一人在兩種不同狀態下發同一音段時共振峰走向的類型圖，可以看出共振峰走向特征有些保持穩定（圖2），有些發生了變化（圖 3）。

圖2 錄音對象Y2在不同狀態發[a]音的共振峰走向相同

圖3 Y5在不同狀態發[u]音的F3共振峰走向存在差異

對對話、念讀兩種狀態下3個單元音[a]、[i]、[u]的F1—F5走向特征進行統計分析發現，在20位錄音對象發音所產生的300對共振峰中，走向特征發生變化的共振峰數在1~3對的有17人，占人數的85%，如圖4所示。實驗發現，不同單元音的共振峰走向變化情況不盡相同，其中元音[a]走向有差異的占比最高，為15.8%，元音[u]次之，為12.3%，元音[i]最低，為 12.0%，但彼此間數值很接近，沒有顯著差異，詳見表 3。但對所有走向特征發生變化的共振峰數量進行測算后，對比走向特征保持穩定的共振峰數量發現，走向無差異的共振峰數量占了絕大多數，而走向有差異的共振峰數加起來僅有40對，詳見表4。

圖4 說話狀態改變后共振峰走向變化的人數統計

表3 不同元音的共振峰走向變化數量統計表對

表4 不同共振峰走向變化的數量統計表對

2.2.2 共振峰強度

共振峰強度是各條共振峰的音強在頻譜圖上的分布特征。圖5和6是同一人在兩種狀態下發同一音段時共振峰強度的類型圖，當說話狀態改變時，共振峰強度特征既有保持穩定的（圖 5），也有發生變化的（圖 6）。

對對話、念讀兩種狀態下 3個單元音[a]、[i]、[u]的F1—F5共振峰強度特征進行統計分析發現，在 20位錄音對象發音產生的所有待檢音段中，共振峰強度特征發生了不同程度的變化。表5是不同狀態下共振峰強度變化的統計表，可以看出，在300對待檢共振峰中有 45.3%的共振峰強度特征發生了變化，且在其相應的待檢音段中，大部分音段表現為1~2對共振峰強度發生變化，占58.3%；而F1—F5共振峰強度均有差異的音段有12個，占20%，如圖7所示。

圖5 Y7在不同狀態下發[a]音的共振峰強度特征穩定

圖6 Y12在不同狀態下發[i]音的共振峰強度特征變化

表5 不同狀態下共振峰強度變化情況統計表對

圖7 共振峰強度發生變化的音段數統計

2.3 頻譜特征的定量分析

2.3.1 第一共振峰F1

選取包含[a]、[i]、[u]3個元音的穩定音段，各自測量其在兩種說話狀態下的 F1頻率值，發現不同狀態下3個元音的F1均有升有降，升降比例分別為1∶2、1∶1、1∶1。其他數值詳見表6。

表6 兩種說話狀態下單元音F1頻率變化統計表

由對話轉為念讀狀態后，[a]和[u]的 F1變異系數均有所減小，表示其F1特征參數的區分度略有降低，而[i]的 F1變異系數基本穩定；同時，兩種狀態下[a]和[i]的變異系數均超過 10%，說明兩個元音的 F1在待檢音段中具有較好的差異性。此外，在兩種狀態下，3個元音在不同狀態下 F1變異系數的差值最大只有1.1%，表明說話狀態的改變對F1的影響較小。

2.3.2 第二共振峰F2

在兩種狀態下分別測量穩定音段中[a]、[i]、[u]的F2頻率值，發現其升降比例分別為4∶1、3∶2、3∶4。其他數值詳見表7。

由對話狀態轉為念讀狀態后，[i]和[u]的 F2差異性都有一定增大，而[a]的 F2差異性有所減小；同時兩種狀態下3個元音的變異系數均超過10%，說明F2具有較好的區分性。此外，在兩種狀態下，3個元音F2變異系數的差值最大為 2.7%，表明說話狀態的改變對F2的影響不大。

表7 兩種說話狀態下單元音F2頻率變化統計表

2.3.3 第三共振峰F3

測量對話和念讀狀態下待檢音段中[a]、[i]、[u]的F3頻率值，發現其升降比例分別為3∶2、3∶1、5∶2。其他數值詳見表8。

由對話轉為念讀狀態后，[a]和[i]的 F3基本保持穩定，變異系數略有增大，而[u]的F3差異性變小了，與 F1、F2相比沒有明顯的規律性。此外，在兩種狀態下，3個元音F3變異系數的差值最大為 1.7%，表明說話狀態的改變對F3的影響較小。

表8 兩種說話狀態下單元音F3頻率變化統計表

2.3.4 第四共振峰F4

在兩種狀態下分別測量待檢音段中[a]、[i]、[u]的F4頻率值，發現3個元音F4的升降比例分別為1∶1、3∶2、2∶1。其他數值詳見表9。

由對話轉為念讀狀態后，[i]和[u]的 F4差異性都有一定增大，而[a]的F4差異性變小了，這與F2的變化情況相似。此外，在兩種說話狀態下，3個元音的F4變異系數的差值最大只有 1.1%，表明說話狀態的改變對F4的頻率值測量基本沒有影響。

表9 兩種說話狀態下單元音F4頻率變化統計表

2.3.5 第五共振峰F5

測量對話和念讀狀態下待檢音段中[a]、[i]、[u]的F5，發現3個元音F5的升降比例分別為3∶1、1∶1、3∶2。其他數值詳見表10。

由對話轉為念讀狀態后，[a]和[i]的 F5差異性都有一定增大，而[u]的F5差異性變小了，這與F3的變化情況有些相似。此外，在兩種狀態下，3個元音F5變異系數的差值最大為2.5%，表明說話狀態的改變對F5的影響不大。

表10 兩種說話狀態下單元音F5頻率變化統計表

3 討論與分析

3.1 聽覺特征變化

由表2卡方檢驗可知，聽覺特征與說話狀態的改變具有相關性。在實驗中，當發音人的說話狀態改變后，聽感上無明顯差異的音段由89.2%降到了49.2%，即有 40.0%的音段解析聽感發生了變化；且大多數人聽覺特征存在差異的音段數占一半左右，這意味著此時聽覺分析的結果具有很大的主觀性和錯誤率。

產生這種情況可能是因為對話時包含的口語現象較多且語速較快，口語中含有大量的音變現象，如音素音變、增音、減音、央化、鼻化等[2]，導致聽覺分析出現了偏差；也可能是不同說話狀態導致舌體與下頜開度相互作用共同影響了發音[9]。此外，共鳴方式屬于生理特征，不會隨著說話狀態的變化而變化，而音高和音強的變化可能與情緒波動有關，如王英利[7,10]指出，情緒高漲時與情緒低落時可能會出現基頻相差一倍以上的現象。

3.2 頻譜特征變化

3.2.1 共振峰走向特征變化

由于聲紋圖譜具有動態性，共振峰“走向差異小且未相反”在實際分析中是一種正常情況，因此可以把共振峰“走向相同”和“走向差異小且未相反”視為同一類型。由表4可知這一類型的共振峰共有290對，占總數的 96.7%，同時“走向差異小且未相反”的共振峰占“走向有差異”共振峰數的75%。圖4顯示“走向有差異”的共振峰數在每個人中的比例均不超過33.3%，且一半的人僅有1對共振峰“走向有差異”，更不必說“走向有差異”中還包含了占 75%的“走向差異小且未相反”這種正常情況了。

通過上述分析，足以證明同一人在不同說話狀態下共振峰的走向具有很強的穩定性。表4還顯示低次共振峰（F1、F2）不存在“走向差異大”或“走向相反”的情況，其原因可能在于低次共振峰決定語音的調音音質[5]，同一調音音質的低次共振峰走向幾乎相同。此外，實驗還發現共振峰的走向變化情況與元音的種類無關。

3.2.2 共振峰強度分布特征變化

綜合分析表 5和圖7可以看出，88.3%的特征音段存在一對及以上強度對比有差異的共振峰，且各次共振峰中強度有差異和無差異的數量十分接近，無明顯規律，這意味著在實踐中 F1—F5均有可能出現共振峰強度不同的情況。而在實驗中單個音段存在5對共振峰強度均有差異的情況大多是因為共振峰總體強度不同，這可能是發音人在說話狀態改變時出現音量變化、情緒波動等原因導致的。

3.2.3 共振峰頻率特征變化

通過測量分析對話和念讀兩種不同狀態下3個元音[a]、[i]、[u]的 F1—F5共振峰頻率值，發現說話狀態改變后，3個元音的F1—F5均表現出有升有降的變化，且從升降比例和均值變化中均看不出明顯的規律性，這意味著各共振峰的頻率值變化之間無相關性[11]。實驗還發現在說話狀態改變后，3個元音的F3、F4、F5變化范圍較 F1、F2要大。究其原因，曹洪林[5]表示，高次共振峰的變化與聲道共鳴腔的整體性以及語音發聲類型的改變有密切關系，但具體細節尚不清楚；而王英利[7]認為低次共振峰的個人穩定性很強且頻率變化范圍較小，即 F1、F2受說話方式改變的影響較小；Suthar[12]則認為F1、F2（特別是F2）在聲紋鑒定中起到了重要作用。

就變異系數而言，說話狀態由對話轉為念讀后，3個元音的各次共振峰變異系數的變化情況不盡相同。其中，元音[i]的各次共振峰變異系數均表現出增長的趨勢，表明此時元音[i]各次共振峰的區分度都有所增加；[a]和[u]的低次共振峰變化情況相似，高次共振峰則表現出相反的趨勢。3個元音的F1—F5共振峰變異系數的變化情況詳見表 11，最大數值為 2.7%，表明說話狀態的改變對3個元音各次共振峰的頻率值雖有一定程度的影響，但這種影響并不大。

表11 對話狀態轉為念讀狀態后各共振峰變異系數的變化情況 %

對兩種不同說話狀態下3個元音的共振峰頻率值進行配對樣本T檢驗后，得到各自的P值，詳見表12。很顯然，除了[i]的 F3外，其余各條共振峰的P值均大于0.05，意味著在所有待檢樣本音段中，同一條共振峰的頻率在對話和念讀狀態下是沒有明顯差異的。綜合分析[i]的F3各項參數后，本實驗傾向于認為其P值<0.05可能是部分音段頻率的測量誤差導致的；也就是說，說話狀態的改變對3個元音各次共振峰的頻率變化影響不大。

表12 配對樣本T檢驗的P值統計表

4 結論

實驗發現，針對對話和念讀兩種說話狀態下普通話語流中的3個元音[a]、[i]、[u]，聽覺分析主要用于選取特征音段，不可作為同一認定的依據，更不應該由此產生先入為主的結論。頻譜特征中，共振峰強度分布變化的不確定性很大，未發現明顯規律，不應作為判定語音同一性的主要依據；而共振峰走向特征、共振峰頻率特征這兩項頻譜特征的個人穩定性較強，不易受到說話狀態改變的影響，可作為語音同一性鑒定的主要依據。綜上所述，在司法鑒定實踐中，涉及對話、念讀兩種不同狀態下的語音同一認定時，應重點分析語音的頻譜特征，關注共振峰走向和頻率的變化。