999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聲紋鑒定中嗓音音質的聲學界標初探
——基于隨機森林和決策樹模型的研究

2022-08-12 08:58:10耿浦洋施少培卞新偉盧啟萌曾錦華
中國司法鑒定 2022年4期
關鍵詞:模型研究

耿浦洋,施少培,郭 弘,卞新偉,盧啟萌,曾錦華

(司法鑒定科學研究院 上海市司法鑒定專業技術服務平臺 司法部司法鑒定重點實驗室,上海 200063)

嗓音音質是語音中最顯著、最易感知的特征之一,通常指嗓音的質量,由聲帶振動/松緊、聲門閉合以及呼吸和發聲的協調等因素共同決定。 從聽覺感知的角度出發,常見的嗓音音質可以歸類為正常嗓音、氣嗓音、嘎裂嗓音和假嗓音等。 在以往研究中發現,嗓音音質與說話人的性別、體型、病理、語言/文化背景以及情感等信息都存在較高的相關性。 因此,有學者提出嗓音音質是話者語音產出的重要特征,能夠反映說話人的個體特點,并且具有一定的穩定性。

目前,在聲紋鑒定工作中,嗓音音質是極具參考價值的特征之一,無論是在聽覺檢驗還是在頻譜分析中, 對語音同一性判斷都起著非常重要的作用。 然而,在對證據語音和樣本語音的嗓音音質進行比對分析時發現,目前的鑒定實踐中存在一個亟待解決的問題,即對嗓音音質的類別判斷尚缺乏客觀的數據支撐。 例如,聽感上判斷為嘎裂的嗓音,在頻譜上沒有理想的聲學參數加以佐證。 KEATING 等研究發現,基頻抖動(jitter)、振幅抖動(shimmer)、諧噪比(Harmonic to Noise Ratio, HNR)、諧波差值(如H1-A1)等聲學參數和嗓音音質存在一定的相關性。例如,嘎裂嗓音比氣嗓音的第一第二諧波差值(H1-H2)更低。但是,氣嗓和嘎裂兩類音質在聲學參數上的分界點究竟在哪里? 什么樣的聲學參數才能夠被判斷為某類音質? 關于這些問題尚缺乏實證研究。 因此,本研究旨在探索不同嗓音音質之間的分界點,為嗓音音質的類別判斷提供數據支撐,利用相關結果為聲紋鑒定中證據語音和樣本語音在嗓音類別的同一性判斷上提供客觀依據和量化指標。

1 聲學界標

為了解決嗓音音質在聲學參數上的類別劃分問題,本研究引入一種新型分析方法——聲學界標分析。 聲學界標(acoustic landmark)是基于STEVENS提出的“語音量子理論”(Quantal Nature of Speech, QNS)的一種分析方法。QNS 認為,發音器官運動和聲學參數之間存在一種非線性關系,即量子關系(圖1)。在I 區和Ⅲ區,發音器官運動不會引起相應聲學參數的劇烈變化,即為穩定段;在Ⅱ區,發音器官運動會引起聲學參數的劇烈變化,即為不穩定段。 從區別特征的角度來看,Ⅱ區是從I 區沒有形成特征(即[-F])到Ⅲ區形成穩定特征(即[+F])的關鍵區域。 該區域存在一個聲學界標,反映聲學特征在發音參數不同賦值下的有無情況。 針對聲學界標的研究,不僅有助于增進對語音產出過程中發音-聲學的非線性關系的理解,還具有廣泛的應用價值,如利用聲學界標進行病理語音的識別、二語偏誤教學等。

圖1 發音-聲學量子關系圖

圍繞聲學界標的概念,已有部分學者開展了相關研究。 例如:PERKELL 等對英語的元音(即/a/、/i/、/u/)聲學界標進行分析;KOZLOFF 等對西班牙語中拍音(tapped /?/)和顫音(thrilled /r/)的聲學界標進行探索。 還有學者利用聲學界標的研究方法對特殊語音進行相關分析,如發音障礙患者的語音、抑郁語音等。與其他語言的研究相比,對漢語的研究尚處于探索階段,只有曾晨剛對漢語普通話的塞擦音進行過聲學界標研究。本研究參考曾晨剛、VEILEUX 等研究的范式,基于隨機森林和決策樹模型,對嗓音音質的聲學界標進行探索。

2 實驗方法

2.1 發音被試對象

本研究共招募12 名漢語普通話發音人(6 名女性,6 名男性),被試對象均來自中國北方地區(北京、河北和東北部),且普通話標準。 招募的男性被試對象平均年齡32.2 歲(標準差為6.4),平均身高177.2 cm(標準差為1.6),平均體重77.2 kg(標準差為6.8);女性被試對象平均年齡32.0 歲(標準差為6.3),平均身高163.7 cm(標準差為2.0),平均體重55.17 kg(標準差為5.5)。 所有被試對象均為右利手,無言語或聽覺損傷歷史。

2.2 語料采集

由于漢語研究發現,普通話常用嘎裂音質來表現曲折調(即三聲,T3)的低點,因此本研究選取聲調為三聲的單音節詞為實驗材料,以獲取更自然的嘎裂音質。 本研究選取9 個單音詞為實驗材料,如表1 所示。 為了保證語料的可控性, 聲母統一選取較穩定的/m/,以排除聲母影響。同時,選取單韻母(即/a/、/i/、/u/)和復韻母(即/ao/、/iao/、/an/、/in/、/ang/、/eng/),以達到覆蓋不同韻母類別的目的。 實驗在安靜錄音棚內進行,使用專業錄音機(SONY PCM-D50)進行錄音,采樣率48.0kHz,量化精度16bit。錄音開始前,被試對象首先熟悉錄音材料并試讀。 然后,分別用正常嗓音、嘎裂嗓音、氣嗓音、假嗓音這4 種狀態朗讀錄音材料,每個單音節詞讀3 遍,間隔1s。 每種嗓音朗讀間隔2min,以達到聲帶狀態復原的目的。

表1 實驗錄音材料

本研究共錄制1 296 個單音節詞,并進一步邀請2 名具有豐富聽辨經驗的漢語母語者對語料進行感知篩選。 對于每個單音節詞,選取三遍朗讀中嗓音音質感知效果最佳的那一遍,用于接下來的聲學界標研究。

2.3 參數提取

首先,使用Montreal Forced Aligner 軟件對語料在字和音位兩個層面進行自動標注,并由一名具有豐富標注經驗的人員手動對標注精度進行校正。其次,基于標注語音,使用Praat 軟件提取聲學參數。 前人認為, 嗓音音質通常和基頻抖動(jitter)、HNR、第一第二諧波差值(H1-H2)等參數具有較高相關性。 同時,為了更全面地考察聲學參數和嗓音類別的關系,研究還選取了基頻(聽覺對應音高)、音強和時長3 個常見參數。 最后,本研究共提取18個聲學參數:基頻均值、標準差、最大值/最小值及范圍,音強均值、標準差、最大值/最小值及范圍,時長(即整字、元音段、輔音段),基頻抖動、振幅抖動(shimmer)、HNR 和諧波相關參數(即H1-H2、H1-A1、H1-A2、H1-A3)。 其中,基頻的提取使用Praat自帶的短期自相關算法,對每個計算錯誤(倍頻或半頻)的音高點都進行手動修正。 對提取的基頻值(單位為Hz)進行半音(st)轉換[st= 12×log(f/f)],參考頻率(f)為100 Hz。 對于諧波相關參數,提取方法是將每個單音節詞的元音段平均分為5 段,再分別對5 段語音信號的諧波參數進行提取。

2.4 分析思路

本研究的分析思路如下:先基于18 個聲學參數,建立隨機森林模型對4 種嗓音音質進行判別分析,并按照聲學參數對嗓音判別的影響大小進行排序;再選取影響較大的聲學參數,使用決策樹模型對4 種嗓音音質的聲學界標進行分析。

3 實驗結果

3.1 基于隨機森林的判別結果

隨機森林是一種基于決策樹的并行集成學習算法,其原理是利用bootstrap 重抽樣方法對原始樣本進行抽樣,然后對所有抽樣建立決策樹模型,最后根據投票得出最終的預測結果。 隨機森林模型的構建流程如圖2 所示。

圖2 隨機森林模型構建流程

使用R 語言的rondomForest 包,以18 個聲學參數為因子,嗓音音質為因變量,建立隨機森林模型。 按7:3 的比例將數據分為訓練集和測試集。模型內,決策樹的數量(n)設為默認值500。 同時,為最小化OOB(out-of-bag)預測錯誤率,使用rondomForest 包中的“tunTF”功能,將m參數優化為8,訓練集的OOB 預測錯誤率為9.03%。

針對測試集的嗓音音質的總體判別準確率為90.76%。 4 種嗓音音質判別結果的混淆矩陣如表2所示。 正常嗓音和氣嗓音的判別準確率均為100%;假嗓音的判別準確率為93.33%,有6.67%的假嗓音被判別為正常嗓音;嘎裂嗓音的判別準確率最低(即88.46%),約8%的嘎裂嗓音被判別為正常嗓音、4%被判別為假嗓音。

表2 隨機森林判決結果的混淆矩陣(測試集) (%)

最后,以平均損耗準確率為標準,對18 個聲學參數對嗓音判別的貢獻度進行排序。 如圖3 所示,對判別準確率影響較大的參數(圖中陰影標示柱狀圖)包括:基頻參數(即F0_max、F0_min、F0_mean、F0_sd)、整字時長(duration)、HNR、基 頻 抖 動(jitter)、振幅抖動(shimmer)、第一諧波和第三振幅差值(H1-A3)。 此外,音強參數(即Intensity_sd、Intensity_mean)對于嗓音判別也具有一定的貢獻。

圖3 聲學參數對嗓音判別的貢獻度

3.2 決策樹模型結果

決策樹模型是一種非參數監督學習模型,是研究數據分類規則的常見方法。 該模型的基本原理是通過一系列if-then 決策規則的集合,將特征空間劃分成有限個不相交的子區域,對于落在相同子區域的樣本,決策樹模型給出相同的預測值。使用SPSS 25.0 軟件建立決策樹模型。 基于本文3.1 章節隨機森林的結果,選取音高參數、整字時長、HNR、基頻抖動、振幅抖動、第一諧波和第三振幅差值作為因子,將4 種嗓音類別作為因變量輸入模型。 按7:3的比例設置訓練集和測試集。

如表3 所示,根據決策樹模型判別結果的混淆矩陣,訓練集總體判別準確率為78.0%,氣嗓音的判別準確率最高(即94.2%),嘎裂音和假嗓音的判別準確率在75%左右, 正常嗓音的判別準確率相對較低(即65.7%)。模型經過學習對測試集進行判別時,準確率與學習前基本保持一致,只有正常嗓音的準確率下降了7.1 個百分點。

表3 決策樹模型判別結果的混淆矩陣 (%)

決策樹經過學習生成的嗓音音質聚類流程如圖4 所示。 根據流程圖可以看出,不同嗓音音質的分類規則包括三個決策點:

圖4 嗓音音質的決策樹分類流程

(1)HNR:HNR 反映語音信號中諧波和噪音的比例, 該值越低表示信號中的噪音成分越多。 以3.951 為閾值,決策樹模型將氣嗓音和其他3 種嗓音區分開來,小于等于該數值的語音被判別為氣嗓音。 這一分類規則也符合通常對氣嗓音HNR 數值的預期。

(2)基頻均值:以10.560 為閾值,模型進一步將假嗓音和正常嗓音、嘎裂嗓音進行了區分,當基頻均值大于10.560 時,語音信號被判別為假嗓音。 這一分類規則同樣符合對假嗓音基頻均值的預期。

(3)第一諧波和第三振幅差值(H1-A3):本研究對諧波參數進行提取時,將每個元音均分為5段,然后分別提取每段的諧波參數。 在決策樹模型中,以第二段的H1-A3 為第三個決策點,22.7 為閾值,對正常嗓音和嘎裂嗓音進一步區分。

再將決策樹模型對4 種嗓音音質的分類規則加以歸納,結果如表4 所示。

表4 嗓音音質的決策樹模型分類規則

4 結論

本研究基于隨機森林和決策樹模型,對4 種嗓音音質的聲學界標進行了探索。 隨機森林結果顯示:嗓音音質的判別準確率為90.76%,基頻、整字時長、HNR 和第一諧波和第三振幅差值(H1-A3)等參數對于嗓音判別的貢獻度較大。 基于隨機森林的結果,以對嗓音判別貢獻度較大的聲學參數為因子建立決策樹模型,結果發現:嗓音音質的判別準確率在75%以上,決策樹共有三個決策點,分別為SNR、基頻均值和H1-A3。

與KEATING 等研究結果一致,HNR、諧波差值等參數確實和嗓音音質存在較高的相關性。 與H1-H2、H1-A1、H1-A2 相比,H1-A3 對于嗓音音質的區分度更好。此外,盡管在隨機森林模型中,基頻抖動(jitter)和振幅抖動(shimmer)都具有較高的貢獻度。但在決策樹模型中,基頻抖動和振幅抖動并未作為嗓音類別的決策點。 TEIXEIRA 和FERNANDES 認為,基頻抖動和振幅抖動對于病理和健康嗓音的區分效果可能更佳。

研究發現,(1)決策樹模型以HNR、基頻均值和H1-A3 為決策點。首先,根據氣嗓音信號中噪音成分更多的特點,HNR 將氣嗓音和其他3 種嗓音區分開來。 其次,根據假嗓音基頻均值更高的特點,將假嗓音和正常嗓音、嘎裂嗓音進一步區分。 最后,根據H1-A3 的差異區分正常嗓音和嘎裂嗓音。 三個決策點作為嗓音音質的聲學界標,不僅能夠實現較高的嗓音判別準確率,同時也能夠較好地反映出不同嗓音類別的特點。值得注意的是,決策樹模型對正常嗓音的識別率相對較低(如表3 所示,分別為65.7%和58.6%),并且正常嗓音和嘎裂嗓音的區分性也相對較差(如圖4 所示,存在25%左右的混淆)。 可能的原因是,H1-A3 對于正常嗓音和嘎裂嗓音的區分效果并不十分理想。 未來可以針對正常嗓音和嘎裂嗓音的區分進行專門考察,嘗試增加其他聲學參數(如共振峰、帶寬),尋找能夠更好區分正常嗓音和嘎裂嗓音的聲學界標。 (2)4 種常見嗓音音質之間存在顯著的聲學界標。 這一結果對于聲紋鑒定中的嗓音音質判斷具有重要的理論意義和應用價值,不僅能夠為聽覺檢驗中的主觀判斷提供客觀數據支撐,還能夠豐富聲譜檢驗的測量指標。此外,本研究對于推動聲紋鑒定的科學化、客觀化,司法鑒定的規范化以及提升證據可信度等方面也具有積極的作用。

但本研究仍存在以下幾點不足值得改進:(1)本研究采集了1 296 個單音節詞,并進行了感知篩選,以期對更具代表性和普遍性的嗓音語料加以研究。在數據量上略顯不足,未來可以繼續擴大男性、女性被試對象的數量,對嗓音音質的聲學界標進行更為廣泛、深入的大數據研究,以進一步推廣本研究結論。 (2)本研究以單音節詞為考察對象,未來還可以對連續語流進行考察,以進一步驗證本文結論。 (3)盡管通過聲學參數可以實現較高的嗓音判別準確率,但是嗓音音質的聲學界標在聲紋鑒定實踐中的應用效果尚不得而知,需要后續開展基于真實案件的應用研究加以確認。

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 自拍偷拍欧美日韩| 91精品小视频| 久久精品亚洲热综合一区二区| 欧美区一区| 国产丝袜91| 这里只有精品在线播放| a毛片在线| 在线观看无码a∨| 天堂中文在线资源| 97se亚洲综合不卡| 尤物视频一区| 99热线精品大全在线观看| 国产成人区在线观看视频| 欧美国产日韩在线观看| 亚洲人成影视在线观看| 国产一区二区三区在线观看视频| 波多野结衣一区二区三区88| 99热这里只有精品免费国产| 国产乱人激情H在线观看| 色天天综合| 国产视频资源在线观看| 国产乱子伦视频在线播放| 免费国产不卡午夜福在线观看| 国产毛片高清一级国语| 国产精品刺激对白在线| 久操中文在线| 一本大道香蕉中文日本不卡高清二区| 欧美色香蕉| 国产欧美日韩在线在线不卡视频| 欧美日韩午夜| 欧美色伊人| 伊人AV天堂| 在线免费观看AV| 最新午夜男女福利片视频| 在线看国产精品| 91精品视频网站| 国产女人水多毛片18| 日本国产精品一区久久久| 天堂久久久久久中文字幕| 不卡无码h在线观看| 精品久久久久久中文字幕女| 在线国产欧美| 国产jizzjizz视频| 亚洲国语自产一区第二页| 成人夜夜嗨| 欧美精品啪啪一区二区三区| 一本二本三本不卡无码| 国产va在线观看| 国产精品大白天新婚身材| 国产精品久久久久婷婷五月| 国产亚洲欧美日韩在线一区| 亚洲色偷偷偷鲁综合| 欧美午夜网站| 婷婷综合色| 久久精品中文字幕免费| 亚洲日韩高清在线亚洲专区| 精品无码一区二区三区在线视频| 91av成人日本不卡三区| 国产免费久久精品99re不卡| 成年看免费观看视频拍拍| 97se亚洲综合在线天天| 色九九视频| 欧美成人免费一区在线播放| 国产精品爽爽va在线无码观看| 成人精品在线观看| 毛片最新网址| 无码免费视频| 国产人妖视频一区在线观看| 久久综合干| 亚洲精品制服丝袜二区| JIZZ亚洲国产| 99视频全部免费| 午夜福利在线观看成人| 国产理论一区| 成人福利在线免费观看| 69av免费视频| 2021国产v亚洲v天堂无码| 亚洲美女视频一区| 婷婷午夜影院| 久久久久九九精品影院| 国产视频欧美| 婷婷午夜影院|