








摘要 通過測量語音相關的腦電信號變化來研究人腦對于標準語料的反應趨勢.有16名被測者分別聆聽了120條標準語音,每條8 s,語音之間有1~2 s的間隔且隨機播放.提取被測者在聆聽過程中的腦電信號,對1~40 Hz頻段的腦電信號進行預處理并將其與語音信號進行分析比對.結果顯示,被測者聽到相同標準語音時有相同的腦電反應趨勢.通過相鎖值方法對腦電信號和語音信號進行相位差分析,證明了腦電信號與語音質量之間的功能連接性,并且腦電信號區分語音質量的正確率達到99.62%.關鍵詞腦電信號;語音質量;感知評估;自然刺激
中圖分類號 TN912.34;TN911.7
文獻標志碼 A
0 引言
得益于高速發展的移動通信技術,語音通話可以提供一系列的服務,包括高清語音通話、多方通話、視頻呼叫、實時字幕和語音助手等.而這些服務也涉及眾多不同的廠商,如網絡運營商、因特網服務供貨商、通信軟件提供商等.因此,如何在各種服務下確保語音通話質量就變得尤其重要.
傳統的語音質量主觀評價方法以MOS (Mean Opinion Score,平均意見分)評價為主,該方法邀請用戶對語音服務進行打分,從而獲得用戶對語音質量和滿意度的主觀評分.但是,傳統評價方法容易受到外界因素的影響,使用成本高昂并且實現周期長.因此,國際電信聯盟(International Telecommunication Union,ITU)下設的國際無線電咨詢委員會(International Radio Consultative Committee,CCIR)提出了基于客觀語音質量評估的標準ITU-T P.862 PESQ (Perceptual Evaluation of Speech Quality,語音質量感知評估)和ITU-T P.863 POLQA (Perceptual Objective Listening Quality Analysis,感知客觀聽力質量評估).以上兩個標準都是基于感知模型的客觀語音質量評估方法,主要不同在于認知模型和算法細節.
目前用于主觀評價所構建的感知模型尚不能完全模擬人的聽覺感知,有可能存在聽覺感知好但評分低的情況.因此,研究者們正在尋求其他客觀感知評價的方法.文獻[1]提出使用腦電信號來評估語音質量,證明了使用基于腦電圖描述神經元在語音質量感知方面差異的測量方法可以客觀測量受試者的聽覺感知,并且不受自我意識干擾的影響.文獻[2]對腦電信號特征進行分析,結果表明,P300分量與語音質量有較為明顯的相關性.為了驗證語音語料和腦電反應具有一致性,本文采用自然刺激的方式,讓被測者接受標準語料的刺激,同時記錄他們的腦電數據,通過腦電數據分析大腦活動模式,評估被試者對語音的響應和感知情況.此外,本文還分析了腦電信號與語音質量之間的關系,通過深度學習網絡驗證腦電信號區分5種語音質量的正確率達到99.62%.
1 腦電信號和語音感知評價
1.1 腦電信號簡介
EEG (Electroencephalogram,腦電信號)是一種記錄大腦內神經元電活動的生理信號.通過在頭皮上放置電極,獲取當前狀態下的腦電信號,以便對大腦的功能活動進行研究.腦電信號研究在神經科學、認知心理學和臨床醫學等學科領域中被廣泛應用.腦電信號具有高時間分辨率和非侵入性等特點,多年研究積累形成了神經振蕩、神經同步和事件相關電位等理論框架.通過分析腦電信號與行為表現之間的關聯性,揭示了大腦活動與認知行為(如注意、記憶、語言和情緒等)之間的關系.上述神經振蕩、神經同步和事件相關電位等理論為基于腦電信號的語音質量感知評價方法提供了新的研究方向.
1.2 語音感知評測
傳統的語音質量評測一般采用MOS值表示,但該分值是用戶的主觀評測,不一定能真實反映語音的質量.因此,ITU提出了基于客觀感知的評測方法.語音服務感知評估是從人的聽覺機制角度對語音內容的理解以及用戶的滿意程度來評測語音服務質量的.目前的主流方法是ITU-T P.863標準中的POLQA算法,其核心是通過模擬聽感,用客觀指標表述語音感知,然后通過客觀性指標和補償性指標計算出POLQA值,經由多項式映射為MOS-LQO (Listening Quality Overall,總體聽力質量)值,從而達到評測目的[3].
1.3 腦電信號分析方法
在傳統的認知科學實驗范式中,研究者通常使用相對簡單的聲音刺激,如純音或詞匯來研究聽覺注意的現象.然而,簡單的聲音刺激并不能完全模擬日常生活中復雜多變的聽覺場景,因此該范式存在一定的局限性,在生態效度方面有待提高.
近年來,越來越多的認知科學研究開始嘗試采用連續語音作為聲音刺激,并將語音理解作為主要的聽覺任務.這種新的研究方法旨在更真實地模擬日常生活中的聽覺場景,從而提高研究的生態效度.通過這種方法,研究者能夠更深入地探索大腦在復雜、高生態效度的聽覺場景中的聽覺注意機制.這種范式的轉變有助于更好地理解大腦在現實生活中的聽覺處理過程,為相關領域的研究提供更具有實際意義和價值的科學依據.
研究發現,當人們聆聽語音時,大腦的delta頻段(不大于4 Hz)和theta頻段((4,7] Hz)的神經活動會與語音進行同步跟蹤[4-5].其中,大腦的低頻神經活動會同步跟蹤語音中的低層級聲學特征,如聲強變化(即語音包絡)[6-11].
腦電信號分析是對腦電圖數據進行研究和處理的過程,旨在理解和解釋大腦活動的特征和模式.常見的腦電信號分析方法包括時域分析、頻域分析、空域分析和時頻域分析等.在進行腦電信號分析時,需要綜合運用各種方法和技術,結合研究目的,來解讀腦電信號的特征和模式.
基于腦電信號的語音感知評估方法通過分析腦電信號的變化,了解不同語音質量對大腦活動的影響,分析語音服務的感知和情緒狀態,了解用戶的需求和偏好,以優化語音業務的質量和用戶體驗,進而提升用戶的滿意度.這種方法為語音感知評估方法的研究提供了一種新的視角和方向.
2 實驗方法設計
2.1 實驗室配置
本實驗采用64導的EEG放大器(neuracle博睿康)采集并記錄,采樣頻率為1 kHz.EEG電極帽包含64個活性電極(neuracle博睿康),并按照國際10-20系統位置分布.接地電極AFZ位于電極AF3和AF4之間,CPZ電極為參考電極.
實驗環境分為屏蔽室和控制室,被試者在專業的屏蔽室完成所有實驗步驟.屏蔽室可以屏蔽電磁干擾并嚴格控制外部噪聲、室內溫濕度和光線亮度.實驗過程中被試者禁止使用手機等其他設備以防止注意力分散,實驗由被試者獨立完成.測試人員可在控制室通過監控觀察屏蔽室內情況,如有特殊情況發生,測試人員可以通過麥克風與被試者進行必要的交流及指引.
2.2 評估語音素材制作
在研究大腦對自然語音加工過程中,理解其神經活動是一個具有挑戰性的問題.自然語音不僅包含聲學特征,如聲音的強度和音調,還承載了豐富的語言信息,如詞匯和短語.這使得描述大腦對自然語音的神經活動變得相當復雜.因此,如何準確描述這個過程被認為是認知科學研究領域的一大挑戰.
為此,本研究采用自然朗讀的方式來呈現語音材料.一名專業的男性播音員在錄音室中,對實驗語句進行自然朗讀,并進行錄音.在錄制過程中,播音員對實驗目的和不同語句之間的差異一無所知,以確保語音的自然性和真實性.該方法能夠更真實地模擬日常生活中的聽覺場景,為研究大腦在復雜、高生態效度的聽覺場景中的聽覺注意機制提供更準確的依據.
在自然朗讀的語音中,音節的出現并不是按照固定的速率進行的,此外,語音還包含詞匯的韻律特征.用于測試的語音長度為8 s,此長度可以確保實驗的穩定性和可靠性,同時也能更好地模擬日常生活中的聽覺場景.該語音包括兩句日常交流中常用的高頻用語,易于理解和交流.每句話之間都有1~2 s的間隔,以保證實驗材料的合理性和準確性.此外,本語音符合ITU-T P.863的相關規定,作為本實驗的標準語音材料.
2.3 參與者招募和樣本特征描述
本次實驗共有16位受試者參與,由于測試用語為漢語,因此受試者的母語需為漢語.為了盡量降低實驗結果受主觀認知的影響,要求所有受試者均未參與過類似的音頻實驗.受試者的年齡分布在20~29歲之間,平均年齡為23歲,身體機能、認知都處于成熟階段.受試者中包括8名女性和8名男性,均為右利手,聽力和視力正常,且無神經系統疾病.每位受試者都成功完成實驗,他們的腦電圖數據都被完整采集.此外,所有實驗程序均已獲得本研究所在學校的研究倫理委員會的批準.在實驗開始之前,每位受試者都簽署了知情同意書,并在實驗完成后獲得了適當的報酬.
2.4 實驗設計和流程
如表1所示,級別1~5表示在語音通信過程中經過傳輸后的接收方所聽到的語音,不同級別的語音反映了不同的語音質量,其中,級別5最接近傳輸前發送方說出的語音.
實驗流程如圖1所示,在實驗過程中,受試者聆聽了120條標準語音.所有的降級語音以隨機順序呈現,確保不同受試者之間的平衡,避免語音順序和內容對實驗結果的影響.實驗要求受試者閉上眼睛,集中注意力聽語音,并理解其中的內容.聽完每段語音后,受試者需要按表1要求對語音進行評分.這一步驟是為了收集受試者對語音清晰度和可理解度的主觀感受,從而更全面地評估降級語音的效果.通過這種方式,可以更準確地了解受試者在自然朗讀語音中的聽覺注意機制,為相關領域的研究提供更有價值的科學依據.
2.5 數據采集和預處理
腦電活動的變化極為迅速,為了準確捕捉這些變化,腦電儀提供了高采樣頻率,確保腦電信號具有出色的時間分辨率.根據過去的研究,腦電信號主要分布在5個不同的頻段:alpha頻段((7,12]Hz)、beta頻段((12,30]Hz)、delta頻段(不大于4 Hz)、theta頻段((4,7]Hz)和gamma頻段(大于30 Hz).然而,在記錄腦電信號的過程中,存在一些噪聲干擾,如低頻漂移和工頻干擾等.為了確保分析的準確性,本文將主要關注1~40 Hz頻段的腦電信號.
本實驗所有操作均由Matlab操作實現.首先改變參考電極為全腦平均,然后使用FIR(Finite Impulse Respons,線性相位)濾波器對腦電信號進行帶通濾波,通帶范圍為1~40 Hz.由實驗人員人工進行檢查,觀察實驗信號是否存在肌電、眼電、電極故障等大幅漂移的重大信號干擾現象,一經發現則剔除,避免污染實驗數據.經過人工檢查清洗之后,采用ICA (Independent Component Analysis,獨立成分分析)去除腦電信號中由于眨眼產生的無意識干擾噪聲.預處理完成后,截取每個語音開始播放到播放結束后2 s(共計10 s)作為有用信號,進行下一步分析.
2.6 數據分析方法
相位同步分析方法是將相位分量與振幅分量分離,以便挖掘腦電信號中隱藏的重要信息.相鎖值是測量相位同步程度的量化值,表示在一個窄頻帶內兩個信號之間的同步程度,這種程度是對神經元或神經群進行調節實現的精確鎖定[12-17].鎖相位算法流程如圖2所示,通過希爾伯特變換中的經驗模態分解,逐步分解不同尺度的波動,并產生幾個數據序列,每個數據序列分布在一個窄頻帶上,通過計算瞬時相位進而得到鎖相位的值.
1) 經驗模態分解
利用EMD (Empirical Mode Decomposition,經驗模態分解)對信號進行自適應處理,是基于其自身尺度特性的一種方法,目標是實現信號的平穩化.通過這種方法,可以將非線性和非平穩的信號分解為有限數量的IMF(Intrinsic Mode Function,固有模態函數).IMF的數量與信號的復雜性相對應,而每個IMF都包含原始信號在不同時間尺度的局部特征信息.
對于一維信號x(t),需要識別的是其局部極值點,包括極大值和局部極小值.通過樣條插值方法對每個極值點進行曲線擬合,即可得出上包絡線(由局部極大值組成)和下包絡線(由局部極小值組成).計算上下包絡線的均值,得到平均包絡m(t),然后將平均包絡與原始信號進行差值運算,從而得到中間信號h(t)[18].如式(1)所示:
h(t)=x(t)-m(t). (1)
假設中間信息h(t)滿足IMF的條件,將h(t)記作一個IMF,并計算剩余信號r(t),其計算方式如下:
r(t)=x(t)-f(t). (2)
如果h(t)不滿足IMF的條件,則假設h(t)作為新的x(t),并重復上述步驟,直到h(t)滿足IMF的要求[19].IMF的要求為:中間信號h(t)中不能存在負的局部極大值和正的局部極小值.使用符號D來表示停止條件:
D=∑Tt=0|hk(t)|2∑Tt=0|fk(t)|2. (3)
重復上述篩選過程,得到k個IMF.當殘余分量r(t)所包含的極值小于3時停止篩選.式(4)為原始信號的組成.
x(t)=∑kfk(t)+r(t). (4)
2) 瞬時相位
基于希爾伯特變換計算瞬時相位[20].IMF的希爾伯特變換記作F(t):
F(t)=1πζ∫+∞-∞f(t)t-τdτ. (5)
其中:ζ為柯西主值;f(t)為固有模態函數.f(t)的解析信號為Y(t),如式(6)所示:
Y(t)=f(t)+j·F(t). (6)
瞬時相位計算公式為
θi(t)=arctanyi(t)ci(t). (7)
3) 相鎖值
計算信號間的PLV(Phase Locking Value,相鎖值):
PLV=1M∑Mt=1ej(θ1(t)-θ2(t)). (8)
如式(8)所示,相鎖值的取值范圍介于0和1之間,0表示沒有同步,1表示完全同步.同步的程序取決于兩個信號的瞬時相位差,該差值體現了兩個信號相位的波動情況,0表示相位差大、波動大,1表示相位差小、波動小.通過對腦電信號的相位分離,可以發現信號的強弱程度與大腦功能連通性之間的關系[21].
3 結果分析
3.1 結果分析和討論
預處理后的腦電信號去除壞段后,將腦電信號按每段10 s進行劃分.在頻譜分析時,先將腦電信號進行平均,再進行DFT (Discrete Fourier Transform,離散傅里葉變換)獲取腦電頻譜,頻域分辨率按1 Hz計算.將腦電頻譜的能量在腦電電極和受試者之間進行平均.
用于測試的語音波形如圖3所示,共包含兩句話.圖4為頻域分析結果(圖4中,ERSP表示事件相
關頻譜擾動(Event-Related Spectral Perturbation),ITC(Inter-Trial Coherence,試驗間一致性)表示事件相關鎖相,藍色線表示未受語料刺激時的基準線,紅色線表示收聽語料刺激后的ERSP包絡線,ERP表示事件相關電位(Event-Related Potential),單位μV.對比圖3和圖4可以看出頻域圖和語音較為吻合.1 s開始有語音,2.5 s開始出現較強的beta和theta波,并產生認知,在4.5 s左右出現分散的beta和theta波,并對第一句話產生認知,第二句話在6 s左右開始有較分散的beta和theta波,并產生認知,在7.5 s時開始有較強的beta和theta波,并產生認知,由于包括兩句話,因此認知信號更為強烈.
圖5中,橫坐標表示事件持續時間,縱坐標表示相關電位的值.對比圖3可以看出,圖5和語音吻合較好,1 s開始出現語音,在2.5 s第一句結束后產生較強負波,隨后第二句話在4.7 s開始,準備接受第二段話刺激,說話結束后7.5 s出現更強負波,由于認知層面涉及兩句話,因此波幅更大,且認知集中在前額葉認知區域.
3.2 腦電信號與語音刺激之間的關系
實驗中,受試者被要求聽取標準語音刺激,并同時記錄腦電數據,發現不同人聽到相同標準語音時,有相同的腦電反應趨勢.
本文從大腦功能連接的角度去分析腦電信號與語音質量之間的關系.通常采用互信息方法分析兩個信號之間的依賴或相關程度,計算大腦的功能連接性.互信息不僅可以檢測信號間的線性相關性,還可以檢測信號間的非線性相關性,但相關性的準確度受信號的影響較大,特別是含有噪聲和長信號的情況.為此,本文選擇相鎖值的方法,通過對兩個信號進行相位差測量實現功能連接性的分析.
通過經驗模態分解,原始信號得到的固有模態函數分量波形如圖6所示(縱坐標為振幅,μV).
計算各個固有模態函數的功率譜,得到固有模態函數分量的頻譜,如圖7所示(縱坐標為功率譜,dB).
由于經驗模態分解出的固有模態函數分量有多個,故需要選定某個固有模態函數分量進行后續的分析.通常選取前幾階的IMF分量再平均進行分析,這種方法不具有自適應性.為了解決這個問題,本文提出一種改進鎖相位的方法(圖8).以距離作為衡量值,計算每個固有模態函數分量與原始信號間的距離,體現分解信號與原始信號的相似性.本文引入DTW(Dynamic Time Warping,動態時序相似度)度量算法作為標準,選取固有模態函數分量.
DTW是一種距離計算方法,用來檢測兩個時序的相似程度.距離越小,相似性越大,故以最短距離的固有模態函數分量作為新信號,再計算各個通道之間的相鎖值,實現對皮層腦電的功能連接性分析.
為了更好地體現各個電極之間的同步性,選取不同腦區具有代表性的電極:O1、O2、P3、P4、Pz、P7、P8、C3、C4、Cz、T7、T8、F3、F4、Fz、F7、F8、FP1、FP2.這19個通道分別對應著枕區、頂區、中央區、顳區、額區和前額區.圖9a—e分別對應1、2、3、4、5級降級語料刺激下的大腦功能連接示意圖.圖9a的紅色線段最多,說明1級降級語料的刺激下大腦功能連接性增強,表示需要較為集中地去思考聽到的內容;圖9b、9c的紅色線段有所減少,且圖9c比圖9b更少,說明2、3級降級語料的刺激下大腦功能連接性降低,能夠大約聽清楚語料的內容;圖9d的橙黃色線段增加,說明4級降級語料的刺激下大腦功能連接性再次降低,能夠較為清楚地聽到語料內容;圖9e的藍色線段增至最多,說明5級降級語料的刺激下大腦功能連接性最弱,表明可以清晰地聽到語料內容,無需認真思考語料所表達的內容.不同降級語料下的腦電相鎖值統計結果表明,腦電信號的功能連接程度存在顯著差異(Plt;0.05).
將5種級別的語音所生產的大腦功能連接圖作為輸入,經過深度學習網絡驗證是否能有效區分不同的級別.深度學習網絡的模型為四層卷積,兩層卷積之間為最大池化層,兩個全連接層中間為一個Dropout層,最終的分類正確率為99.62%.
實驗結果表明,在聽到相同標準語音時,被試者們的腦電信號呈現一致的反應趨勢.同時,該發現也為一種與語音刺激內容相關的神經認知機制提供了依據.
4 結論和展望
本研究的應用背景為無線多媒體通信,相關技術的高速發展導致使用傳統的客觀質量評價難以衡量用戶的體驗質量.如果采用基于用戶主觀反饋的評估方法,則過度依賴用戶,且容易受到用戶的高層認知偏差影響.而使用腦電信號分析用戶對于音頻的感知過程,可以有效地消除上層認知偏差.本文設計的一種基于自然刺激腦電實驗,采用符合ITU-T P.863的標準語音作為刺激材料,組織16位受試者參與測試,通過實驗得出所有受試者在聽取相同的標準語音的腦電反應上展現出一致性的趨勢.并且,腦電信號與語音質量之間具有功能連接性,腦電信號正確區分語音質量的正確率達到99.62%.
研究結果表明,使用腦電信號對音頻質量評估具有可實現性、可解釋性,證明了腦電信號更能反映用戶的真實體驗質量,為之后使用腦電信號評估用戶體驗質量提供了依據.在今后的研究中,可以利用源定位等技術手段,對腦電信號產生的位置進行標記,以提取更準確的腦電信號,減少誤差.此外,除了腦電信號,還可以將磁共振、腦磁圖、心電儀、眼動儀等多種手段結合,提出多模態的主觀質量評估方法,為主觀體驗定量化進行科學性描述,最終達到準確評估業務質量的目的.
參考文獻References
[1]Bar O,Shallom I D.Speech quality assessment using EEG signals[C]//2016 IEEE International Conference on the Science of Electrical Engineering (ICSEE).November 16-18,2016,Eilat,Israel.IEEE,2016:1-5
[2] Uhrig S,Mller S,Voigt-Antons J N.Dissociating perceptual quality dimensions of transmitted speech using electroencephalography[C]//2018 Tenth International Conference on Quality of Multimedia Experience (QoMEX).May 29-June 1,2018,Cagliari,Italy.IEEE,2018:1-3
[3] Recommendation ITU-T P.863.1(06/2019):methods for objective and subjective assessment of speech and video quality[EB/OL].[2024-07-01].https://www.itu.int/rec/T-REC-P.863/
[4] Keitel A,Gross J,Kayser C.Perceptually relevant speech tracking in auditory and motor cortex reflects distinct linguistic features[J].PLoS Biology,2018,16(3):e2004473
[5] Luo H,Poeppel D.Phase patterns of neuronal responses reliably discriminate speech in human auditory cortex[J].Neuron,2007,54(6):1001-1010
[6] Di Liberto G M,OSullivan J A,Lalor E C.Low-frequency cortical entrainment to speech reflects phoneme-level processing[J].Current Biology,2015,25(19):2457-2465
[7] Ding N,Simon J Z.Emergence of neural encoding of auditory objects while listening to competing speakers[J].Proceedings of the National Academy of Sciences of the United States of America,2012,109(29):11854-11859
[8] Destoky F,Philippe M,Bertels J,et al.Comparing the potential of MEG and EEG to uncover brain tracking of speech temporal envelope[J].NeuroImage,2019,184:201-213
[9] Nourski K V,Reale R A,Oya H,et al.Temporal envelope of time-compressed speech represented in the human auditory cortex[J].The Journal of Neuroscience,2009,29(49):15564-15574
[10] Peelle J E,Gross J,Davis M H.Phase-locked responses to speech in human auditory cortex are enhanced during comprehension[J].Cerebral Cortex,2013,23(6):1378-1387
[11] Koskinen M,Sepp M.Uncovering cortical MEG responses to listened audiobook stories[J].NeuroImage,2014,100:263-270
[12] Lachaux J P,Rodriguez E,Martinerie J,et al.Measuring phase synchrony in brain signals[J].Human Brain Mapping,1999,8(4):194-208
[13] Allefeld C,Kurths J.Multivariate phase synchronization analysis of EEG data[J].IEICE Transactions on Fundamentals of Electronics,Communications and Computer Sciences,2003,E86-A(9):2218-2221
[14] Allefeld C,Kurths J.An approach to multivariate phase synchronization analysis and its application to event-related potentials[J].International Journal of Bifurcation and Chaos,2004,14(2):417-426
[15] Rosenblum M G,Pikovsky A S,Kurths J.Phase synchronization of chaotic oscillators[J].Physical Review Letters,1996,76(11):1804-1807
[16] Li D,Li X L,Cui D,et al.Phase synchronization with harmonic wavelet transform with application to neuronal populations[J].Neurocomputing,2011,74(17):3389-3403
[17] Huang N E,Shen Z,Long S R,et al.The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proceedings of the Royal Society of London Series A,1998,454(1971):903-998
[18] 李昕,范夢頔,孫小棋,等.基于改進鎖相位算法的腦區功能同步性研究[J].生物醫學工程學雜志,2018,35(3):350-357
LI Xin,FAN Mengdi,SUN Xiaoqi,et al.Research on the correlation of brain function based on improved phase locking value[J].Journal of Biomedical Engineering,2018,35(3):350-357
[19] 陳東毅,陳建國,李玉榕.結合經驗模態分解能量矩占比和方差貢獻率法的步態信號特征向量提取[J].物聯網技術,2019,9(2):35-39,42
[20] Zoefel B,Huster R J,Herrmann C S.Neurofeedback training of the upper alpha frequency band in EEG improves cognitive performance[J].NeuroImage,2011,54(2):1427-1431
[21] Aviyente S,Bernat E M,Evans W S,et al.A phase synchrony measure for quantifying dynamic functional integration in the brain[J].Human Brain Mapping,2011,32(1):80-93
A study of EEG response coherence based on corpus semantics
SONG Qiwei1 GE Ning1 XIANG Tao1
1Department of Electronic Engineering,Tsinghua University,Beijing 100084,China
Abstract This study examined the response tendency of the human brain to a standardized corpus of speech by measuring changes in speech-related electroencephalographic (EEG) signals.Sixteen participants listened to 120 standardized speech items,each lasting 8 seconds,with intervals of 1 to 2 seconds between them and played in a random order.During the listening process,the EEG signals were extracted from the participants,and the signals within the frequency band of 1-40 Hz were preprocessed and analyzed in comparison with the speech signals.The results showed that participants exhibited similar EEG response trends when exposed to the same standardized speech.Furthermore,phase difference analysis between EEG and speech signals was conducted using the phase locking value method,which demonstrated the functional connectivity between EEG signals and speech quality.Notably,the EEG signals achieved a 99.62% accuracy in distinguishing speech quality.
Key words EEG;speech quality;perceptual assessment;natural stimulation
資助項目國家重點研發計劃“變革性技術關鍵科學問題”重點專項(2018YFA0701601)
作者簡介宋奇蔚,女,博士生,高級工程師,研究方向為移動通信網絡、業務質量評估.sqw19@mails.tsinghua.edu.cn
葛寧(通信作者),男,博士,教授,研究方向為通信、網絡相關理論及應用研究.gening@tsinghua.edu.cn