陳 林 洪志云
(廣東美的制冷設備有限公司 佛山 528311)
隨著智能音箱[1]和語音家電的普及,AI語音已經逐步滲透到人們的生活中,人們越來越樂于使用語音交互和控制(家電),而語音交互的體驗也越來越被重視。2018年來,無論是國內外AI語音方向的巨頭還是國內的統一語音解決方案廠商,都發布了自己的全雙工對話技術。語音家電作為語音入口之一,無論是控制家電還是播放音樂,都實現了全雙工對話技術的應用。雖然全雙工對話這種模式各大廠商都已發布,但對于該技術(功能)至今都沒有一個統一的標準去規范它的技術要求和實驗方法。而語音家電和智能音箱天然不同的應用屬性,決定了語音家電全雙工對話技術要求和實驗方法迫切需要定義和實踐,源于語音家電作為語音入口,因為有控制的屬性,在全雙工對話中,噪聲很有可能誤入繼而被識別成可控制設備的指令詞,這種情況對于很多大功率家電其實是一件非常影響用戶體驗和危險的事情。
本文將聚焦語音家電全雙工對話技術的識別率、語義打斷、噪聲誤打斷3個語音性能方面的測試要求和測試方法。
語音家電全雙工對話技術,實際上是語音家電錄音的同時可以播放聲音,即一邊回答問題一邊聽用戶說話,這個過程中VAD[2]是常開的。因為是常開,那么噪聲(外部噪聲、回聲噪聲)就很容易誤入并被識別成有意義的指令詞。對于語音家電來說,一個有意義的指令詞很有可能會觸發家電的控制,這是我們最關心的問題。基于此,對于語音家電上全雙工對話技術的應用,我們需要較好的用戶體驗,就要在要求較高的識別率[3]的同時,要求噪聲環境下的語義打斷和噪聲誤打斷指標也要足夠好。
語音家電(雙麥)全雙工狀態下的識別率要求如表1。

表1 雙麥語音家電全雙工狀態下識別率
語音家電(雙麥)全雙工狀態下的語義打斷要求如表2。

表2 雙麥語音家電全雙工狀態下語義打斷要求
語音家電(雙麥)全雙工狀態下的噪聲誤打斷要求如表3。

表3 雙麥語音家電全雙工狀態下噪聲誤打斷要求

表4 雙麥語音家電全雙工對話技術測試設備一覽表
人工嘴位于語音家電麥克風正前方(注:其他角度如 45 °和 135 °結果僅作為參考),水平直線距離L米(有1 m、3 m、5 m三種方案);聲級計、語音家電麥克風位于同一平面處,噪音源與語音家電麥克風距離≥1 m;聲級計與語音家電麥克風盡量靠近(兩者之間距離≤50 mm),但不能碰到被測設備的外殼,避免發音震動引起的干擾。DUT(被測物)的位置有三種情況,分別時室內居中放置、室內靠墻放置、室內角落放置,具體選擇哪種位置因被測物實際使用情況而定,比如風扇,可選擇室內居中位置、立式空調可選擇室內角落、電飯煲可選擇室內靠墻等。實際測試可按照產品實際情況選擇圖1~6的任意兩種或者一種布局方式進行測試。

圖1 DUT室內居中放置噪聲朝里布局示意圖

圖2 DUT室內居中放置噪聲朝外布局示意圖

圖3 DUT室內靠墻放置噪聲朝里布局示意圖

圖4 DUT室內靠墻放置噪聲朝外布局示意圖

圖5 DUT室內角落放置噪聲朝里布局示意圖

圖6 DUT室內角落放置噪聲朝外布局示意圖
2.3.1 識別率測試數據要求如表5。

表5 雙麥語音家電全雙工對話技術指令詞測試數據要求
2.3.2 噪聲測試數據要求如表6。

表6 雙麥語音家電全雙工對話技術噪聲測試數據要求
分別調節音箱和人工嘴音量,使前述兩種設備單獨發聲時聲級計測出的分貝值計算信噪比,所有測試均保證信噪比SNR[4]≥10 dB。用人工嘴依次播放測試集語音命令,采用自動記錄設備記錄識別結果。需要注意的是:
1)所有測試均在產品結構合理并且達到結構設計ID的標準后進行測試;
2)所有測試均在典型混響環境[5]下測試(T60的值在200~400 ms);
3)聲音分貝以設備接收到的聲音的分貝為準;
4)噪聲源的朝向(朝里、朝外)不同的情況下,準確率要求不變;
5)本文提到的語音性能自動化測試環境單位dB均為dBA。
2.4.1 識別率測試
測試環境:滿足表1的要求;
測試數據:家電控制指令詞,≥100人&≥200條/人,且滿足3.3的要求;
通判標準:滿足表1的要求;
測試方法:
①切換到全雙工鏈路(很多語音設備可能同時存在半雙工鏈路和全雙工鏈路),
②進行全雙工鏈路的識別率測試:
播放喚醒詞→確認已經被喚醒→播放指令詞→匹配識別結果→重復上述4個步驟。
2.4.2 語義打斷測試
測試環境:滿足表2的要求。
測試數據:全雙工技能指令詞,≥5人&≥100條/人,同時滿足3.3的要求。
通判標準:滿足表2的要求:
-實際播放指令次數為A,
-本地記錄打斷成功次數為B,
-本地記錄打斷成功且識別正確次數為C;

腳本設計:
①喚醒(判斷喚醒標志,保證喚醒成功且上一輪全雙工已經退出);
②本地播放有長TTS下發的指令詞(判斷識別正確且成功激活全雙工狀態);
③檢測到“start tts”標志后等待1 s(期間無“end tts標志”且無全雙工退出標志);
④播放測試指令詞,并記錄播放時間到本地excel;
⑤等待5 s;
⑥重復①~⑥,直到待測的指令詞播完,結束自動化測試(待測指令此總數為A)。
按照上面的步驟,每次播完一個指令詞就重新喚醒再進入全雙工。保存200條測試指令詞測試過程中的全部嵌入式端的日志到本地,測試完成后對該日志進行數據處理,處理方法如下:
①按照進入全雙工&退出全雙工為一組,通過腳本分析日志并統計數據如表7。

表7 進入全雙工&退出全雙工統計數據
②計算語義打斷精確率和召回率:
-實際播放指令次數為A;
-本地記錄打斷成功次數為B=sum N1(200組N1的和);
-本地記錄打斷成功且識別正確次數為C=sum N2(200組N2的和);

2.4.3 噪聲誤打斷測試
測試環境:滿足表3的要求。
測試數據:只需要測試噪聲環境的時候按照3.3的要求準備噪聲數據。
通判標準:
安靜環境,全雙工狀態下,噪聲誤打斷≤0次/100輪;
噪聲環境,全雙工狀態下,噪聲誤打斷≤10次/100輪。
腳本設計:
前置條件:安靜環境的測試直接執行下述腳本,噪聲環境的測試則同時啟動噪聲播放和下述自動化腳本的執行。(有條件的話,可以對測試全過程進行錄音,方便排查問題。)
①喚醒(判斷喚醒標志,保證喚醒成功,且上一輪全雙工已經退出);
②播放指令詞;
③判斷進入全雙工狀態,成功進入計數N則+1,N的初始值為0;
④等待X s(X為對話主動退出定義的超時時間);
⑤重復①~⑤,直到N=100后結束自動化測試。
按照上面的步驟,每次播完一個指令詞成功進入全雙工狀態后,則一直等到該全雙工狀態自然超時退出,中間不播放除待測噪聲外的任何音頻數據,隨后再重新喚醒播放指令詞進行下一輪全雙工的觸發。保存測試過程中的全部嵌入式端的日志到本地,測試完成后對該日志進行數據處理,處理方法如下:
①按照進入全雙工&退出全雙工為一組,通過腳本分析日志并統計數據如表8。

表8 進入全雙工&退出全雙工統計數據
②計算噪聲誤打斷
安靜環境和噪聲環境的測試分開統計,噪聲誤打斷次數=sum N3(100組N3的和)。
測試報告應包括以下內容:
1)語音家電種類;
2)使用的測試設備;
3)測試環境的詳細描述(房間噪聲值、混響值、測試設備擺放、距離、角度);
4)測試使用的數據詳細描述;
5)表1、表2、表3中各測試項目的數據指標。
采用以上測試方法,選取市場了一款宣稱“全雙工對話”技術的空調DF100作為試驗樣機,按照以上試驗步驟,部分測試結果如表9,部分測試過程數據見圖7,部分測試環境見圖8。

表9 DF100全雙工語音性能部分測試結果

圖7 部分測試過程數據

圖8 部分測試環境
家電的語音功能成為近年來各大家電企業宣稱重要賣點之一,消費者也從“能動口就不動手”的角度出發,希望購買集解放雙手和娛樂為一體的語音家電,而全雙工對話技術又是家電語音功能的一大亮點,能夠為人們提供自然流暢的一次喚醒多輪問答的類人化的交互體驗。本文解讀了語音家電全雙工對話技術的關鍵測試指標、測試要求和方法,并結合語音空調產品的測試結果,為今后各家電企業及測試機構針對語音家電全雙工對話技術測試提供了指引方法。