微軟計算機語音識別技術開發取得重大突破
美國微軟公司雷蒙德研究院開發出一種機器學習算法,使計算機對指定主題對話的語音識別率提高至94.1%,首次與人類水平相當;對親戚朋友日常對話的語音識別率達88.9%,甚至比人類略勝一籌。
美國國家標準與技術研究所2000年曾發布了一個數據庫,用以幫助解決語音識別難題。該數據庫包含的電話錄音有些是個人之間既定話題的談話,其余則是親戚朋友間的隨意交談。結果顯示,人類在轉錄語言時的出錯率約為4%。微軟雷蒙德研究院的研究人員基于不同層數的卷積神經網絡來優化其機器深度學習系統,使系統的每一層能夠分別識別語音的不同方面;然后,用訓練數據作為標準來設置機器,以便識別普通語音并使其適應測試數據庫。總的來說,微軟的語音識別系統達到了與人類相當的錯誤率,但其錯誤類型與人類截然不同。微軟系統最常見的錯誤是混淆反饋聲音。相比之下,人類很少犯這樣的錯誤。對此,研究人員認為,出現誤差的原因可能與噪聲在訓練數據集中的標記方式有關。
研究人員表示,該項研究成果對于開發更智能的個人數字助理,如微軟的Cortana,以及Xbox等娛樂設備和即時語音轉文字等工具具有重要意義。
(KJ.1029)
