
當語音識別技術(shù)遇到互聯(lián)網(wǎng),視頻搜索又有了新的可能。
計算機可以輕松處理文本,但對語音卻沒那么容易。在過去的20年里,研究人員一直在努力讓人和計算機搭上腔。語音識別技術(shù)因此變得成熟。現(xiàn)在,你已經(jīng)可以通過聲音來“命令”計算機做一些簡單的操作,你所講的話也能夠被順利地識別為一段文字。而當視頻互聯(lián)網(wǎng)時代到來后,人們對語音技術(shù)又有了新的期望。
隨著互聯(lián)網(wǎng)上音視頻文件的不斷增多,如何進行準確的檢索成為一大難題。目前,大多數(shù)搜索引擎的做法是根據(jù)視音頻文件自帶的文字介紹,以及上下文環(huán)境來判斷;或者通過Web2.0常用的Tag(標簽)及朋友的推薦信息來確定視頻內(nèi)容。但這些方式的缺點也像其優(yōu)點一樣顯而易見。一旦視頻名稱或者文字信息不全面,就會使你跟很多精彩內(nèi)容擦肩而過。
另一種做法是從內(nèi)容和視覺方面做文章。比如,微軟亞洲研究院華先勝研究員的一項基于內(nèi)容的視頻搜索技術(shù),可以通過訓練計算機對內(nèi)容場景進行學習,從而能夠彌補上述的不足,搜索到視頻里面去。但這種方法在有些場合也有其局限性。比如,類似《鏘鏘三人行》的談話類節(jié)目,每期的場景和人物都相對固定,視頻內(nèi)容提供的信息就非常有限了。而對于這類以談話、評論或播報為主的節(jié)目來說,利用語音識別技術(shù)針對語音內(nèi)容進行檢索,便成為一種更為有效的方法。
互聯(lián)網(wǎng)上的視頻、聲音質(zhì)量參差不齊,內(nèi)容更是包羅萬象,如果將傳統(tǒng)的語音識別技術(shù)直接應(yīng)用于互聯(lián)網(wǎng)視頻搜索,識別準確性很低(通常只能達到50%~70%),而信息丟失率很高。……