用聲音“看”視頻

2007-12-31 00:00:00李洋

互聯(lián)網(wǎng)周刊 2007年20期

當語音識別技術(shù)遇到互聯(lián)網(wǎng)，視頻搜索又有了新的可能。

計算機可以輕松處理文本，但對語音卻沒那么容易。在過去的20年里，研究人員一直在努力讓人和計算機搭上腔。語音識別技術(shù)因此變得成熟。現(xiàn)在，你已經(jīng)可以通過聲音來“命令”計算機做一些簡單的操作，你所講的話也能夠被順利地識別為一段文字。而當視頻互聯(lián)網(wǎng)時代到來后，人們對語音技術(shù)又有了新的期望。

隨著互聯(lián)網(wǎng)上音視頻文件的不斷增多，如何進行準確的檢索成為一大難題。目前，大多數(shù)搜索引擎的做法是根據(jù)視音頻文件自帶的文字介紹，以及上下文環(huán)境來判斷；或者通過Web2.0常用的Tag（標簽）及朋友的推薦信息來確定視頻內(nèi)容。但這些方式的缺點也像其優(yōu)點一樣顯而易見。一旦視頻名稱或者文字信息不全面，就會使你跟很多精彩內(nèi)容擦肩而過。

另一種做法是從內(nèi)容和視覺方面做文章。比如，微軟亞洲研究院華先勝研究員的一項基于內(nèi)容的視頻搜索技術(shù)，可以通過訓練計算機對內(nèi)容場景進行學習，從而能夠彌補上述的不足，搜索到視頻里面去。但這種方法在有些場合也有其局限性。比如，類似《鏘鏘三人行》的談話類節(jié)目，每期的場景和人物都相對固定，視頻內(nèi)容提供的信息就非常有限了。而對于這類以談話、評論或播報為主的節(jié)目來說，利用語音識別技術(shù)針對語音內(nèi)容進行檢索，便成為一種更為有效的方法。

互聯(lián)網(wǎng)上的視頻、聲音質(zhì)量參差不齊，內(nèi)容更是包羅萬象，如果將傳統(tǒng)的語音識別技術(shù)直接應(yīng)用于互聯(lián)網(wǎng)視頻搜索，識別準確性很低（通常只能達到50％～70％），而信息丟失率很高。……

登錄APP查看全文

互聯(lián)網(wǎng)周刊 2007年20期

互聯(lián)網(wǎng)周刊的其它文章: 突破中小企業(yè)人才瓶頸; ＩＢＭ的遙控器; 開采視頻金礦; 手機電視的延伸道; 金融危機不是“空中樓閣”; 金山長大