

即便是再小的障礙出現在用戶與所需求信息之間,都會讓搜索引擎大佬們“寢食難安”。如今,他們甚至覺得,用手指敲擊鍵盤才能輸入搜索關鍵詞,這簡直太影響用戶體驗了,應該讓人們動動嘴,就能夠獲得最完美的信息搜索結果——這不僅僅是個愿望,它已經成為現實。
由蘋果的Siri引爆的一場語音搜索技術大戰正在上演,谷歌攜Google Now后來居上,百度也不甘示弱,他們早就組建了自己的“特種部隊”——多媒體研發團隊,專門從事機器人學習、計算機視覺、信息檢索和數據挖掘等人工智能技術的研發。如今,百度技術副總監余凱率領著這支“特種部隊”,加入到了語音搜索的叢林之戰,對手則是全球市值第一的蘋果和搜索霸主谷歌。
百度良好的財務業績讓它有充裕的資金投入到技術研發之中。7月24日,百度發布2012年第二季度財報,Q2總收入為54.56億元人民幣,同比增長59.8%,凈利潤27.7億元人民幣,同比增長69.6%。人們注意到,百度當季研發投入達5.46億元,同比增長82.7%,占總營收比例高達10%。
首席執行官李彥宏表示,百度在語音搜索、移動瀏覽器等關鍵創新方面已經取得重大進展,語音搜索服務已經在百度地圖APP等產品中開始應用。面對強大的競爭對手,百度不敢有片刻遲疑,其財力、物力和人力的投入均已到位。凡是蘋果涉足的領域,無一不將引起生態圈的重構,作為競爭對手,緊緊跟隨并努力超越才是生存之道。
蘋果iPhone 4S所配置的語音控制功能Siri,被稱為喬布斯用來改變這個世界的“最后的禮物”。在新一代操作系統iOS 6中,Siri能夠支持15個國家和地區的包含漢語在內的語音輸入,具有語義理解和用戶意圖識別能力。你可以讓它陪你聊天,搜索信息,還可以聘請它做你的私人助理,完成設置提醒、預訂餐廳、查詢天氣以及安排日程等任務。當然,調用Siri也非常簡單,只要長按住 Home 鍵,然后所要做的就是,對它說話。
奧斯卡金像獎最佳導演馬丁.斯科塞斯(Martin Scorsese)出現在蘋果Siri的一則廣告中,馬丁問:“我今天的日程如何?”“又是忙碌的一天。”Siri回答。“你不是開玩笑的吧?”馬丁繼續和它對話,Siri則很認真地告訴他:“我做事一貫非常嚴謹。”在幫助這位傳奇導演完成了重新安排日程、尋找朋友位置以及查詢曼哈頓交通路況等一系列任務后,馬丁表達了對Siri的感謝之意:“我喜歡你,再也離不開你了。”“我會記住你說的這些。”Siri并沒有表現出特別的激動。
蘋果拓展了“搜索”的外延概念,通過Siri語音輸入,語音識別、智能機器人處理和分析,調用本地或者網絡的應用程序,整合出最為合適的答案或者信息呈現給用戶。這個“智能”的語音助理帶給世界太多想象空間,幾乎為我們描繪了一個具備人工智能的全新生態系統。與其他程序結合在一起的Siri,勢必成為移動互聯網的最新搜索入口。
這款應用顯然嚴重刺激了谷歌公司的神經,他們在今年2012 I/O開發者大會上發布代號為“Jelly Bean”(果凍豆)的Android 4.1版本操作系統,用Google Now這個重量級應用來向世人展示,搜索引擎顛覆時代到來的宣言理應由他們宣布。
“希望未來的搜索引擎不僅能夠理解你的問題,提供相關信息,而且能夠為你提供現實世界中的知識解答——將來的某天甚至能夠達到智慧搜索引擎的程度。”Google高級副總裁阿米特.辛格哈爾這樣闡述搜索的未來。Google每個月都要處理超過1000億個搜索請求,每天抓取超過200億個頁面,索引庫中收錄了100PB的數據,是美國國會圖書館藏書量的10萬倍,人們對于這個“搜索巨人”有著天然的信任感。
Google Now的顛覆性在于,除了完成回答用戶語音提出的問題之外,它還可以根據記錄和分析用戶的搜索習慣,推測用戶需要的信息,并在恰當的時候提供給他們。Google Now能夠在會議開始之前的一個特定的時間向用戶發出提醒,而且它已經將交通路況考慮在內;如果你是某個體育賽事的愛好者,不必刻意詢問,它會將最新比分告知給你;當你前往一家餐廳用餐時,它甚至可以為你推薦那里的菜品供選擇。
建立起一個讓搜索引擎理解世界以及事物之間的聯系的模型,這是Google努力的方向。Google Now的成功得益于Google強大的信息檢索能力,這個簡單搜索框的背后則保留著每一次用戶搜索的記錄,一個與搜索結果相關的完整的知識體系在逐漸建立的過程中,而預測特定用戶的意圖也就有章可循,這個龐大的數據庫和復雜的計算模型的確讓Siri羨慕不已。
作為中文搜索巨頭的百度對這一切當然不會無視。在8月舉行的第18屆ACM知識發現與數據挖掘學術年會上,百度首席執行官李彥宏發表了主題演講,向世界頂尖級研發人員提出了“希望學術界解決的九大技術難題”,其中語音識別位居前列。
與移動端相關的多媒體技術方面的研發,百度早在兩年前就已開始布局,其多媒體“特種部隊”來自全球招聘。圍繞著語音識別與智能理解,他們已經開發和掌握了海量語言模型、復雜聲學建模、高速解碼等關鍵技術。對于語音搜索技術的產品創新,百度還有自己的打算,從應用提供商向平臺開發商的轉變正在推進,配合其全新的“云戰略”,他們計劃將包括語音在內的多媒體技術通過API接口開放給第三方開發者,動用群眾的力量,建立起一個多贏的生態系統。
以搜索業務起家的百度,在自然語言處理方面,尤其是在對中文的語義理解方面有著時間和數量上的優勢,擁有近400億網頁的中文語料。對數據處理,尤其是利用機器學習算法,利用大規模數據學習、訓練,并且運用到語音、信號處理,語音識別模型訓練,在這些方面百度有相當深厚的算法和積累。余凱說:“百度有著12年中文語言處理經驗,世界上沒有其他公司具有像百度這樣規模龐大的自然語言處理的團隊。”
目前,掌上百度、百度搜索手機客戶端、百度手機地圖、百度手機瀏覽器等產品中,都已經配置了百度語音識別和搜索的功能,而百度網頁、百度圖片、百度知道、百度新聞、百度MP3、百度百科、百度地圖、百度視頻等這些垂直搜索頻道也將被整合在其中。用戶可以用語音進行文字輸入、發送短信、搜索信息以及查詢地圖,你甚至還可以對著手機說“芝麻開門”為手機解鎖,通過語音指令實現對手機的智能操控。
“我們接下來不會把百度的框視為傳統的搜索框,而是視為人機界面。表面上它可能提供像Google的搜索框那樣的應用和服務,但是它本質上不再是傳統的百度搜索,它解決一系列的問題,例如本地的服務、導航、搜索,傳統的搜索,精準的框計算。”百度首席產品設計師孫云豐曾如此表示,在需求和應用之間建立起密切的聯系,是百度當下最為重要的任務,而將語音交互方式和框計算的結合才能實現真正意義上的智能搜索。
人和機器最自然交互的一種方式就是語音。在移動互聯網上,語音識別和人工智能技術可以解放用戶的雙手和眼睛,通過語音命令完成一系列任務,這幾乎是全新的用戶體驗。中國互聯網絡信息中心(CNNIC)發布的《第30次中國互聯網絡發展狀況統計報告》表明,2012年上半年,通過手機接入互聯網的網民數量達到3.88億,相比臺式電腦的3.8億,手機已經是中國互聯網用戶的第一大上網終端。余凱說:“語音應用,在移動互聯網時代的爆發已經成為整個業界的共識,百度也持同樣的判斷。”(文/徐珊插圖/文耀)