



Siri是iPhone 4S搭載的一項重要功能,用戶可以直接用語言與智能手機進行簡單的交流并對手機發出指令。能夠“聽話”的手機,已經不再是一臺冷冰冰的機器……
在各類故事中,人與機械的交流總是令人充滿想象的空間。比如《一千零一夜》中四十大盜的藏寶窟:只要來人說一聲“芝麻開門”,大門就會打開;說一聲“芝麻關門”,大門則會關上。不過,當計算機出現之初,人們與它只能直接通過機器語言來交流,這些機器語言由成千上萬個“0”和“1”組成,并且被打孔機打在長長的紙帶上。當DOS和UNIX出現后,就可以通過輸入指令來讓計算機從事相應的工作。圖形界面的出現則是人機交流的一大飛躍,直到今天,無論我們是用鼠標,還是用手指在屏幕上點點戳戳,本質上都是基于圖形界面的人機交流。那么,有沒有可能我們說什么,就能讓電腦執行什么呢?這的確是個很吸引人的課題。從本質上而言,無論智能手機還是機器人,都是電腦的一種存在形式。如果它們能夠“聽懂”我們的指令,并按照指令來行事,那真是很方便的一件事情。
也許有讀者會說,這其實很簡單,比如語音撥號,只要說出想要聯系的人名,手機就會撥打此人的電話,這個功能在很早以前就已經實現了。不過,這僅僅是最初級階段的語音識別:它基于的是手機自身的數據庫,也是用手機自身的功能搞定撥號;而且,即使用戶吐字清晰,并且電話簿沒有重名,面對好幾個“張軍”、“張君”、“章均”,手機也會暈菜,更別提很多地方的用戶“王”、“黃”不分等發音的差別了。這樣簡單的功能,本身已經是out了,讓我們看看iPhone 4S搭載的Siri能夠做什么。
驚艷的Siri
如果在幾個月前看到右上圖中的對話,或許你會以為這是一個人在與朋友聊天,而如今我們都知道,這是在Siri在評測中給出的回答。此外,通過網上大量的視頻,我們還能夠了解到Siri更加豐富的應用,比如設定和優化路線、天氣預報等等。Siri的功能實現有著強大的后盾,首先是對話式的界面以及相應的語音識別數據庫,其次是基于云計算的數據搜索和服務查詢,最后則是各類功能的智能型整合。它的智能化程度超越了以往的各類語音識別應用軟件,借助它的算法和數據庫,Siri可以判斷出你說的地方是賓館還是超市,你想找的東西是化妝品還是食品。我們可以用一個應用例子來分析Siri都在做什么:對于“I like a romantic place for Italian food near my office(我想在我辦公室附近找個浪漫的,有意大利食品的地方)”這句話,Siri 回答:“I am looking for a Italian restaurant which reviews say are romantic near your work in San Jose...(我在尋找一個你在San Jose工作地點附近的擁有浪漫點評的意大利餐館)”。首先,Siri會根據上下文了解用戶的需求條件是辦公地點附近的,擁有意大利食品的浪漫之處,進而判斷,意大利食品只能在意大利餐館(要注意到,用戶根本沒有提restaurant這個詞匯)得到,然后,它會通過GPS或者無線基站服務鎖定用戶大致位置,用云端的數據庫搜索(遠程平臺)尋找該位置附近用戶評價為“浪漫”的意大利餐館,并把結果反饋給用戶。
Siri起源于美國政府2003年投資的“個人學習型助理”研究計劃,這一計劃先后資助SRI International等多家公司和研究機構進行新一代的智能助理的研究,它們能夠從經驗中學習和推理,并聽從指令完成特定的任務。此后SRI將這一部分分離出來成為Siri,又進行了商業融資并進一步開發。2010年,蘋果斥資2億美元收購了Siri,并將Siri應用放在App Store中銷售,但在iPhone 4S上市后停止了銷售,使之變成目前iPhone 4S獨享的功能。而且,它已經被整合為iOS的一部分,可以想象,蘋果未來的機型都可以搭載這一功能,而每次對系統的更新也會使Siri的用戶受益。
智能語音控制與局限
以Siri為代表的智能語音控制與傳統的語音控制相比最顯著的區別是前者是模糊的、可學習的,而后者只能使用特定的指令,就像四十大盜的藏寶窟只對“芝麻開門”和“芝麻關門”兩條指令產生響應,而智能語音控制則要靈活得多,只要包含有“開門”和“關門”這樣的語句,它都會根據上下文環境來判斷是否發出開關指令。一個典型的例子是,用戶通過Siri提問“紐約的天氣如何?”得到回答后,再提問“那么洛杉磯呢?”此時Siri依然會給出洛杉磯的天氣信息,而不是到洛杉磯怎么走,或者是洛杉磯有多少人口。不過,智能語音控制實現的條件要求相當高。首先,程序必須要有足夠優化的算法,以實現對語音的高效識別和判斷。其次,要有足夠龐大的云端數據庫和足夠的帶寬,以便執行搜索和反饋。最后,平臺要有相應的功能,用戶既不能讓iPhone 4S去打掃衛生,也不能讓它變出一個美女來聊天。
智能語音控制的前景非常美好,Siri也是非常吸引人的功能,但任何事物都有一定的局限性。Siri對語音的識別并非準確無誤,發音不準確會造成識別困難,而且目前蘋果還沒有開放中文的Siri功能,這是因為由單詞和中文字組成的句子的語義識別算法有較大差異。此外,模糊化的語音控制本身也是一柄雙刃劍,因為要有一定的容錯性,因此很難判斷接收到的語音和指令是否得到授權。據傳蘋果準備在iOS 5.1中加入更加基礎的應用,如收發電子郵件的支持,添加或刪除通訊錄等等,這些功能可能需要用戶的密碼授權才能完成。
其他平臺的智能語音控制
盡管蘋果不是手機平臺實現語音控制的第一家企業,但它絕對是做得最好的一家企業。在智能手機平臺上,目前能夠與iOS相提并論的只有Android,而且Google公司的搜索引擎無論在功能上還是信息量上都是最出色的,云端技術也非常強大,這也使廣大Android用戶對類似的功能充滿了期待。事實上,早在蘋果在系統中植入Siri之前,Android平臺上已經出現了大量的語音識別軟件,比如日本的NTT Docomo公司提供的Speakey和Voice IT。在Siri大紅大紫之后,Iris、Speaktoit等Android平臺第三方語音識別軟件也借機火了起來。不過,這些軟件的“智商”和“能力”都無法與Siri相提并論。我們也希望Google能夠憑借自己強大的技術后盾做出類似的應用,不過在Android 4.0中提供的Voice Action也僅僅是過去傳統語音識別的增強版。
一些智能型玩具和智能型機器人也能夠理解用戶的語音并完成一些云端提供的服務,但它們與智能手機平臺的側重點不同。比如騰訊推出的“Qrobot”在娛樂方面的功能就相當強大,可稱得上是老少咸宜的互聯網應用型智能玩具,連筆者都動心考慮給孩子買一臺玩玩。總而言之,目前的智能語音控制技術只能算作剛剛起步,但我們對它的未來充滿期待。