

和機器說話,由機器完成任務—這是人類進入工業(yè)社會之后最主要的科學幻想主題。自從人工智能之父圖靈提出機器是否可以思考的問題以后,50多年以來好萊塢通過《星際迷航(Star Trek)》、《2001太空漫游》、《瓦力》等電影反復告訴人們一定會尋找到肯定的答案?,F(xiàn)在,它正來臨。很多人隨身攜帶的手機,正在變?yōu)槟桥_想象中的機器—內置Siri的iPhone 4S已成為目前門檻最低的人工智能設#8202;備。
人們對Siri的熱情,除了表現(xiàn)在與Siri各種奇特的對話之外,美國的科技愛好者紛紛自己動手,將Siri改造成可以發(fā)動汽車、調控溫度、開燈、拉窗簾的語音開關。從“幫我撥通一個電話”到“幫我做一頓飯”之間還有多大距離?手中擁有一部iPhone 4S的人給出的預測顯然會更為樂觀。
由Siri成為主流應用可以得出的判斷是,語音智能將成為人與網(wǎng)絡、人與機器連接的一個新入口。雖然微軟、谷歌、IBM等在語音和人工智能領域各有布局,但更善于將技術人性化、產(chǎn)品化的蘋果又一次站在了改變產(chǎn)業(yè)的位置上。
鼠標和Siri,兩者最初都是斯坦福國際研究所(SRI International)的技術項目,雖非蘋果原創(chuàng),卻都在其商用開發(fā)之下,進入普通消費者的世界。前者早已成為計算機標配,后者則正在掀動一場新變#8202;革。
巧合的是背后有一貫的邏輯:讓計算機更人性化。計算機語言抽象難懂,初期只能用鍵盤輸入制式的命令。而蘋果一直在縮短計算機與人的距離,將抽象轉變?yōu)橹备械捏w驗—鼠標可以在視覺化的圖形界面上操作;多點觸屏可以直接用手指控制;Siri則是用交談的方式完成任務。它們受到大眾市場追捧,正因為其接近人類與世界互動的自然方式。
進化
很多人把Siri與語音識別簡單等同起來。實際上,語音識別只是其前端的交互方式。更為重要的是其后端—即如何智能地理解用戶的意思,并通過與IOS操作系統(tǒng)的集成,以及與Yelp等網(wǎng)絡服務或知識庫的集成,自動完成各種任務。
喬布斯在去年接受訪問時曾提到:“Siri是一家人工智能的公司?!边@也正是Siri與微軟Tellme、谷歌Voice Action等語音識別或語音控制產(chǎn)品的重要區(qū)別。一個最簡單的例子是,當你詢問Siri:“紐約的天氣情況如何?”并獲得答案以后,如果繼續(xù)問:“那么倫敦呢?”SIri也能夠明白你問的還是天氣。它能夠處理自然語言,并且在語境中作連貫的理解和回應。而Tellme更類似于語音識別后的信息搜索;Google Voice Action雖然可以觸發(fā)任務,但必須使用設定的命令語句而非自然語言,可是普通用戶并不喜歡記憶一堆指令。
Siri源于美國國防高級研究計劃局(DARPA)龐大的人工智能項目的一部分。始于2003年的CALO(Cognitive Assistant that Learns and Organizes,即能夠學習和組織的具有認知能力的助手)項目匯集了斯坦福、麻省理工、卡耐基梅隆等25所頂級大學和商業(yè)研究機構的300多名研究人員。2007年該項目結束之時,項目協(xié)作方之一的斯坦福國際研究所,認識到其中巨大的商業(yè)機會,通過繼續(xù)募集資金和組建團隊,成立了Siri團隊,李嘉誠基金會也是投資者之一。Siri最初作為iPhone的第三方應用,通過和其它應用的合作,讓用戶以語音完成預定餐館、出租車、行事日程更新等。2010年2月推出升級版的應用之后,它很快就成為了生活類應用的第一名。
喬布斯去世前一年多的時光中,有相當一部分投注在Siri上。2010年3月,喜歡這款應用的他親自致電Siri的聯(lián)合創(chuàng)始人兼CEO戴格·吉特拉斯(Dag Kittlaus)進行商談;一個多月以后,蘋果宣布對Siri的收購。隨后的一年多時間里,Siri被整合到了IOS5系統(tǒng)中,并成為喬布斯謝幕前留給眾人的又一次驚嘆。
追求完美和細節(jié)的蘋果,并不像Google那樣常常推出測試產(chǎn)品(Gmail曾有5年多時間都是Beta版)。Siri卻例外地掛著Beta的標簽。雖然喜愛者甚眾,也有許多失望的用戶抱怨測試版—對口音的識別能力太弱;對模糊語言的理解能力不如預期;可以執(zhí)行的任務太少,譬如不能添加聯(lián)系人、無法控制其它第三方應用。
Siri正在加緊和系統(tǒng)的整合。蘋果內部也還在探索中,會慢慢先在蘋果自己的應用里面做siri的整合,學習更多東西?!捌┤缣O果的新應用‘Find My Friend’就和Siri整合了。蘋果對于人工智能的想法比較動態(tài)和超前,可能會有比目前制式的API架構更先進的協(xié)議?!焙吞O果的團隊保持著聯(lián)系的William Wei(魏國章)告訴《環(huán)球企業(yè)家》。他1993年加入喬布斯團隊NeXT公司,1997年隨喬布斯進入蘋果。
入口之爭
競爭對手們也感受到了壓力。谷歌董事長埃里克·施密特(Eric Schmidt)在近期對應反壟斷質詢的聲明中說道:“歷史表明,流行的技術總是被全新的模式取代。就在反壟斷聽證會幾個禮拜以后,蘋果通過Siri開啟了一個全新的進入搜索技術的方式?!彼酥目萍荚u論者MG Sigler的觀點說:“每個人都堅持蘋果最終將會進入搜索引擎行業(yè),蘋果確實這么做了,只是它用了人們都沒想到的方式。Siri成為了搜索的入口?!睂嶋H上,Siri不僅可能成為搜索的入口,它還可能成為各種網(wǎng)絡服務甚至硬件設備的新入口。
Beta版的Siri只是一個開始。它極有可能不斷擴展,并成為開放性的平臺。Siri的第一輪投資者Gary Morgenthaler這樣預測未來:“Siri的結構是一個可擴展的平臺,新的領域(例如電子商務、個人記憶、體育、博客、新聞、社交等)可以在幾周內加入。通過每個季度不斷加入新的領域,Siri可以高效地大幅提升智能。除此之外,Siri還可由第三方開發(fā)者拓展,他們可以加入特定領域的專長(例如旅游、娛樂、餐飲、本地服務等)。目標是讓Siri成為一個開放平臺,讓Siri開發(fā)者建立起有價值的事業(yè)。現(xiàn)在的蘋果開發(fā)者平臺已經(jīng)有超過十萬開發(fā)者了。”
而在魏國章看來,融合iOS5+iCloud+Siri的推出與接下來的發(fā)展,蘋果將把整個移動產(chǎn)業(yè)帶到人工智能大領域里。開發(fā)者將擁有新的API和新服務工具來創(chuàng)造出下一代的新軟件并帶領著使用者去真正體驗“虛擬個人助理”的新紀元,而不再局限于那小小的屏幕。
對于微軟、谷歌等巨頭來說,雖然暫落下風,但這場新的競爭才剛開始。谷歌的語音搜索、微軟的自然語言研究都具有強大實力。同時,人工智能和語音識別技術在美國發(fā)展了幾十年,有相當一批頂尖的實驗室及關聯(lián)企業(yè)。和蘋果類似,谷歌等公司若能收購并整合創(chuàng)造出突破性模式的企業(yè),仍將有復盤的機會。而另一方面,語音智能也只是未來趨勢的一脈。微軟的Kinect所代表的體感技術,同樣是縮短人與機器距離的強大力量,Kinect結合的語音功能也在不斷提升中。
在國內,中文的語音識別也有已經(jīng)較為成熟并投入消費應用的技術。上市企業(yè)科大訊飛的高級副總裁、研究院院長胡郁告訴本刊,訊飛口訊、訊飛輸入法等主要產(chǎn)品,總計有800萬下載用戶,每天有200萬次語音交互。同時其技術也在新浪微博的語音搜索中使用,騰訊則獲得其語音能力的授權,正在研發(fā)相關產(chǎn)品。在他看來,語音智能之所以現(xiàn)在爆發(fā),與移動互聯(lián)網(wǎng)和云計算緊密相關。有了移動設備的普及,人們對于便捷的語音有更強烈的需求;同時,這種語音智能的交互計算量很大,有了云計算才能夠完成復雜的計算。
不過相比美國,中國在人工智能和操作系統(tǒng)的技術上仍有很大差距,因此在短期內產(chǎn)生和Siri同級別的產(chǎn)品,可能性甚微。蘋果網(wǎng)站的FAQ中提到,明年Siri將會提供中文服務。如果Siri能夠與中國的網(wǎng)絡服務提供者(如大眾點評等)、第三方開發(fā)者建立良好的合作,將會給中國語音智能行業(yè)內的企業(yè)帶來更大的挑戰(zhàn)。對更多想要在這一領域淘金的中國公司來說,在蘋果平臺上開發(fā)Siri有關的應用,依然將是短期內最主流的方式。