
打敗谷歌?一項“必應(yīng)(Bing)PK谷歌(Google)”的比賽在微博上熱傳。參與活動的用戶只要登錄指定頁面,隨意輸入想搜索的關(guān)鍵詞,就可以通過5輪盲測推選出自己認(rèn)為最好的搜索結(jié)果。第三方獨立調(diào)研機構(gòu)益普索統(tǒng)計的盲測結(jié)果顯示,中國有75%的參與者首選微軟必應(yīng)提供的結(jié)果。
與受歡迎程度不相稱的是必應(yīng)在中國不足1%的市場份額。即使作為后來者的奇虎360也能在宣布進(jìn)軍搜索領(lǐng)域一個月后,輕松拿到了11%的市場份額。微軟亞洲互聯(lián)網(wǎng)工程院院長王永東認(rèn)為,測試結(jié)果顯示了微軟的技術(shù)優(yōu)勢,而他們的宣傳是短板。
為了得到關(guān)注度和影響力,必應(yīng)推出一款新產(chǎn)品“必應(yīng)影響力(Bing Score)”并在2013MSN時尚影響力大典上發(fā)布。必應(yīng)影響力項目總監(jiān)李明章嫻熟地打開這款產(chǎn)品向《環(huán)球企業(yè)家》演示,他指出,本周娛樂版榜單,楊冪和蒼井空在前兩名的位置已經(jīng)上下變化了好幾次。他正思索是否以此為噱頭做一次營銷。這個看似普通的工具,其背后卻是微軟“實體搜索”(Entity Search)技術(shù)的新實踐。
實體搜索是相對于關(guān)鍵詞搜索而言的。按照李明章的說法,必應(yīng)影響力是中國團(tuán)隊用實體搜索等技術(shù)開發(fā),并植入必應(yīng)搜索的產(chǎn)品。微軟全球資深副總裁、搜索與廣告首席科學(xué)家沈向洋表示:“社交圖譜搜索和實體搜索將成為必應(yīng)的新機會。”微軟正在悄然布局,一種全新的搜索方式正把必應(yīng)推向搜索的第三次革命中。
Web末日
基于傳統(tǒng)網(wǎng)頁搜索的卡位戰(zhàn)已經(jīng)結(jié)束,谷歌、百度脫穎而出,必應(yīng)在美國聯(lián)合雅虎取得了30%的搜索市場份額。以未來微軟對搜索引擎的野心為界,微軟亞洲研究院常務(wù)副院長馬維英認(rèn)為搜索歷史的三次突破就是三張圖譜:網(wǎng)頁圖譜、社交圖譜和實體圖譜。
上世紀(jì)90年代,信息檢索只有兩個衡量的指標(biāo):查準(zhǔn)率和查全率,最早的搜索引擎AltaVista只解決了查全率就成了當(dāng)時最富盛名的搜索工具。谷歌的兩位創(chuàng)始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin),使用PageRank的全新算法,解決了查準(zhǔn)率的問題,令當(dāng)時所有搜索入局者不能望其項背。
過去十幾年,搜索引擎的研究和創(chuàng)新一直圍繞排序進(jìn)行,業(yè)內(nèi)參與者競爭的焦點是:誰的排序相關(guān)性更好?
信息爆炸讓改變悄然發(fā)生,互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)越來越多,沒有被納入搜索引擎的“暗網(wǎng)”以萬億計。人們也往往沒有時間和耐心點擊第五頁以后的搜索結(jié)果。“最后只有0.001%是有用功,這是很多搜索引擎面臨的資源浪費。”馬維英說。
困境中亦存機會。Facebook去年高調(diào)推出“社交圖譜搜索(Graph Search)”,你可以通過它搜索好友圈中誰看過災(zāi)難電影。Facebook搜索依靠的是10億用戶、2400億張照片和1萬億次頁面訪問量帶來的數(shù)據(jù)金礦。
Facebook的社交行為數(shù)據(jù)正在滿足相當(dāng)比例的搜索請求。可以基于朋友的“Like”搜索加州的特色餐廳,或是通過朋友的照片尋找一起滑雪的玩伴。除相關(guān)的語義研究,社交圖譜搜索背后是把用戶行為產(chǎn)生的數(shù)據(jù),比如點擊習(xí)慣、Like等運用到極致,它更傾向于解決與生活相關(guān)的社交信息。
微軟看到的實體搜索機會對比Facebook的顯著進(jìn)階是,不僅僅有“人”、“地點”、“照片”等一些最常見的實體,也有如哈利·波特、植物、動物等真實和虛擬世界內(nèi)的所有實體。
實體搜索的概念產(chǎn)生于2004年,其前身是微軟研究院研發(fā)的學(xué)術(shù)搜索,它試圖解決信息檢索的精準(zhǔn)化。馬維英認(rèn)為,搜索結(jié)果的理想呈現(xiàn)形式類似于維基百科。不過維基百科是人們手動整理和撰寫的,而微軟試圖通過自動算法、機器學(xué)習(xí)、數(shù)據(jù)挖掘和自然語言理解等技術(shù)自動生成類似網(wǎng)頁。
在算法上,實體搜索把傳統(tǒng)基于“文本”的搜索改變?yōu)榛凇皩ο蟆钡乃阉鳎阉饕娓又悄艿厝ダ斫庥脩舻恼鎸嵭枨蟆@缢阉?“Apple”,它理解成蘋果公司的機率最高;如果搜索“Big Apple”,最高的可能性則是列出紐約市。短期來看,實體搜索是對現(xiàn)有搜索精準(zhǔn)度的一次改進(jìn)。
它真正的潛力顯現(xiàn)可能在10年甚至更久之后,馬維英描述了未來實體搜索的美好圖景:未來僅僅使用搜索引擎就可以自動生成“維基百科”,不僅僅出現(xiàn)奧巴馬,而且能夠繼續(xù)生成對他的描述及所有社交好友對他的評價;搜索引擎可以自動區(qū)分出有幾個名叫“Michael Cohen”的人,并告訴你他們在每一個領(lǐng)域的影響力,而非在搜索結(jié)果中混在一起;如果你想認(rèn)識一個叫“Joe”的朋友,搜索引擎可以畫出“六度人脈”,告訴你通過誰可以找到她;甚至還可以繪出家族或者師生圖譜,比如微軟亞洲研究院院長洪小文和沈向洋都是Raj Reddy的學(xué)生;僅通過搜索,你就可以比較微軟和IBM在不同時期不同領(lǐng)域的實力對比;甚至一家酒店,可以把酒店的某個房間與開過的會議及開會的人相連接。
秘密武器
微軟亞洲研究院正在實現(xiàn)實體搜索的未來設(shè)想。
2001年,馬維英加入微軟亞洲研究院,開始負(fù)責(zé)互聯(lián)網(wǎng)搜索和數(shù)據(jù)挖掘等領(lǐng)域的研究。在過去的幾年里,他和團(tuán)隊研發(fā)了大量與實體搜索相關(guān)的項目,如“人立方”、“學(xué)術(shù)搜索”、“讀心機器人”等,其中,“讀心機器人”已轉(zhuǎn)化為微軟必應(yīng)搜索引擎的在線服務(wù)產(chǎn)品。
五年前推出的“人立方”被廣泛應(yīng)用。當(dāng)搜索“比爾·蓋茨”,他的關(guān)系網(wǎng)狀圖將呈現(xiàn)在頁面上,包括他的妻子、同事及好友等。這是挖掘作為“人”的實體最廣泛的運用之一。
最直接的工具是“萊特自動問答引擎”。當(dāng)搜索“詹姆斯·卡梅隆的夫人是誰?”頁面馬上出現(xiàn)五個人名,以及每一個人的正確比例。實際上,詹姆斯·卡梅隆確實有五個夫人。區(qū)別于傳統(tǒng)搜索引擎,“萊特自動問答引擎”不是文本的堆砌,而是要點的回答,這部分解決了信息精準(zhǔn)推送的問題。
最有趣的應(yīng)用是“讀心機器人”。用戶可以在心中隨意想象人或物,然后讓電腦來猜。其實現(xiàn)方式是人與機器問題互動,比如用戶回答電腦設(shè)定的一些問題。不要小瞧了這種看似像打發(fā)時間的游戲,你輸入的每一次信息都將是機器學(xué)習(xí)的過程,它發(fā)現(xiàn)微軟公司全球資深副總裁張亞勤的特征是“面部有顆痣”。電腦獲取反饋后會越來越聰明,這令搜索結(jié)果更加精 準(zhǔn)。
“特別是在人類實體里,借助規(guī)模的用戶反饋,能夠清理一些自動生成的不準(zhǔn)確個人檔案,借助用戶參與自發(fā)形成的與體育、科學(xué)、商業(yè)領(lǐng)袖相關(guān)的實體資料會更加精準(zhǔn)。”馬維英 說。
“讀心機器人”和“人立方”累積的關(guān)系亦被應(yīng)用到必應(yīng)影響力中,構(gòu)成人與人關(guān)系的基礎(chǔ),這被看成是實體搜索在中國的一次現(xiàn)實性應(yīng)用。但這些工具亦存在局限性:“萊特自動問答引擎”并不能告訴你現(xiàn)在正在上映的電影,也無法告訴你附近有哪些好吃的餐館,“人立方”和“讀心機器人”也僅限于名人,無法顯示難以在網(wǎng)頁中搜索到的普通人。
以人為核心的實體搜索最大問題是重名,僅中國就有20萬個名為“張磊”的人,區(qū)分此類信息極具挑戰(zhàn)。微軟亞洲研究院主管研究員、人立方項目負(fù)責(zé)人聶再清對《環(huán)球企業(yè)家》說,“現(xiàn)在我們對人名、地名、產(chǎn)品名的識別挖掘已經(jīng)應(yīng)用到必應(yīng)中。”
對于這些局限性的解答,是微軟的終極目標(biāo)。而這一切,遠(yuǎn)非僅靠實體搜索可以做到。
馬維英嘗試提出一個軟件行業(yè)的“摩爾定律”,即未來搜索引擎是建立在大數(shù)據(jù)和云計算的架構(gòu)上,運用機器學(xué)習(xí)以及用戶反饋,影響搜索結(jié)果的精度會在某段時間內(nèi)提高一倍。至于某段時間到底是多久?每天討論此事已成為微軟亞洲研究院搜索團(tuán)隊的一個樂趣。他們確信的是,摩爾定律之于軟件的加速度,必然導(dǎo)致產(chǎn)業(yè)巨變。
誰的機會?
即便擁有了強大的用戶數(shù)據(jù)和社交關(guān)系的Facebook,也未能使得Graph Search完全達(dá)到精準(zhǔn)。面對這個看起來前景無限美好的實體搜索藍(lán)圖,亦非幾個研究項目就可馳騁沙場。
看起來前景無限的社交圖譜搜索和實體搜索吸引了行業(yè)巨頭紛紛涉足。今年5月,谷歌利用“Google+”累積的社交關(guān)系,推出了類似于社交圖譜式的搜索,比如用戶可搜索“我在海灘的照片”或是“朋友間誰拍照最好”。
社交網(wǎng)站基于已有數(shù)據(jù)做實體搜索是否更具潛力?
前谷歌中國工程研究院副院長、現(xiàn)云云網(wǎng)的創(chuàng)始人劉駿認(rèn)為:“這需要區(qū)分公開性社交和私密性社交。”Facebook、微信屬于私密性社交,用戶未必希望所有人都能搜到自己;而Twitter、微博這種公開性社交,則更適合社交化搜索。
無論是社交圖譜還是實體搜索,結(jié)構(gòu)化數(shù)據(jù)庫成為一大難點。那些類似大眾點評的垂直類網(wǎng)站,擁有的結(jié)構(gòu)化數(shù)據(jù)庫似乎在實體領(lǐng)域更有機會。一個顯而易見的難點是,現(xiàn)在萬億級的網(wǎng)頁以及全人類的知識,都在用非結(jié)構(gòu)化的方法在處理。但更多的數(shù)據(jù)還是處于“信息孤島”中,并沒有相互連接,有效的解決方法在于平臺之間使用一種較好的架構(gòu)打通數(shù)據(jù),彼此形成連接點。
微軟使用數(shù)據(jù)庫的最簡單方法是戰(zhàn)略上合縱連橫。通過收購Skype和Yammer,微軟擁有了自身的社交數(shù)據(jù),F(xiàn)acebook、Linkedin、Twitter等最具社交潛力的公司亦在谷歌與微軟的合作間選擇了后者。
真正撼動實物搜索的關(guān)鍵之一是能否解決非結(jié)構(gòu)化數(shù)據(jù),以及在數(shù)據(jù)之間建立聯(lián)系。自然語言理解、機器學(xué)習(xí),甚至是多媒體搜索,都將影響到實體搜索最終的實現(xiàn)形態(tài)。“實體搜索現(xiàn)階段更多停留在概念的階段,如果沒有突破性的進(jìn)展,很難從根本上改變。”劉駿對《環(huán)球企業(yè)家》說,“但也不排除未來發(fā)生質(zhì)變的可能性。”
手機等移動設(shè)備帶來了移動互聯(lián)網(wǎng)的高速發(fā)展期,平臺和工具的變化引起了用戶使用習(xí)慣的改變。一個顯而易見的變化是“語音搜索”,另外隨著三星最新開發(fā)的“眼動追蹤”技術(shù),以及微軟、英特爾在體感計算上的突破,越來越多的電子設(shè)備可以感知用戶的手勢和動作。或許未來的搜索,只需要揮一揮手,就可以如《黑鏡》中的主人翁一樣切換頻道。
目前的搜索相對被動,而未來的搜索會更加智能,能夠根據(jù)用戶不同的使用場景,用最適合的輸入方式實現(xiàn)“主動搜索”。必應(yīng)植入到Windows、Office的操作系統(tǒng)和軟件中成為微軟獨一無二的優(yōu)勢。你可以在寫作時直接在Word中搜索,也可以寫一份英文文檔時讓機器實現(xiàn)自動翻譯。
馬維英對《環(huán)球企業(yè)家》說:“當(dāng)某一天,大家不再單純地談?wù)撍阉饕妫Р㈦[身在一切新一代智能軟件和服務(wù)之中的時候,就是搜索引擎真正實現(xiàn)突破的時候。”