2012年5月16日,谷歌發(fā)布了一項(xiàng)名為“谷歌知識(shí)圖譜”的新型搜索技術(shù)。在谷歌上搜索“弗朗索瓦·奧朗德”,你將得到奧朗德的孩子、夫人、生日、教育等等附有簡介的鏈接地址。幾十年后,科學(xué)家和記者可能會(huì)回首這一時(shí)刻,并將其視為機(jī)器從挖掘海量無意義數(shù)據(jù)到開始像人一樣思考的時(shí)代分水嶺。
谷歌在成立伊始主要使用窮舉算法(brute force)來組織互聯(lián)網(wǎng)知識(shí)。谷歌有全球最大的并行操作計(jì)算機(jī)群和全球最大的數(shù)據(jù)庫。你的每一條搜索查詢之所以能如此迅速地得到響應(yīng),是因?yàn)樗鼈儽煌獍o了谷歌巨大的數(shù)據(jù)中心,借鑒了海量預(yù)編譯數(shù)據(jù),并且每一秒都會(huì)由數(shù)百萬抓取網(wǎng)頁的虛擬谷歌“蜘蛛”負(fù)責(zé)加速。這讓人想起了IBM公司的“深藍(lán)”國際象棋計(jì)算機(jī),它靠更快的計(jì)算速度而非更卓越的棋藝戰(zhàn)勝了所有人類挑戰(zhàn)者。“深藍(lán)”通過窮舉一切可能的走法贏得了比賽,它只有“蠻力”,沒有“策略”。
但是,面對(duì)更為復(fù)雜的真實(shí)世界,無論數(shù)據(jù)庫有多大,僅靠數(shù)據(jù)挖掘都是不夠的。“深藍(lán)”在國際象棋領(lǐng)域征服了人類,但是人類仍然可以在更古老的圍棋領(lǐng)域痛挫計(jì)算機(jī),因?yàn)閲逵懈蟮谋P面和更多可能的走法。窮舉法在同音字面前也無能為力,比如,“Paris”,它既可以指巴黎也可以指某個(gè)喜歡出風(fēng)頭的社會(huì)名媛。
為了處理“Paris”這類一詞多義的問題,谷歌搜索使用了語義網(wǎng)絡(luò)的理念。作為地名的“Paris”和作為人名的“Paris”各自擁有獨(dú)立的ID(就像條形碼或社保號(hào)碼一樣),簡單的聯(lián)系被解釋實(shí)體關(guān)系的注解分類所替代和補(bǔ)充。由此,“Paris1”(巴黎)與埃菲爾鐵塔等信息聯(lián)系在一起,而“Paris2”(人)則與各種真人秀信息聯(lián)系在一起。當(dāng)所有的地點(diǎn)、人物和關(guān)系都互相聯(lián)系起來時(shí),這些網(wǎng)絡(luò)就成了一個(gè)巨大的蜘蛛網(wǎng)。從本質(zhì)上來說,谷歌正在嘗試重塑互聯(lián)網(wǎng),并為它的抓取“蜘蛛”提供一個(gè)更聰明的網(wǎng)絡(luò)。
谷歌曾是一臺(tái)完全經(jīng)驗(yàn)主義的機(jī)器,沒有先天知識(shí),只有巨大的知識(shí)容量,通過以比特計(jì)的信息來學(xué)習(xí)事物之間的聯(lián)系。現(xiàn)在,谷歌試圖在先驗(yàn)主義和經(jīng)驗(yàn)主義之間尋求平衡,它通過內(nèi)置有包括人、物、地點(diǎn)在內(nèi)的結(jié)構(gòu)化數(shù)據(jù)庫獲得了強(qiáng)大的統(tǒng)計(jì)能力。谷歌的搜索引擎仍然在追蹤搜索“Paris”出現(xiàn)的結(jié)果,并查看結(jié)果與用戶的提問有何關(guān)聯(lián)。但谷歌正在嘗試將這些結(jié)果互相聯(lián)系起來,根據(jù)人、物和地點(diǎn)的聯(lián)系將它們組合成一個(gè)知識(shí)目錄。