谷歌知識(shí)圖譜：讓網(wǎng)絡(luò)變得更聰明

2012-04-29 00:00:00

OV海外文摘 2012年12期

2012年5月16日，谷歌發(fā)布了一項(xiàng)名為“谷歌知識(shí)圖譜”的新型搜索技術(shù)。在谷歌上搜索“弗朗索瓦·奧朗德”，你將得到奧朗德的孩子、夫人、生日、教育等等附有簡介的鏈接地址。幾十年后，科學(xué)家和記者可能會(huì)回首這一時(shí)刻，并將其視為機(jī)器從挖掘海量無意義數(shù)據(jù)到開始像人一樣思考的時(shí)代分水嶺。

谷歌在成立伊始主要使用窮舉算法（brute force）來組織互聯(lián)網(wǎng)知識(shí)。谷歌有全球最大的并行操作計(jì)算機(jī)群和全球最大的數(shù)據(jù)庫。你的每一條搜索查詢之所以能如此迅速地得到響應(yīng)，是因?yàn)樗鼈儽煌獍o了谷歌巨大的數(shù)據(jù)中心，借鑒了海量預(yù)編譯數(shù)據(jù)，并且每一秒都會(huì)由數(shù)百萬抓取網(wǎng)頁的虛擬谷歌“蜘蛛”負(fù)責(zé)加速。這讓人想起了IBM公司的“深藍(lán)”國際象棋計(jì)算機(jī)，它靠更快的計(jì)算速度而非更卓越的棋藝戰(zhàn)勝了所有人類挑戰(zhàn)者。“深藍(lán)”通過窮舉一切可能的走法贏得了比賽，它只有“蠻力”，沒有“策略”。

但是，面對(duì)更為復(fù)雜的真實(shí)世界，無論數(shù)據(jù)庫有多大，僅靠數(shù)據(jù)挖掘都是不夠的。“深藍(lán)”在國際象棋領(lǐng)域征服了人類，但是人類仍然可以在更古老的圍棋領(lǐng)域痛挫計(jì)算機(jī)，因?yàn)閲逵懈蟮谋P面和更多可能的走法。窮舉法在同音字面前也無能為力，比如，“Paris”，它既可以指巴黎也可以指某個(gè)喜歡出風(fēng)頭的社會(huì)名媛。

為了處理“Paris”這類一詞多義的問題，谷歌搜索使用了語義網(wǎng)絡(luò)的理念。作為地名的“Paris”和作為人名的“Paris”各自擁有獨(dú)立的ID（就像條形碼或社保號(hào)碼一樣），簡單的聯(lián)系被解釋實(shí)體關(guān)系的注解分類所替代和補(bǔ)充。由此，“Paris1”（巴黎）與埃菲爾鐵塔等信息聯(lián)系在一起，而“Paris2”（人）則與各種真人秀信息聯(lián)系在一起。當(dāng)所有的地點(diǎn)、人物和關(guān)系都互相聯(lián)系起來時(shí)，這些網(wǎng)絡(luò)就成了一個(gè)巨大的蜘蛛網(wǎng)。從本質(zhì)上來說，谷歌正在嘗試重塑互聯(lián)網(wǎng)，并為它的抓取“蜘蛛”提供一個(gè)更聰明的網(wǎng)絡(luò)。

谷歌曾是一臺(tái)完全經(jīng)驗(yàn)主義的機(jī)器，沒有先天知識(shí)，只有巨大的知識(shí)容量，通過以比特計(jì)的信息來學(xué)習(xí)事物之間的聯(lián)系。現(xiàn)在，谷歌試圖在先驗(yàn)主義和經(jīng)驗(yàn)主義之間尋求平衡，它通過內(nèi)置有包括人、物、地點(diǎn)在內(nèi)的結(jié)構(gòu)化數(shù)據(jù)庫獲得了強(qiáng)大的統(tǒng)計(jì)能力。谷歌的搜索引擎仍然在追蹤搜索“Paris”出現(xiàn)的結(jié)果，并查看結(jié)果與用戶的提問有何關(guān)聯(lián)。但谷歌正在嘗試將這些結(jié)果互相聯(lián)系起來，根據(jù)人、物和地點(diǎn)的聯(lián)系將它們組合成一個(gè)知識(shí)目錄。

OV海外文摘2012年12期

OV海外文摘的其它文章: 牡蠣:海洋的珍品; 一汽-大眾奧迪CSR+戰(zhàn)略啟動(dòng)全新兒童公益項(xiàng)目 “愛佑·一汽-大眾奧迪上海寶貝之家”正式落成; 投資歐洲：中國與歐洲的雙贏; 小心駛得萬年船; “柯達(dá)時(shí)刻”的終結(jié); 大馬士革最后一位游客