如何從一堆亂糟糟的圖片搜索結(jié)果中理出頭緒?聚類的圖片搜索會帶來不同的體驗。
現(xiàn)在市場上的圖片搜索引擎多少有點懶人衣櫥的味道。當(dāng)你用關(guān)鍵詞搜索圖片時,常常會因為關(guān)鍵詞本身的簡單或模糊,導(dǎo)致搜索結(jié)果雜亂無章。面對搜索引擎給出的幾千條結(jié)果而不耐煩地翻下去的時候,你的心情肯定就像臨出門前,要在一個不整齊的衣櫥里翻找今天要穿的衣服一樣糟糕。
有專業(yè)人士做過一項調(diào)查,對比搜索圖片經(jīng)驗豐富和經(jīng)驗有限的兩組人,結(jié)果發(fā)現(xiàn)了一個共同的規(guī)律:當(dāng)他們進行圖片搜索時,往往不會主動去改變關(guān)鍵詞,而是在結(jié)果中不斷后翻,直至找到滿意的目標(biāo)為止。不要怪他們懶惰,這種舉動是因為,在搜索一幅圖片時,很多人并不知道該怎樣定義關(guān)鍵字,而列得太多又往往適得其反。
新的技術(shù)能夠帶來什么改變嗎?來自微軟亞洲研究院(HSRA)的一對搭檔,推出了一個名為“IGroup”(Image Group)的圖片搜索聚類方向的研究項目,已經(jīng)可以很好地解決用戶上述的煩惱。
喜歡K歌、熱愛音樂的研究員景風(fēng),和穿著時尚、寓有親和力的用戶體驗設(shè)計師王爍,絕對是MSRA里的兩個個性分子,前者負責(zé)該項目的具體算法和技術(shù)實現(xiàn),后者則從用戶體驗的角度設(shè)計整個交互流程與界面。他們的IGroup和他們本人一樣,都有點突破傳統(tǒng)思路、另辟蹊徑的味道。目前,IGroup中的某些關(guān)鍵技術(shù)已申請了專利。
IGroup可以架構(gòu)在某個基礎(chǔ)搜索引擎之上。它把用戶獲得的搜索界面分為了兩個區(qū)域,左側(cè)是與關(guān)鍵字相關(guān)的短語聚類和小型縮略圖,右側(cè)則是圖片搜索結(jié)果的展示區(qū)。這有點像是帶有分類格子的衣櫥,而所有的分類都是系統(tǒng)自動完成的。比如,當(dāng)你搜索“Tiger”(老虎)一詞時,左側(cè)的聚類會顯示出與之相關(guān)的幾條短語,除了將其細分為“孟加拉虎”、“印度虎”、“西伯利亞虎”等類別外,還會出現(xiàn)類似“Tiger Woods”(“老虎”伍茲,一位著名的高爾夫運動員)的分類,甚至還有蘋果曾經(jīng)發(fā)布的代號為“老虎”的操作系統(tǒng)。用戶可以先在左側(cè)根據(jù)分類詞條和小型縮略圖進行初選,而后再在與之相關(guān)的右側(cè)展示區(qū)中詳細瀏覽。
在右側(cè)的瀏覽區(qū),初始結(jié)果有多種顯示排列方式。其一是從左側(cè)導(dǎo)航區(qū)的每個分類中抽取幾幅具有代表性的圖片而形成的聚類縮略圖;其二是自動顯示某一較大的圖片聚類。
這種結(jié)合了語義的歸納視圖能夠顯著提高圖片搜索的效率,且能夠帶給用戶額外的提示。比如,當(dāng)你搜索“pentagon”(五角形)時,IGroup會在導(dǎo)航區(qū)列出美國五角大樓和五角形(pentagon shape)等不同聚類短語供用戶選擇,這樣用戶便可以在下一次的查詢中,直接輸入曾經(jīng)點擊過的某個詞條作為關(guān)鍵字,由此獲得更精準(zhǔn)的搜索結(jié)果。
事實上,關(guān)于圖片的搜索聚類并不是一個新鮮話題。傳統(tǒng)的做法是,對每張圖片抽取一個特征(文不的或者圖像的),然后進行聚類。但這一方式顯然在效率和速度上處于劣勢。IGroup選擇了個巧妙的做法,先根據(jù)用戶的圖片搜索關(guān)鍵字,再在搜索引擎中進行文本搜索,抽取出前幾百個結(jié)果中反復(fù)出現(xiàn)的高頻短語作為二次圖片搜索的關(guān)鍵詞(大約在20個以內(nèi)),而對于一些無法分類的詞則存放在一個名為“Other”(其他)的類別中,這樣一來既覆蓋了所有搜索結(jié)果,又在不影響速度的情況下提高了查詢的效率。
在算法實現(xiàn)上,如何定義和獲得準(zhǔn)確的聚類,如何消除各類中的冗余圖片等,都是IGroup研究的難點。景風(fēng)和王爍也在嘗試進一步優(yōu)化這一項目。在未來,他們可能采取類似Digg.com的機制,根據(jù)用戶的搜索和點擊情況,對聚類和縮略圖進行排序;也可能會將目前的聚類分為多個層級,讓用戶可以有進一步細化的選擇。
方式多種多樣,但可以預(yù)見的結(jié)果是,未來的圖片搜索將會變得越來越聰明、越來越方便。