李玲
【摘要】信息時代信息更新速度不斷加快,人們能夠使用的信息量極其巨大。面對紛繁的信息,如何提取有用的知識是面臨的一個非常現(xiàn)實的問題。隨著網(wǎng)絡應用的深入,網(wǎng)絡信息檢索技術不斷發(fā)展,同時也面臨著諸多挑戰(zhàn),其總的發(fā)展趨勢為多功能化和智能化。
【關鍵詞】網(wǎng)絡信息 信息檢索 搜索引擎
一、引言
當今世界是互聯(lián)網(wǎng)飛速發(fā)展的信息世界,因特網(wǎng)作為傳遞信息的橋梁,發(fā)揮著越來越重要的作用。據(jù)中國互聯(lián)網(wǎng)信息中心2018年1月發(fā)布的《第41次中國互聯(lián)網(wǎng)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》數(shù)據(jù)顯示:截至2017年12月,我國網(wǎng)民規(guī)模達7.72億,網(wǎng)站數(shù)量為533萬個,年增長率為10.6%,網(wǎng)頁數(shù)量為2604億個,年增長10.3%,且仍在以每天百萬級別網(wǎng)頁的速度增加。網(wǎng)絡信息數(shù)量的海量化、形式多樣化、內(nèi)容的復雜化使得網(wǎng)絡用戶如何在信息的海洋中,有效地獲取和利用信息與知識變得極其重要。網(wǎng)絡檢索技術已成為最普遍、最受關注的研究領域之一。
二、網(wǎng)絡信息檢索技術現(xiàn)狀
(一)信息檢索概述
信息檢索(Information Retrieval),通常指文本信息檢索,包括信息的存儲、組織、表現(xiàn)、查詢、存取等各個方面,其核心是文本信息的索引和檢索。在現(xiàn)代人們的認知觀念中,人們總是把信息檢索與搜索引擎畫上等號。但是信息檢索并不等于搜索引擎,只不過現(xiàn)階段搜索引擎是網(wǎng)絡信息檢索的主要手段。
(二)搜索引擎技術分析
搜索引擎是指利用網(wǎng)絡搜索技術對因特網(wǎng)信息資源進行標引,并為檢索者提供檢索的工具。搜索引擎具有普通檢索功能(如詞組檢索、字段檢索)和特殊檢索功能(如自然語言檢索、多語種檢索等)。因為不同的搜索引擎其收集信息的方式、信息覆蓋面廣度、標引方式和檢索軟件的具體功能不同,相同的檢索在不同的搜索引擎中存在的差異也很大。
(三)搜索引擎類型
(1)索引式搜索引擎,又稱為基于Robot的搜索引擎。是利用一個Robot(也叫Spider,Web Crawler或Web Wanderer)的程序自動訪問、提取各個網(wǎng)站網(wǎng)頁上的信息。如www.altavista.com即為這種檢索式搜索引擎。
索引式搜索引擎的特點體現(xiàn)在兩方面:一是交互性強,基于客戶機服務器模式從客戶端獲取用戶提問,經(jīng)過轉(zhuǎn)換構(gòu)造可操作數(shù)據(jù)庫的查詢語句,從數(shù)據(jù)庫中查找匹配記錄,并通過Web反饋結(jié)果;二是檢索功能強大,一般可進行詞組檢索、位置檢索、相關詞檢索等。
(2)元搜索引擎,又稱為集合式搜索引擎,是將多個搜索引擎集合在一起,提供一個統(tǒng)一的檢索界面。元搜索引擎自身沒有實際的數(shù)據(jù)庫來保存網(wǎng)上眾多的網(wǎng)站、網(wǎng)頁、FTP等信息,而是間接處理其他搜索引擎檢索的結(jié)果,進行再次篩選評價后統(tǒng)一反饋給用戶。
元搜索引擎的特點體現(xiàn)在兩方面:一是檢全率高,但是檢準率不能保障;二是一般元搜索引擎只支持“與或非”的簡單操作,因為元搜索引擎連接的站點各自擁有自己的一套檢索語法,故若想統(tǒng)一結(jié)構(gòu)具有較大難度。
(3)目錄式搜索引擎(Directory或Catalog),是指由人工發(fā)現(xiàn)、抓取、辨別網(wǎng)上信息,依靠編目、標引人員的知識,按照圖書分類、學科分類或其他分類依據(jù)建立主題樹分層目錄,并將采集篩選后的信息分門別類地放到各大類或子類目下,在Web界面上呈現(xiàn)錯落有致的上下級關系,用戶通過層層點擊,逐步縮小范圍,最終滿足用戶的查詢需求。
目錄式搜索引擎的特點體現(xiàn)在三方面:一是比較適合主題瀏覽,一般主題檢索都為檢索用戶的查找提供有價值的提示;二是檢準率較高,因為該搜索引擎介入了人工來評價網(wǎng)站內(nèi)容,因此搜索結(jié)果準確率較高;三是檢全率有限。
三、網(wǎng)絡信息檢索技術瓶頸及發(fā)展趨勢
(一)網(wǎng)絡信息檢索技術的瓶頸
(1)圖像音頻視頻檢索。信息化社會的今天,圖文并茂的多媒體信息已逐步成為Web信息的主流。如何對圖像特征進行準確提取,使用精準表達方式表達圖像特征是圖像檢索待解決的問題。
(2)漢語自動切分。語詞是信息表達的最小單位,是信息檢索技術中匹配的基本元素。漢語字詞之間沒有分隔符,而對信息資源的標引與對用戶檢索輸入的“理解”都必須進行正確的語詞切分,語詞切分已成為全文檢索技術的瓶頸。
(3)搜索引擎缺陷。目錄式搜索引擎采用人工干預技術,信息分類不規(guī)范,信息遺漏不可避免;站點、網(wǎng)頁信息內(nèi)容經(jīng)常變化,現(xiàn)有搜索引擎在信息維護、網(wǎng)絡及站點負載方面存在很大不足,索引數(shù)據(jù)庫大但檢索查準率低。
(二)網(wǎng)絡信息檢索技術發(fā)展趨勢
(1)網(wǎng)絡檢索智能化趨勢。從某種程度上說,科技發(fā)展的目的是為了滿足人們的“懶惰”習性。同樣,用戶希望用簡單的檢索步驟獲取高效準確的檢索結(jié)果。網(wǎng)絡檢索順應用戶這一要求,通過模擬人腦的思維方式,分析用戶自然語言表達的檢索請求,進行快速高效的信息檢索。其中較有代表性的如FSA、Eloise和FAFinder,通過模擬傳統(tǒng)檢索服務的咨詢來獲取相關的檢索數(shù)據(jù)。
(2)網(wǎng)絡檢索多樣化趨勢。網(wǎng)絡檢索多樣化表現(xiàn)在網(wǎng)上檢索信息、檢索工具及其服務的多樣化。多樣化趨勢具體表現(xiàn)在:網(wǎng)絡檢索信息的形態(tài)多樣,包括文本信息、聲音、圖像和動畫等。目前,已有高性能的語音識別系統(tǒng)和人臉圖像識別系統(tǒng)相繼問世,相信隨著科技的高速發(fā)展,該類系統(tǒng)將會越來越普及,幫助人們進行網(wǎng)上檢索。
(3)網(wǎng)絡檢索個性化趨勢。網(wǎng)絡檢索個性化包括網(wǎng)絡站點提供內(nèi)容的特色化和服務的個性化。各網(wǎng)站針對不同用戶需求提供有特色的服務內(nèi)容,用戶可以利用檢索工具以自己喜歡的方式來檢索信息,以提高檢索的效率和質(zhì)量。