烏 寶 貴
(中國電子信息產業發展研究院 北京 100048)
經過幾十年的發展,因特網(Internet)現已成為一個海量信息資源庫。概言之,網絡信息資源特點有三:一是信息的分布式存儲,因特網上的信息分散存儲在數以千萬計的各類網站服務器中。二是信息的更新頻率高,網上信息每時每刻都在發生著變化,每天新增的信息達到EB數量級。三是信息的多媒體性,網上信息的載體多種多樣,既有一般的數字、文本,也有大量的圖片和音、視頻。如何從諾大的網絡信息資源庫中尋找到適合具體需求的信息,是一個尚未徹底解決的問題。
因特網信息檢索大致經歷了三個階段:第一階段,因特網發展早期,網上的資源類網站比較少,人們采取直接瀏覽相關網站的方式查找信息,可稱之為“網站瀏覽信息檢索”方式,效率極低。第二階段,隨著網上資源的迅速增加,雅虎(Yahoo)率先推出導航式信息搜索服務,將因特網上的網站進行“樹形”分類,引導用戶沿著某一信息類別分支逐層找到目標網站,一定程度上提高了信息搜索效率,可稱之為“導航式信息檢索”方式。第三階段,搜索引擎的出現,為人們從因特網上查找信息提供了很大便利。人們只要在搜索框中輸入要查尋信息的主題詞,搜索引擎就可以返回相應查詢結果,供用戶取用,可稱之為“搜索引擎信息檢索”方式。然而,當下普遍使用的百度等搜索引擎,在功能上還存在許多局限,難以完全滿足人們的需求。局限一:單一語言信息檢索。搜索引擎的搜索范圍一般局限于與檢索主題詞所使用相同語言的網站,而不能實現以一種語言輸入主題詞,而檢索時進行跨語言內容檢索。比如:用中文輸入檢索主題詞“云計算”,搜索引擎搜索的范圍局限于包含中文“云計算”內容的相關網站,而不能自動擴展至包括英文“Cloud Computing”以及其他語種的網站。局限二:被動式信息檢索。搜索引擎只有當用戶發出檢索請求時,才被動地響應檢索所需信息,然后把結果反饋給用戶,而不能根據用戶需求搜尋信息,并主動推送給用戶。局限三:缺乏個性化服務能力。搜索引擎不能根據用戶的個性化需求為用戶提供訂制化信息服務。這三大局限,降低了搜索引擎信息檢索的完整性、主動性和個性化服務能力。
本文提出一種基于個性化定制、跨語言搜索及主動推送服務的網絡信息服務平臺,可以突破以上三大局限,彌補當下一般搜索引擎的不足,更好地滿足人們網絡信息檢索的需要。
對于一些普通的、淺層次的網絡信息需求,目前通用的搜索引擎尚能夠基本滿足要求。但是對于一些專業人士(比如:科研人員、情報搜集人員等)而言,其信息需求還有更高要求。主要是:
(1) 個性化服務 希冀信息服務平臺能夠根據不同用戶的信息需求,為其提供個性化的信息服務。比如,某一工程科研人員與某一醫學專家,他們因為從事的專業領域不同,對信息的需求也絕然不同。好的信息服務平臺應能根據不同用戶的個性化需求,有針對性地為其提供信息服務。
(2) 跨語言搜索 在信息搜索時,系統接收的檢索條件可以一種語言表達,而在檢索執行時,系統自動將檢索條件擴展、轉化為多種語言。比如:用中文提交檢索詞“云計算”,搜索引擎搜索與“云計算”主題相關的信息之前,先經多語種翻譯引擎將中文表達的“云計算”檢索詞自動翻譯成英文、法文、德文、日文等語種(根據用戶需要)的相對應檢索詞,然后再以每種語言表達的檢索詞為條件,在相應語種網站范圍內執行網絡搜索,由此將搜索范圍由原來單一語種搜索擴展至多語種信息搜索。并且,系統得到搜索結果后,再將不同語言的搜索結果經過二次轉換,翻譯成與檢索字所用語言相同的結果,返回給用戶。
(3) 主動推送服務 系統的搜索行為不是等到用戶在檢索框中輸入檢索條件后才執行,而是根據事先用戶訂制好的搜索條件,不間斷地執行網絡搜索,且將搜索結果不斷地主動推送給用戶。
由此可見,一個更高級的網絡信息服務平臺,除了具備目前一般搜索引擎功能外,還應能滿足以上三個服務需求,具備個性化服務、跨語言檢索和主動推送信息三大功能。
本文提出的新網絡信息服務平臺的實現原理是,將個性化訂制技術、多語種機器自動翻譯技術、跨語言搜索引擎技術和主動推送技術相結合,研制出一種新的網絡信息服務平臺。該平臺的系統邏輯結構如圖1所示。

圖1 系統邏輯結構圖
從圖中可以看出,新的網絡信息服務平臺主要由用戶界面及服務引擎兩大部分構成。“用戶界面”是用戶使用系統的橋梁,為其提供個性化訂制、信息檢索條件輸入、搜索結果信息展示等服務。“服務引擎”是系統的核心,主要由“個性化主題訂制子系統”、“多語種機器自動翻譯子系統”、“跨語言網絡搜索引擎”及“主動推送服務子系統”幾大部分構成。其中:
? 個性化主題訂制子系統負責處理用戶的個性化訂制請求。用戶通過信息訂制頁面選擇“主題詞+信息源網站+刷新頻率”的方式,告知系統其信息需求,系統將所有用戶的個性化訂制進行結構化處理,生成單語種訂制數據庫。
? 多語種機器翻譯子系統負責根據用戶在訂制階段選擇的語種,將其輸入的主題詞翻譯成其他語種對應的主題詞,生成“多語種訂制數據庫”。
? 跨語言網絡搜索引擎負責根據多語種訂制數據庫庫的搜索需求,不間斷地進行跨語種網絡搜索,并將結果進行分類、排序等處理,生成多語種搜索結果庫。
? 主動推送服務子系統負責經多語種機器翻譯子系統進行了二次翻譯(即將不同語種的搜索結果翻譯成與個性化訂制主題詞所用語種相同的結果)的單語種搜索結果庫內容主動推送給訂制用戶。
整個信息服務流程可描述為以下五大步驟:
(1) 個性化信息需求訂制 用戶通過信息需求訂制頁面(見表1),填報(或者編輯修改以前的)信息需求訂制表并向系統提交。最基本的信息需求表包括:序號、主題詞、信息源地址、檢索語言、刷新頻率等項目,其中:序號由系統自動生成;主題詞由用戶根據自己的個性化需求設定,數量上沒有限制;信息源地址是指用戶讓系統重點關注的網站地址,一個主題詞可以對應多個信息源。用戶也可以不指定信息源,搜索引擎網絡爬蟲按照既定的搜索策略尋找與主題詞有關的信息。填報需求表時,設定的該主題詞需要檢索的語言種類,是機器翻譯引擎將主題詞翻譯成其他語言的依據。如果不設定語言種類,系統默認只檢索主題詞所用語言范圍。設定刷新頻率是告訴系統查詢結果推送及顯示頻率,可以有多種選擇,如以分鐘為單位。如果不設定,有新的信息搜索結果時,系統將及時推送給用戶,并刷新結果顯示頁面。

表1 用戶信息需求訂制表
(2) 機器翻譯引擎將主題詞翻譯成多語種主題詞 用戶提交信息需求表后,多語種機器自動翻譯引擎將表中的主題詞翻譯成相應語言表達的主題詞,生成新的多語種主題詞表。此時,用戶提交的主題詞表中的一個主題詞可能對應多個新的不同語種表達的主題詞。
(3) 搜索引擎進行多語種信息搜索 跨語言網絡搜索引擎根據新的主題詞表進行網絡信息搜索,并對搜索結果進行分類、標引和排序,生成多語種搜索結果庫。
(4) 多語種翻譯引擎將搜索結果進行逆向翻譯 多語種翻譯引擎根據主題詞表,將搜索結果進行語言逆向翻譯,生成與用戶提交的主題詞表語言相同的單語言搜索結果庫。
(5) 將最終結果推送給用戶 用戶通過信息顯示頁面,可以看到不同主題詞的搜索結果。對于經過翻譯的搜索結果,如果需要,用戶可以點擊源文檔地址(信息展示頁面提供的原始文檔網絡地址),進一步瀏覽相關語言原始文檔。
實現提供個性化訂制、跨語言搜索及主動推送服務的網絡信息服務平臺,必須了解和掌握以下關鍵技術:
(1) 個性化訂制技術 個性化訂制是系統的基礎功能,采用關系數據庫技術即可實現。主要是處理好用戶與主題詞、主題詞與信息源網址、主題詞與相關語種的“一對多”關系。用戶界面應盡量設計得簡潔易用,最好用填寫(或修改)需求信息表的形式完成需求訂制。
(2) 主題詞多語種自動機器翻譯技術 將用戶以一種語言(如漢語)表達的主題詞通過機器翻譯引擎自動翻譯成其他語言(如英語、日語、德語等等)表達的主題詞,是本系統實現跨語言網絡搜索的前提。技術難點是如何保證用戶提交的原主題詞與翻譯生成的其他語言主題詞在語義上保持一致。造成此種困難的原因是,不同語言詞匯之間的“多對多對應關系”以及目前的自然語言處理技術還不能完全解決語義的理解問題。構建系統時,采用權威的“雙語詞典”及先進的機器翻譯引擎是提高主題詞翻譯準確性的關鍵。
(3) 跨語言網絡搜索技術 實現跨語言網絡搜索有兩條途徑:一是自行開發一個能支持多語種的網絡搜索引擎,難度非常之大;二是通過“元搜索引擎”技術實現跨語言網絡搜索,經驗證明這是一條比較可行的技術途徑。所謂“元搜索引擎”,是一種調用其他獨立搜索引擎的引擎,是對多個獨立搜索引擎的整合、調用、控制和優化利用。相對元搜索引擎,可被利用的獨立搜索引擎稱為“源搜索引擎”,或“搜索資源”,整合、調用、控制和優化利用源搜索引擎的技術,稱為“元搜索技術”,元搜索技術是元搜索引擎的核心。
(4) 多語種文檔機器翻譯技術 實現對跨語言搜索得到的多語種文檔進行自動化的機器翻譯,途徑也有兩種:一種是自行研發多語種文檔機器翻譯系統,對源文檔進行翻譯;另外一種是將技術成熟的機器翻譯系統融入本系統平臺,通過API調用機器翻譯系統完成不同語言的翻譯工作。“Google翻譯”目前支持多達數十種語言的雙向翻譯,其利用統計算法及大數據處理、人工智能等技術,大大提高了翻譯的準確率。本文建議采取第二種技術途徑解決多語種文檔自動翻譯問題。
(5) 信息主動推送技術 從因特網上獲取信息的方式有兩種。一種是利用Google和百度等搜索引擎,在檢索框中輸入查詢條件,搜索引擎將搜索結果返回給用戶。從用戶角度看,這種方式是把信息拉向“客戶端”,稱為“拉(Pull)”的方式。另外一種與之對立,是“推(Push)”的方式,如本文提出的個性化信息訂制和系統主動推送模式。“拉(Pull)”和“推(Push)”技術對用戶來說都是信息獲取技術,但二者存在著根本的不同。以Pull技術為核心的信息拉取技術,在信息獲取時,用戶必須時刻處于主動地位,也就是說,用戶必須參與信息獲取的整個過程。而以Push技術為核心的信息推送技術,在信息推送過程中,服務器始終處于主動地位,用戶卻處于被動地位。“拉(Pull)”與“推(Push)”的根本區別是:相對一次會話,Pull由客戶發起,主動方是客戶;Push由服務器發起,主動方是服務器。與Pull技術相比,Push技術不僅獲取信息的效率高,費用低,而且及時性強。Push技術能夠通過一定的技術標準或協議,把用戶感興趣的信息,按照用戶的要求及時、主動地推送給用戶。用戶收到信息后,還可以離線瀏覽。
本文將個性化訂制、多語種機器自動翻譯、網絡跨語言搜索及主動信息推送技術相結合,提出了一種新的網絡信息服務平臺的系統架構,為網絡信息搜索及個性化信息服務平臺的構建提供了一種新的參考模型。事實上,如果將多語種機器自動翻譯和跨語言網絡搜索技術應用于人們慣常使用的百度等搜索引擎(可稱之為“即時搜索引擎”)中,也可以大大提升這些搜索引擎的檢索效率和服務質量。將基于個性化訂制和主動推送服務的搜索引擎與即時搜索引擎相配合,就可以比較好地滿足人們各種不同的網絡信息檢索需求。
另外,隨著大數據和人工智能技術的發展與不斷成熟,并在搜索引擎中合理加以應用,就可以在個性化、智能化網絡搜索引擎方向上作出功能更加強大的網絡信息服務平臺,讓因特網上的信息資源充分發揮其應有的價值。