999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于個性化訂制與跨語言搜索技術的網絡信息服務平臺

2018-09-26 07:08:10
計算機應用與軟件 2018年9期
關鍵詞:搜索引擎用戶語言

烏 寶 貴

(中國電子信息產業發展研究院 北京 100048)

0 引 言

經過幾十年的發展,因特網(Internet)現已成為一個海量信息資源庫。概言之,網絡信息資源特點有三:一是信息的分布式存儲,因特網上的信息分散存儲在數以千萬計的各類網站服務器中。二是信息的更新頻率高,網上信息每時每刻都在發生著變化,每天新增的信息達到EB數量級。三是信息的多媒體性,網上信息的載體多種多樣,既有一般的數字、文本,也有大量的圖片和音、視頻。如何從諾大的網絡信息資源庫中尋找到適合具體需求的信息,是一個尚未徹底解決的問題。

因特網信息檢索大致經歷了三個階段:第一階段,因特網發展早期,網上的資源類網站比較少,人們采取直接瀏覽相關網站的方式查找信息,可稱之為“網站瀏覽信息檢索”方式,效率極低。第二階段,隨著網上資源的迅速增加,雅虎(Yahoo)率先推出導航式信息搜索服務,將因特網上的網站進行“樹形”分類,引導用戶沿著某一信息類別分支逐層找到目標網站,一定程度上提高了信息搜索效率,可稱之為“導航式信息檢索”方式。第三階段,搜索引擎的出現,為人們從因特網上查找信息提供了很大便利。人們只要在搜索框中輸入要查尋信息的主題詞,搜索引擎就可以返回相應查詢結果,供用戶取用,可稱之為“搜索引擎信息檢索”方式。然而,當下普遍使用的百度等搜索引擎,在功能上還存在許多局限,難以完全滿足人們的需求。局限一:單一語言信息檢索。搜索引擎的搜索范圍一般局限于與檢索主題詞所使用相同語言的網站,而不能實現以一種語言輸入主題詞,而檢索時進行跨語言內容檢索。比如:用中文輸入檢索主題詞“云計算”,搜索引擎搜索的范圍局限于包含中文“云計算”內容的相關網站,而不能自動擴展至包括英文“Cloud Computing”以及其他語種的網站。局限二:被動式信息檢索。搜索引擎只有當用戶發出檢索請求時,才被動地響應檢索所需信息,然后把結果反饋給用戶,而不能根據用戶需求搜尋信息,并主動推送給用戶。局限三:缺乏個性化服務能力。搜索引擎不能根據用戶的個性化需求為用戶提供訂制化信息服務。這三大局限,降低了搜索引擎信息檢索的完整性、主動性和個性化服務能力。

本文提出一種基于個性化定制、跨語言搜索及主動推送服務的網絡信息服務平臺,可以突破以上三大局限,彌補當下一般搜索引擎的不足,更好地滿足人們網絡信息檢索的需要。

1 需求分析與功能設計

對于一些普通的、淺層次的網絡信息需求,目前通用的搜索引擎尚能夠基本滿足要求。但是對于一些專業人士(比如:科研人員、情報搜集人員等)而言,其信息需求還有更高要求。主要是:

(1) 個性化服務 希冀信息服務平臺能夠根據不同用戶的信息需求,為其提供個性化的信息服務。比如,某一工程科研人員與某一醫學專家,他們因為從事的專業領域不同,對信息的需求也絕然不同。好的信息服務平臺應能根據不同用戶的個性化需求,有針對性地為其提供信息服務。

(2) 跨語言搜索 在信息搜索時,系統接收的檢索條件可以一種語言表達,而在檢索執行時,系統自動將檢索條件擴展、轉化為多種語言。比如:用中文提交檢索詞“云計算”,搜索引擎搜索與“云計算”主題相關的信息之前,先經多語種翻譯引擎將中文表達的“云計算”檢索詞自動翻譯成英文、法文、德文、日文等語種(根據用戶需要)的相對應檢索詞,然后再以每種語言表達的檢索詞為條件,在相應語種網站范圍內執行網絡搜索,由此將搜索范圍由原來單一語種搜索擴展至多語種信息搜索。并且,系統得到搜索結果后,再將不同語言的搜索結果經過二次轉換,翻譯成與檢索字所用語言相同的結果,返回給用戶。

(3) 主動推送服務 系統的搜索行為不是等到用戶在檢索框中輸入檢索條件后才執行,而是根據事先用戶訂制好的搜索條件,不間斷地執行網絡搜索,且將搜索結果不斷地主動推送給用戶。

由此可見,一個更高級的網絡信息服務平臺,除了具備目前一般搜索引擎功能外,還應能滿足以上三個服務需求,具備個性化服務、跨語言檢索和主動推送信息三大功能。

2 系統原理與邏輯架構

本文提出的新網絡信息服務平臺的實現原理是,將個性化訂制技術、多語種機器自動翻譯技術、跨語言搜索引擎技術和主動推送技術相結合,研制出一種新的網絡信息服務平臺。該平臺的系統邏輯結構如圖1所示。

圖1 系統邏輯結構圖

從圖中可以看出,新的網絡信息服務平臺主要由用戶界面及服務引擎兩大部分構成。“用戶界面”是用戶使用系統的橋梁,為其提供個性化訂制、信息檢索條件輸入、搜索結果信息展示等服務。“服務引擎”是系統的核心,主要由“個性化主題訂制子系統”、“多語種機器自動翻譯子系統”、“跨語言網絡搜索引擎”及“主動推送服務子系統”幾大部分構成。其中:

? 個性化主題訂制子系統負責處理用戶的個性化訂制請求。用戶通過信息訂制頁面選擇“主題詞+信息源網站+刷新頻率”的方式,告知系統其信息需求,系統將所有用戶的個性化訂制進行結構化處理,生成單語種訂制數據庫。

? 多語種機器翻譯子系統負責根據用戶在訂制階段選擇的語種,將其輸入的主題詞翻譯成其他語種對應的主題詞,生成“多語種訂制數據庫”。

? 跨語言網絡搜索引擎負責根據多語種訂制數據庫庫的搜索需求,不間斷地進行跨語種網絡搜索,并將結果進行分類、排序等處理,生成多語種搜索結果庫。

? 主動推送服務子系統負責經多語種機器翻譯子系統進行了二次翻譯(即將不同語種的搜索結果翻譯成與個性化訂制主題詞所用語種相同的結果)的單語種搜索結果庫內容主動推送給訂制用戶。

整個信息服務流程可描述為以下五大步驟:

(1) 個性化信息需求訂制 用戶通過信息需求訂制頁面(見表1),填報(或者編輯修改以前的)信息需求訂制表并向系統提交。最基本的信息需求表包括:序號、主題詞、信息源地址、檢索語言、刷新頻率等項目,其中:序號由系統自動生成;主題詞由用戶根據自己的個性化需求設定,數量上沒有限制;信息源地址是指用戶讓系統重點關注的網站地址,一個主題詞可以對應多個信息源。用戶也可以不指定信息源,搜索引擎網絡爬蟲按照既定的搜索策略尋找與主題詞有關的信息。填報需求表時,設定的該主題詞需要檢索的語言種類,是機器翻譯引擎將主題詞翻譯成其他語言的依據。如果不設定語言種類,系統默認只檢索主題詞所用語言范圍。設定刷新頻率是告訴系統查詢結果推送及顯示頻率,可以有多種選擇,如以分鐘為單位。如果不設定,有新的信息搜索結果時,系統將及時推送給用戶,并刷新結果顯示頁面。

表1 用戶信息需求訂制表

(2) 機器翻譯引擎將主題詞翻譯成多語種主題詞 用戶提交信息需求表后,多語種機器自動翻譯引擎將表中的主題詞翻譯成相應語言表達的主題詞,生成新的多語種主題詞表。此時,用戶提交的主題詞表中的一個主題詞可能對應多個新的不同語種表達的主題詞。

(3) 搜索引擎進行多語種信息搜索 跨語言網絡搜索引擎根據新的主題詞表進行網絡信息搜索,并對搜索結果進行分類、標引和排序,生成多語種搜索結果庫。

(4) 多語種翻譯引擎將搜索結果進行逆向翻譯 多語種翻譯引擎根據主題詞表,將搜索結果進行語言逆向翻譯,生成與用戶提交的主題詞表語言相同的單語言搜索結果庫。

(5) 將最終結果推送給用戶 用戶通過信息顯示頁面,可以看到不同主題詞的搜索結果。對于經過翻譯的搜索結果,如果需要,用戶可以點擊源文檔地址(信息展示頁面提供的原始文檔網絡地址),進一步瀏覽相關語言原始文檔。

3 關鍵技術

實現提供個性化訂制、跨語言搜索及主動推送服務的網絡信息服務平臺,必須了解和掌握以下關鍵技術:

(1) 個性化訂制技術 個性化訂制是系統的基礎功能,采用關系數據庫技術即可實現。主要是處理好用戶與主題詞、主題詞與信息源網址、主題詞與相關語種的“一對多”關系。用戶界面應盡量設計得簡潔易用,最好用填寫(或修改)需求信息表的形式完成需求訂制。

(2) 主題詞多語種自動機器翻譯技術 將用戶以一種語言(如漢語)表達的主題詞通過機器翻譯引擎自動翻譯成其他語言(如英語、日語、德語等等)表達的主題詞,是本系統實現跨語言網絡搜索的前提。技術難點是如何保證用戶提交的原主題詞與翻譯生成的其他語言主題詞在語義上保持一致。造成此種困難的原因是,不同語言詞匯之間的“多對多對應關系”以及目前的自然語言處理技術還不能完全解決語義的理解問題。構建系統時,采用權威的“雙語詞典”及先進的機器翻譯引擎是提高主題詞翻譯準確性的關鍵。

(3) 跨語言網絡搜索技術 實現跨語言網絡搜索有兩條途徑:一是自行開發一個能支持多語種的網絡搜索引擎,難度非常之大;二是通過“元搜索引擎”技術實現跨語言網絡搜索,經驗證明這是一條比較可行的技術途徑。所謂“元搜索引擎”,是一種調用其他獨立搜索引擎的引擎,是對多個獨立搜索引擎的整合、調用、控制和優化利用。相對元搜索引擎,可被利用的獨立搜索引擎稱為“源搜索引擎”,或“搜索資源”,整合、調用、控制和優化利用源搜索引擎的技術,稱為“元搜索技術”,元搜索技術是元搜索引擎的核心。

(4) 多語種文檔機器翻譯技術 實現對跨語言搜索得到的多語種文檔進行自動化的機器翻譯,途徑也有兩種:一種是自行研發多語種文檔機器翻譯系統,對源文檔進行翻譯;另外一種是將技術成熟的機器翻譯系統融入本系統平臺,通過API調用機器翻譯系統完成不同語言的翻譯工作。“Google翻譯”目前支持多達數十種語言的雙向翻譯,其利用統計算法及大數據處理、人工智能等技術,大大提高了翻譯的準確率。本文建議采取第二種技術途徑解決多語種文檔自動翻譯問題。

(5) 信息主動推送技術 從因特網上獲取信息的方式有兩種。一種是利用Google和百度等搜索引擎,在檢索框中輸入查詢條件,搜索引擎將搜索結果返回給用戶。從用戶角度看,這種方式是把信息拉向“客戶端”,稱為“拉(Pull)”的方式。另外一種與之對立,是“推(Push)”的方式,如本文提出的個性化信息訂制和系統主動推送模式。“拉(Pull)”和“推(Push)”技術對用戶來說都是信息獲取技術,但二者存在著根本的不同。以Pull技術為核心的信息拉取技術,在信息獲取時,用戶必須時刻處于主動地位,也就是說,用戶必須參與信息獲取的整個過程。而以Push技術為核心的信息推送技術,在信息推送過程中,服務器始終處于主動地位,用戶卻處于被動地位。“拉(Pull)”與“推(Push)”的根本區別是:相對一次會話,Pull由客戶發起,主動方是客戶;Push由服務器發起,主動方是服務器。與Pull技術相比,Push技術不僅獲取信息的效率高,費用低,而且及時性強。Push技術能夠通過一定的技術標準或協議,把用戶感興趣的信息,按照用戶的要求及時、主動地推送給用戶。用戶收到信息后,還可以離線瀏覽。

4 結 語

本文將個性化訂制、多語種機器自動翻譯、網絡跨語言搜索及主動信息推送技術相結合,提出了一種新的網絡信息服務平臺的系統架構,為網絡信息搜索及個性化信息服務平臺的構建提供了一種新的參考模型。事實上,如果將多語種機器自動翻譯和跨語言網絡搜索技術應用于人們慣常使用的百度等搜索引擎(可稱之為“即時搜索引擎”)中,也可以大大提升這些搜索引擎的檢索效率和服務質量。將基于個性化訂制和主動推送服務的搜索引擎與即時搜索引擎相配合,就可以比較好地滿足人們各種不同的網絡信息檢索需求。

另外,隨著大數據和人工智能技術的發展與不斷成熟,并在搜索引擎中合理加以應用,就可以在個性化、智能化網絡搜索引擎方向上作出功能更加強大的網絡信息服務平臺,讓因特網上的信息資源充分發揮其應有的價值。

猜你喜歡
搜索引擎用戶語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
累積動態分析下的同聲傳譯語言壓縮
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
我有我語言
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于Nutch的醫療搜索引擎的研究與開發
主站蜘蛛池模板: 亚洲国产成人精品一二区| 91小视频版在线观看www| 亚洲国产成人综合精品2020 | 激情乱人伦| 麻豆精品在线播放| 丁香婷婷在线视频| 国产微拍一区二区三区四区| 亚洲黄网在线| 毛片免费观看视频| 在线国产毛片| 欧美色99| 欧美日韩理论| 久久婷婷综合色一区二区| 亚洲欧美综合另类图片小说区| 一区二区三区四区精品视频| 国产精品手机视频一区二区| 在线观看免费国产| 国产精品专区第1页| 国产精品毛片一区| 狠狠色噜噜狠狠狠狠奇米777 | 久久毛片网| 永久免费AⅤ无码网站在线观看| 亚洲自偷自拍另类小说| 欧美日本在线观看| 人妻中文久热无码丝袜| 亚洲国产AV无码综合原创| 色天堂无毒不卡| 中文无码精品A∨在线观看不卡| 无码有码中文字幕| 东京热av无码电影一区二区| 国产精品免费电影| 不卡视频国产| 高清色本在线www| 亚洲区第一页| 亚洲最大福利视频网| 67194亚洲无码| 国产一级视频在线观看网站| 免费观看亚洲人成网站| 国产激情无码一区二区免费| 国产成人亚洲精品无码电影| 久久综合色天堂av| 国产国产人在线成免费视频狼人色| 热这里只有精品国产热门精品| 2048国产精品原创综合在线| 狠狠做深爱婷婷久久一区| 日本精品影院| 黄色成年视频| 91午夜福利在线观看| 精品国产香蕉在线播出| 91久久精品国产| 午夜欧美在线| v天堂中文在线| 欧美色图第一页| 国产jizz| 日韩专区第一页| 国产视频入口| 欧美a网站| 大香网伊人久久综合网2020| 国产精品人成在线播放| 97视频精品全国在线观看| 国产精品污污在线观看网站| 亚洲A∨无码精品午夜在线观看| 国产亚洲日韩av在线| 欧美中文字幕第一页线路一| 精品久久久久久成人AV| 国内丰满少妇猛烈精品播| 夜夜操狠狠操| 欧美精品1区2区| 久久亚洲美女精品国产精品| 午夜无码一区二区三区在线app| 91亚洲精品国产自在现线| 欧美在线免费| 中文字幕无码电影| 999精品色在线观看| 国产精品亚洲精品爽爽 | h视频在线观看网站| 久久99国产综合精品女同| 国产黑丝视频在线观看| 高清色本在线www| 国产在线一区视频| 日韩人妻精品一区| 久久久久青草大香线综合精品|