[摘要] 本文針對新聞搜索的特點研究了中文新聞搜索引擎的構建技術,包括從網頁文檔抓取、解析、再到建立索引、發布搜索、用戶界面搭建的全過程,并基于開源的Lucene軟件包,結合中文分詞與Pagerank技術實現了一個原型系統,取得了較好的搜索效果。
[關鍵詞] Lucene 新聞搜索引擎 Pagerank 中文分詞
一、引言
當今社會隨著信息化的快速發展,信息的獲取已成為人們生產生活最頻繁最重要的活動之一,Internet的發展改變了傳統的信息傳輸渠道,大量的信息甚至可在短短的幾秒內就從地球的這端傳到那端。
新聞信息的發布已歷經從傳統的紙質媒體到電子媒體的變革,各新聞門戶網站也如雨后春筍般涌現,科技的變革往往帶來生活方式的變革,人們獲取新聞信息的方式也從傳統的被動接受方式轉變成主動搜索方式,甚至將來的交互式問答方式。在其中發揮核心作用的就是信息檢索技術。目前,盡管Google等搜索引擎公司推出了新聞搜索系統,但其技術未予公布,用戶也無法對其改進以使系統更加個性化,而且,各類信息提供商也經常需要提供搜索引擎來方便用戶對信息的獲取。因此,研究專業信息領域的搜索引擎技術有著重大的意義和巨大的市場價值。本文研究中文新聞搜索引擎的構建技術,并基于開源的Lucene[1] java軟件包實現了一個原型系統。
二、系統概述
1.設計目標
本系統考慮新聞檢索的特點,如時效性、權威性等特點,基于Lucence,引入網頁解析技術提取網頁中的新聞,利用中文分詞技術對新聞內容分詞,同時引入PageRank技術對評分系統進行修改,使其能夠很好地滿足用戶需求?!?br>