□ 萬齊鳴 / 北京萬方數(shù)據(jù)股份有限公司 北京 100038
基于云計算架構(gòu)的學(xué)術(shù)搜索引擎研制與應(yīng)用*
□ 萬齊鳴 / 北京萬方數(shù)據(jù)股份有限公司 北京 100038
文章通過傳統(tǒng)搜索引擎與學(xué)術(shù)搜索引擎對比,分析傳統(tǒng)搜索引擎在云計算技術(shù)應(yīng)用方面的經(jīng)驗。結(jié)合863課題研究,剖析學(xué)術(shù)搜索引擎的研制機理、云計算技術(shù)應(yīng)用特點、學(xué)術(shù)搜索專業(yè)特色,提出基于云計算架構(gòu)學(xué)術(shù)搜索引擎的中國學(xué)術(shù)搜索網(wǎng)云服務(wù)應(yīng)用模式。
云計算,學(xué)術(shù)搜索,搜索引擎,云服務(wù),RMSCloud
2011年,北京萬方數(shù)據(jù)股份有限公司(以下簡稱萬方數(shù)據(jù))承擔(dān)了國家高技術(shù)研究發(fā)展計劃(863計劃)“云計算關(guān)鍵技術(shù)與系統(tǒng)(一期)”項目“以科技文獻(xiàn)服務(wù)為主的搜索引擎研制”課題(編號:2011AA01A206),研制中國科技文獻(xiàn)學(xué)術(shù)搜索引擎,并免費為社會公眾用戶提供學(xué)術(shù)搜索服務(wù)。
萬方數(shù)據(jù)原有的RMS非結(jié)構(gòu)化數(shù)據(jù)庫系統(tǒng)具備全文檢索功能,可以針對科技文獻(xiàn)提供學(xué)術(shù)搜索。然而隨著科技文獻(xiàn)元數(shù)據(jù)倉儲資源量的快速增加、用戶檢索和訪問量的不斷增大,萬方數(shù)據(jù)RMS全文檢索系統(tǒng)單服務(wù)器執(zhí)行的檢索技術(shù)和業(yè)務(wù)邏輯,已經(jīng)不能滿足海量數(shù)據(jù)大用戶量、大并發(fā)量快速檢索、多維知識挖掘分析和即時響應(yīng)的需求。
如何實現(xiàn)大數(shù)據(jù)環(huán)境下的學(xué)術(shù)搜索與知識挖掘分析,就成為863課題研究和萬方數(shù)據(jù)技術(shù)發(fā)展亟待解決的問題。
針對863課題研究任務(wù)要求,以及萬方數(shù)據(jù)知識服務(wù)平臺業(yè)務(wù)需求,萬方數(shù)據(jù)首先針對傳統(tǒng)搜索引擎應(yīng)用關(guān)鍵技術(shù)、學(xué)術(shù)搜索技術(shù)特點進(jìn)行了調(diào)研分析。……