基于關鍵詞提煉的搜索引擎優化方案

2016-12-31 00:00:00周先軍曹基軍周瑾劉俊杰

科技創新與應用 2016年12期

摘要：在介紹搜索引擎的工作原理基礎上，比較了主要搜索引擎的工作方式，系統地分析了現階段搜索引擎的關鍵技術（爬蟲、索引、數據庫以及查詢），提出了一種基于關鍵詞提煉的搜索引擎優化技術，并且論證了該方案的可行性。

關鍵詞：搜索引擎；優化；關鍵詞集合；提煉；查詢

1 概述

互聯網的高速發展，網絡正改變著我們的生活。在信息極速涌現的今天，如何快速、準確獲取自己所需的信息，是人們經常面對的問題。搜索引擎，為互聯網用戶搜索信息帶來了便利，其中被廣泛使用的有Google、百度等，它們極大推動了互聯網的發展。與此同時，隨著信息量的增長，出現了很多重復和垃圾信息。因此，對于搜索引擎關鍵技術的改進，依然有必要進一步研究。[1，2]

搜索引擎主要分為元搜索引擎和集成搜索引擎，前者以獨立搜索引擎的搜索結果為基礎優化后以統一的格式在界面集中顯示，如百度、谷歌、雅虎等；而后者是在一個網頁上鏈接很多個獨立搜索引擎，搜索結果由各搜索引擎分別以不同頁面顯示，如新浪、搜狐等，文章主要討論元搜索引擎。

論文第二部分對典型搜索引擎進行了比較，而第三部分對搜索引擎的關鍵技術進行了分析，結合搜索引擎的使用感受，論文提出了一種基于關鍵詞提煉的搜索引擎優化方案，并對該方案的可行性進行了分析，最后小結全文。

2 搜索引擎比較

搜索引擎首先利用Spider系統程序，爬過很多的網頁，并把爬過的所有網頁收集回來。接著分析該網頁，提取相關信息，計算網頁相關度，然后用這些信息建立網頁索引數據庫。當用戶輸入關鍵詞之后，系統程序會從網頁索引數據庫中找到符合的網頁，用戶可以根據排名選擇自己需要的內容。不同的搜索引擎，完成資源呈現，又各有特點。[3-6]

百度依據搜索引擎系統的計算決定對哪些網站進行抓取。計算過程會根據網站內容、對用戶友好的設置、有無過度搜索引擎優化行為等。百度蜘蛛會通過互聯網中某個指向該頁面的鏈接進行訪問和抓取，對抓取的頁面也會進行記錄。并依據這些頁面安排不同頻次的抓取更新工作。百度蜘蛛在工作的時候，會對一些沒有足夠價值的網頁進行自動過濾，以避免帶來不必要的麻煩。抓取之后，百度會逐一識別并標記，并將這些標記儲存為結構化數據，也會將網頁關鍵詞信息進行識別和儲存，以匹配用戶搜索內容。當用戶輸入關鍵詞，百度會分析并展現給用戶最為匹配的網頁。

Google有主爬蟲和新爬蟲。它有兩種抓取方式，分為主抓取和新抓取。“新抓取”蜘蛛抓取一個網頁，然后再由“主抓取”蜘蛛抓取，此時這個網頁就要經過兩個月才能被主索引收錄，然后出現排名。如果網頁先被“主抓取”蜘蛛抓取，那么該網頁只需一個月就能進入主索引。

雅虎搜索首先會建立一個網頁地圖來記錄互聯網的結構，再使用蜘蛛抓取質量好的網頁，存到快照數據庫中。然后索引程序會去掉作弊網頁并將快照數據庫中的網頁編號存儲到網頁索引數據庫中。在用戶輸入關鍵詞后，查詢程序會在數據庫中進行比較，經過相關計算，按照相關度將網頁進行排序。

3 搜索引擎關鍵技術

不管是百度，谷歌，還是其它元搜索引擎，搜索方式各有所長，各有特點，而搜索引擎實現網絡資源搜索的關鍵技術基本相同，主要分為如下四種：

3.1 爬蟲技術

所謂網絡爬蟲，是指某種自動提取網頁的程序，是搜索引擎的重要組成。它根據網頁分析算法過濾無關的鏈接，保留相關鏈接，并放入待抓取的URL隊列中。再根據搜索策略從隊列中選擇下一步要抓取的網頁URL，重復上述過程，直到觸發終止條件。

網絡爬蟲[7，8，9]主要包括四類方法：一種是基于文字內容，利用網頁文本、URL字符串、錨文字等文字信息，如Best first search方法和Fish search方法；第二種是基于Web超鏈圖評價，類似文獻計量學的引文分析，但不考慮超鏈形成的Web有向圖對主題網絡爬蟲的影響，如BackLink和PageRank方法；第三種是基于分類器預測，基于分類模型描述用戶感興趣的主題和預測網頁的主題相關度，該方法可以從更深的層次來描述用戶感興趣的主題信息，并準確計算網頁的主題相關性，而不只停留在基于關鍵詞的匹配上；最后一種是其他主題爬行方法，先爬行更重要的網頁使得爬行更有效，從而計算網頁重要性。

實驗顯示執行效果依次是BestFirst、InfoSpiders、PageRank，其中，Page Rank在主題爬行任務中過于全面，導致效果不好。

3.2 索引技術[10-13]

索引是搜索引擎的核心技術之一，主要分為文本索引、鏈接索引、輔助索引和倒排索引。

文本索引主要應用于查找與用戶查詢詞的相關頁面，可使用傳統索引方法為頁面內容建立索引；鏈接索引的目的是實現對圖的高效訪問，將Web看作是一個巨大的圖，圖中的節點表示頁面，從頁面A到頁面B的超鏈接構成圖的邊，使用Web構成的圖及其補圖的鄰接鏈表可以有效地對這種鄰接信息進行訪問，其他類型的鏈接信息也可以通過鄰接鏈表方便地得到；輔助索引根據搜索引擎的特色及搜索算法決定的，采用鏈接索引包含的鄰接信息，比較容易地計算每個頁面的PageRank權值；倒排索引由倒排列表構成，每個詞對應一個倒排列表，倒排列表是詞在頁面中的位置的有序列表。

3.3 數據庫技術

數據庫原本是按照數據結構來組織、存儲和管理數據的倉庫。當前，數據庫不再局限于存儲和管理數據，已經轉變成了用戶所需的各種數據管理的方式。數據庫有很多的類型，最簡單的就是存儲數據的表格，復雜的比如大型的數據庫系統。

Google的數據庫是spanner，它覆蓋全球，在各種數據之間無縫運作。普通的數據庫會使用“網絡時間協議”來保持服務器的同步。而Spanner數據庫會使用自己的時間協調機制，稱為“TrueTime API”。Google通過自有原子鐘和GPS接收器，連接到特定數量的主服務器，再由主服務器向整個谷歌網絡其他電腦傳輸時間參數。這樣，谷歌構建了一同時具有全球性和時間一致性的數據庫，同時使其服務在軟硬件故障的面前變得更加具有抵抗力。

百度數據庫MySQL是一開放源代碼的關系型數據庫系統，因為數據存放在分立的表格，增加了用戶的速度和靈活性。另外，系統的多線程機制提供了完全的多線程運行模式和多編程語言的編程接口。

3.4 查詢技術

查詢以網頁得分為基礎，依據網頁得分確定搜索結果的排序，其主要分為三個部分：一為鏈接得分，以網頁目前得分除以它全部的鏈接數目，而指向該網頁的網站則加上這個分數，多次迭代之后一個網站的分數得出；第二部分是Lucene得分系統，該系統根據查詢詞在文檔中出現的詞頻，倒排詞頻等一系列的項目綜合得到一個數值從而表示本詞條在整個索引中的重要程度；第三部分是用戶的愛好選擇，當用戶確定需要查詢方向后，其相關網頁的得分就會高于其他的網頁。根據反復的統計分析，得出網頁得分。

當用戶輸入關鍵詞時，查詢模塊檢查到文本框中有內容，就會自動調用索引搜索程序對關鍵詞進行索引，從而得出搜索結果。然后取出lucene的得分、pageRank以及用戶特殊搜索，根據得分公式算出每一條目得分，將所有的結果從高到低快速排列并顯示，在不刷新整個網頁的情況下，使用異步傳輸技術，根據點擊下一頁的次數顯示全部的信息。

4 基于關鍵詞提煉的搜索引擎優化

本方案基于用戶點擊查看體驗，進行搜索的二次優化。具體而言，就是搜索引擎根據用戶在第一頁的點擊情況，在第二頁做出相對的優化措施的行為。當用戶輸入關鍵詞之后，搜索引擎會進行中文分詞，然后將用戶所需的內容分為很多頁展現給用戶看。此時在第一頁中，用戶可能不能找到自己所需的，如果用戶點擊過了第一頁的一些內容，那么搜索引擎會根據用戶的點擊，在第二頁的內容中進行二次優化，試圖進一步理解用戶搜索需求，彌補在第一次搜索中內容展現的不足，以滿足用戶的需要，如圖1所示，本方案大體分為如下三步：

（1）用戶鍵入關鍵詞，至少會提煉出至少一個關鍵詞，搜索引擎調用查詢模塊，數據庫就會獲得2的m次方個相關的內容。根據網頁得分，呈現出排名前十的網頁。

（2）用戶會對十個網頁可能會點擊某幾個網頁，或者直接進入下一頁來點擊。用戶對網頁的點擊，搜索引擎可以提煉出新的關鍵詞，形成新的關鍵詞集合，用戶點擊下一頁，搜索引擎它是基于新的關鍵詞集合，調用查詢模塊。數據庫可能獲得2的m-1，m-2次方的相關內容。根據網頁得分，呈現出排名前十的網頁。

（3）用戶如果獲取所需內容，結束查詢。或者繼續這種操作，數據庫就會獲得2的m-2，m-3……次方，直至用戶獲取所需內容，結束查詢。

該方案假定用戶所期待的資源Internet是存在的，這種假定通常成立。用戶的搜索行為可以分類如下：

（1）一個很長語句或者是多個關鍵詞。這種情況下，搜索結果就會很快速、準確。

（2）單個關鍵詞。搜索引擎的結果就是隨機的用戶所期待的資源就是在五頁左右就會有所呈現，用戶逐一查找獲得所需的資源。

（3）用戶鍵入語句，要么解析不出關鍵詞或者關鍵詞解析錯誤，沒有有效的關鍵詞來指向資源，查詢失敗。

當前搜索引擎特點：一次理解，逐頁呈現；理解偏差，呈現偏后；理解錯誤，查找失敗。所提出的方案，基本思想是逐步理解用戶的意圖，自適應調整關鍵詞集合，快速指向期望資源。

通過搜索引擎獲取所需信息，在輸入關鍵詞之后，假如第一頁沒有所需要的，用戶則需要點擊下一頁。一般情況下，搜索引擎排列內容都是按照網頁得分排列的，說明越往后的內容越不符合用戶需求。此時，基于關鍵詞提煉的搜索引擎優化將會給用戶帶來新的希望，根據用戶在第一頁是否點擊以及點擊內容，搜索引擎在后一頁做出相應的優化，以便于用戶找到自己需求的信息，這會讓用戶搜索變得快速準確。

5 結束語

文章對搜索引擎的技術進行了分析，提出了基于關鍵詞提煉的搜索引擎優化技術。方案通過分析用戶行為，理解用戶查詢意圖，指數遞減調用條目，提高用戶查詢效率。

參考文獻

[1]王香蓮.Google和百度兩種搜索引擎比較研究[J].現代圖書情報技術，2004（8）：52-55.

[2]田梅梅.搜索引擎Google與百度的比較分析[J].圖書情報.

[3]王繼成，潘金貴，張福炎.Web文本挖掘技術研究[J].計算機研究與發展，2000，37（5）：514-520.

[4]梁循.數據挖掘：建模、算法、應用和系統[J].計算機技術與發展，2006，16（1）：1-4.

[5]曾春，邢春曉，周立柱.個性化服務技術綜述[J].軟件學報，2002，13（10）：1952-1961.

[6]王國霞，劉賀平.個性化推薦系統綜述[J].計算機工程與應用，2012，48（7）：66-76.

[7]劉金紅，陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究，2007，24（10）：26-29.

[8]劉暢.綜合搜索引擎與垂直搜索引擎的比較研究[J].情報科學，2007，25（1）：97-102.

[9]方潔.搜索引擎及其性能改進方法研究[J].軟件導刊，2014，13（12）：41-43.

[10]孫藝珍，季小迪，張京濤.基于.Net的全文搜索引擎設計與實現[J].西安科技大學學報，2014，34（6）：702-706.

[11]曹姍姍，王沖.基于網頁鏈接與用戶反饋的PageRank算法改進研究[J].計算機科學，2014，41（12）：179-182.

[12]余凱，賈磊，陳雨強，等.深度學習的昨天、今天和明天[J].計算機研究與發展，2013，50（9）：1799-1804.

[13]董宇欣，王瑩潔，寧鵬飛，等.一種面向不確定圖的SimRank算法[J].哈爾濱工程大學學報，2014，35（11）：1390-1396.

科技創新與應用2016年12期

科技創新與應用的其它文章: 城市消防給水現狀及改進措施分析; 提高消防裝備效能的方法研究; 強化防疫檢測科學畜牧養殖; 畜牧養殖動物疾病預防研究; En值在實驗室中的重要性; 盾構通過礦山法施工隧道段關鍵技術