一種改進的垂直搜索引擎研究與設計

2018-12-28 06:41:10帥應羅文琪熊麗珍舒忠

現代計算機 2018年34期

帥應，羅文琪，熊麗珍，舒忠

（荊楚理工學院，荊門448000）

0 引言

國家提出的“互聯網+”及“大數據”發展戰略，使得傳統的包裝及印刷行業主動或被動地融入其中，為這個古老的加工產業帶來了生機與希望。其優勢主要體現在遙遠的距離被拉近，且囊括了整個加工行業的方方面面。當然，實現“互聯網+”及“大數據”戰略轉型的基礎平臺之一就是網絡搜索引擎的應用。

1 垂直搜索引擎簡介

在垂直搜索引擎應用理論研究方面，可謂成果豐碩。近幾年來，有文獻對五種流行的垂直搜索引擎進行了分析，總結出檢測截止效應和檢測溢出效應特性[1]。有文獻提出了基于隨機游走的節點排序方法，通過對異構圖上的不同路徑進行判別，從而得出具有不同語義的節點排序結果[2]。有文獻提出了基于模型的協同過濾方法，應用圖形聚類算法并考慮信任語句，最終獲得合適的信息[3]。有文獻提出了通過建立用戶興趣反饋圖，經多輪隨機游走（Random Walk）提取相似度算法實現信息索引[4]。有文獻提出了通過深度神經網絡建模[5-6]，實現“特征識別與提取→自主學習（數據訓練）→上下文影響關系→獲取結果信息”的流程；還可以通過卷積神經網絡建模[7-9]，實現“特征提取（卷積方式）→非線性數值變換→語義特征向量→計算相似度→獲取結果信息”的流程。在搜索引擎評估方面，現有的研究成果多以Perplexity 指標體系進行評估，通過設定前面的N 個詞，計算出N+1 個詞可能出現的概率分布[10]。有文獻提出了反饋、問卷、收集、記錄、標注等功能一體的準確性評估體系[11]。

在垂直搜索引擎應用方面，自上世紀90 年代以來，國外出現了不少優秀的垂直搜索引擎。1998 年9月，Google 搜索引擎創建[12-13]，支撐其發展的主要包括分布式存儲、分布式處理和分布式數據庫三大核心技術。2005 年7 月，雅虎發布了Trip Planner 旅游搜索引擎。國內在垂直搜索領域也有所建樹，2002 年百度就推出了百度MP3 搜索[14]，阿里巴巴在2010 年成立了一淘網。國內垂直搜索引擎在技術層面與國外還有一定差距，而且行業認識和理解方面也有短板，因此國內垂直搜索還有很大的發展空間。

1.1 搜索引擎的結構

檢索引擎是一種互聯網頁面軟件，可依據用戶輸入的字、詞、句內容獲取所需的網頁，大信息量數據交換必須以檢索資料庫作為重要的運行基礎。檢索引擎主要包括網絡機器人采集程序（或網絡爬蟲）、索引及數據庫等，其基本結構如圖1 所示。其中，網絡機器人是一種用于搜索Web 網站的程序，其核心是Socket 協議，該程序可以利用訪問Web 網站得到該網站的文件目錄和分層結構以及搜索出斷開的超級鏈接和不正確的拼寫等[15]。

圖1 搜索引擎系統結構圖

1.2 開源搜索引擎Nutch

自2000 年3 月Doug Cutting 開發了Lucene 搜索引擎以來，Lucene 就被廣泛應用于網絡全文索引領域。隨著Java 技術的應用，在Lucene 的基礎上又推出了Nutch 全文搜索引擎，Nutch 繼承了Lucene 強大的邏輯性、條理性和嚴謹的模塊化結構，其查詢范圍和存儲功能都得到了較大提升[16]。圖2 所示為Nutch 和Lucene 的關系。

圖2 Nutch-Lucene關系圖

2 垂直搜索引擎的設計與實現

2.1 系統總體結構圖

圖3 所示為本文提出的搜索引擎，主要有以下幾部分構成：

（1）信息采集模塊。該模塊主要完成對有效信息的采集，在主題爬蟲中關鍵是設定一些網站的相關信息、有效信息的抓取方式和條件，并規劃主題爬蟲的搜索路徑。

（2）頁面除噪模塊。該模塊主要用于對抓取的信息進行進一步篩選，剔除獲取頁面中的無價值信息。由于主題爬蟲選取的頁面通常都帶有一些輔助信息，如：網頁界面或用戶的交流信息、廣告等附加圖文信息、HTML 界面的CSS 代碼等，刪除這些不相關的信息，有利用價值信息的獲取。

（3）索引模塊。該模塊主要用于對抓取和篩選后的信息進行整理，當然索引數據庫的建立必不可少。索引在系統的組成中十分關鍵，是判斷系統搜索速度和準確度的標準。從互聯網獲取的信息一定是雜亂的，不利用對有效信息進行查詢，因此，需要對獲取的數據信息進行重新排列，排序方式首先要考慮根據“文本和字段”的內容進行劃分，還需要考慮加入“內容和主題”的區分條件。通過整理后的信息，也應按照相應的規則進行存儲和管理。

（4）查詢模塊。該模塊主要完成用戶對的搜索內容的認別及對認別結果的反饋。分別制定以“內容”為主的查詢規則（關鍵句查詢）和以“主題”為主的查詢規則（關鍵字、詞查詢），設定查詢控制方式并與信息采集模塊、索引模塊的信息抓取和索引方式對應，通過對關鍵字、詞、句進行精確解讀，建立與索引文件的聯系和信息比較，便于用戶完成篩選和獲取所需信息。

圖3 系統總體結構圖

2.2 改進的功能模塊設計

（1）主題爬蟲模塊設計

垂直搜索引擎的核心是網絡爬蟲中的信息采集部分，當前，在智能爬蟲模塊設計中主要包括：主題相似度設計、反爬蟲策略設計和精準的URL 定位設計三個部分。主題相似度計算通常采用的網頁抓取評分算法實現。

網頁抓取評分算法是主題爬蟲模塊中最主要的組成部分之一，是網頁相似度比較的重要手段，是整個垂直搜索引擎的核心。主流的網頁評分算法分為Lucene算法和Nutch 算法兩類，其中又包含了眾多的算法和一些改進算法。

本文提出的網頁評分算法采用一種改進的Nutch算法實現，其核心是引入網頁有效性得分算法，該算法分別制定內、外鏈接的有效性評分標準，并根據從不同角度獲取的評分值，確定鏈接得分的權重生成評分因子。

主題爬蟲模塊設計的主要流程是：獲取信息的條件設置→解析互聯網傳輸協議實現遠程連接→獲取互聯網資源地址→獲取抓取數據并在本地存儲→有效信息控制。

（2）消除頁面噪音模塊設計

本文的提出的頁面去噪模塊沒有整合在主題爬蟲模塊的信息抓取部分，其主要原因是防止與主題爬蟲模塊中設定的信息抓取條件相互影響。另外，該模塊只作用于本地計算機，基本不與互聯網建立聯系，可減輕主題爬蟲在互聯網中進行運算的強度，同時，設計對不需要的信息進行刪除操作，減輕本地數據的存儲壓力。

頁面去噪模塊的算法實現可采用K-means 算法（聚類劃分），其主體思想是：首先確定聚類常數K 的個數，K 的個數確定以“同一聚類中的信息相似度較高”為原則；將抓取目標信息集合分解為C 個類型，以C 個類為初始中心；在經過K 次迭代計算后，得出與C 個類之間的距離，以“距離最短”為原則，選出作為有效目標信息進行歸類；采取均值法對中心距離進行更新，一直進行K 次迭代計算直到結束，從而篩選出全部有效信息。算法實現的關鍵是初始中心確定和引入的距離計算公式。在對無效信息進行判別時，剔除一些與營銷類有關銷售類的網頁，例如：對價格等關鍵詞定義特征值。其實現流程是：啟動與網絡資源庫的聯系→建立篩選模式（與互聯網相同的樹式結構模型）→分析網絡資源庫的網頁信息并初始化為篩選模式結構→依據篩選模式對無效信息進行剔除→使用K-means 算法進行相似度運算進一步提取有交效信息→刪除所有無效信息→將有效信息存入頁面文檔庫。

（3）索引功能模塊設計

本文設計的索引模塊使用基于Java 的全文索引工具包——Lucene 完成，其應用與實現都非常簡單，圖4所示為設計流程。

圖4 索引建立流程圖

（4）查詢功能模塊設計

實現查詢功能的基礎是對待查詢的全部目標進行排序（可按字、詞、句的特征信息進行區分并定量確定值的大小，此步操作通常在索引功能模塊中已完成），并將查詢目標集合定義為數組。查詢方式通常有兩種：一種是線性查詢，另一種是二分查詢。線性查詢通過定義數組的初始值α[0]后，按排序順序依次進行比較直至找到目標值。二分查詢也被稱為折半查詢，首先定義目標值為α[i]，將數組中的中間元素定義為初始值α[j]，如果α[i]＝α[j]，則查詢目標已找到；如果α[i]＜α[j]，則查詢目標確定在α[j]的前半部分，查詢時可按線性查詢完成（也可倒序查詢）；如果α[i]＞α[j]，則查詢目標確定在α[j]的后半部分，同樣，查詢時可按線性查詢完成。本文提出的查詢功能模塊將按遞歸二分查詢方式完成設計。其查詢的主要步驟如圖5 所示。

圖5 查詢模塊

3 結果測試及分析

本文采用比較分析的方法對提出的垂直搜索引擎性能進行測試，主要測試指標為查全率、查準率、響應時間參數等，重點針對主題爬蟲模塊。實驗將雅虎（中國）、百度、搜狗、大學搜4 個中文垂直搜索引擎作為比較對象，其中，大學搜是通過百度搜索推薦的一款優秀垂直搜索引擎，原本想將谷歌搜索引擎列為重要的實驗分析對象，因谷歌退出中國，難于實現中文環節下的真實查詢結果顯示，因此放棄。

3.1 結果測試

本文采用主觀與客觀結合的機制對系統的性能進行評估。主觀評價直接對搜索查詢的準確性和范圍進行比較，準確性評價以輸出的關鍵詞“包裝、印刷、網站”同時出現作為標準，范圍評價以出現的有效網頁數為標準，可依據搜索查詢結果顯示的關鍵詞和一些知名的包裝及印刷網站的搜索查詢結果進行統計實現，還可以通過對實驗中所使用的垂直搜索引擎的“爬取網頁總數量”和“發現率”進行統計實現。客觀評價則以查全率、查準率和響應時間為主要評估依據。相關統計數據見表1 和表2 所示。

其中：設爬取的網頁總個數為a,與主題相關網頁個數為b,關鍵詞同時出現的網頁個數為c,有效網頁個數為d。發現率的計算應同時考慮“與主題相關網頁個數”和“包裝、印刷、網站三個關鍵詞同時出現的網頁個數”這兩個因素；有效網頁個數應該真實反映包裝及印刷網站的數量，將全部無效網頁個數剔除，特別是一些營銷類的網頁，這些網類應該已被在網站中；查準率則就考慮“有效網頁個數”和“三個關鍵詞同時出現的網頁個數”兩個因素；在數據統計中加入“4 個老牌包裝及印刷網站出現的個數”的原因是：在一些網站中同時存在當前已被用戶忽略和還非常被重視兩種情況，被忽略的網站訪問量少，不易被抓取，被重視的網站訪問量大，易被抓取；將響應時間列為評價參數的原因是：當響應時間超過3s 后，將有大量的網站會被放棄抓取。

表1 五種垂直搜索引擎主觀評價參數統計

表2 五種垂直搜索引擎客觀評價參數統計

3.2 結果分析

通過對表1 和表2 中的數據分析可知，五個中文垂直搜索引擎的爬取能力都非常好，特別是雅虎、百度和本文設計的搜索引擎抓取范圍非常廣，基本不會漏過需要抓取的主題，而對于關鍵詞的抓取則本文設計的搜索引擎抓取范圍最廣。雅虎和百度的查準率不高關鍵是對有效網頁和重復出現的網頁個數過多所致。以下對雅虎、百度、搜狗、大學搜4 個中文垂直搜索引擎的理論分析，也可以證明結果的準確性。

“雅虎”搜索引擎的核心是Anthelion 爬蟲技術，使用Nutch 算法實現。Anthelion 爬蟲的評分機制可同時為每個鏈接網頁評分，將結果提供給分類器進行分析，分類器可調整優化，理論上能夠獲取較高的查準率；其信息解析機制可針對網頁內容提取語義數據，從網頁中獲取數據、格式和注釋信息，并存儲于內容字段中，將其置為特征信息量；可存儲新字段加入索引以擴大查詢范圍。實驗中使用雅虎搜索引擎在互聯網中搜索結果并不理想，其主要原因在于爬蟲中分類器的優化策略與專業關鍵詞的匹配度存在差距，其整體設計目標適應的范圍更廣。

“百度”搜索引擎的核心是深度和權重優先抓取相相結合的策略。深度優先抓取策略首先指定一個初始站點將其定義為源點，再指定一個結束點將其定義為頂點；搜索從源點開始并被記錄，接下來依次無向對相鄰站點進行搜索并記錄，在到達頂點并記錄后，第一個頂點被重新定義為源點，同時，定義第二個頂點，再次開始按依次無向原則對相鄰站點進行搜索記錄，直至全部結束。該策略的應用，最終形成一個樹型搜索路徑，其搜索范圍非常廣。權重優先抓取策略則是通過比較分析相似度的方式，對相似度高的站點首先進行分類搜索記錄，通過定義最低權重值設定頂點，該策略的應用有助于提高搜索的準確性，同時，可完成對搜索結果的排序。實驗中成功抓取了一些被忽略的老牌網站，但沒有優先顯示出來，其主要原因是多個源點至頂點的排序方式采用的了順序排序，而不是并列排序，影響了對查詢結果的顯示。

“搜狗”搜索引擎的核心是使用了OPIC 算法，其算法以Cash 值為重要的評分標準。“Cash”可以表示某一個網頁的價值量，網頁每被抓取一次都有C[n]值存在，在整個網絡中（互聯網）某一個網頁有一個Cash 固定的總值C[z]。“History”用于表示某一個網頁被抓取（包括被重復抓取）后的Cash 總值H[z]。在OPIC 算法中，某一個網頁的是否重要，就看的結果是否更接近1。OPIC 算法使用C[1，…，n]、H[1，…，n]兩個向量表示一個網頁的C[n]和H[n]，其中，設定Cash的初始值（n 為網頁的總個數），History 的初始值H[i]=0；為了進一步提高網頁抓取的相似度，OPIC 算法中加入了一個變量G 作為比較參量，G 值的取值依據為History 值，設定實驗中發現OPIC 算法存在以下問題：①采用重復抓取作為重要性的評判標準，難免出現“漏網之魚”；②在重復抓取非目標頁面時可能會增加其重要性；③對新增頁面采用必抓策略不僅運算量大，還可能降低對沒有被重復抓取頁面的關注度；④外鏈接網頁的Cash 值可能被忽略。

“大學搜”搜索引擎的核心是使用了PageRank 算法，其數學運算流程相當于“投票”過程，網站的重要程度以獲得的“票數”作為評判標準，PR 值是主要的評判指標。PR 值可用檢測用戶在整個互聯網中點擊進入某個網站的概率，假設整個網絡中的PR 值是均分的，那么PR 值在某個網站的占比就是為網站的網頁總數。該算法的主要問題是沒有加入特殊鏈接處理機制，假設使用有向圖來表示PR 值，那么該圖Z=(X,Y)的構造主要是以X 為節點（即頁面），E 為邊（顯示條件為W 可以通過T 進行跳轉）。在計算PR 值時可能會出現圖6 所示的特殊網頁鏈接關系，在當前網頁直接跳轉到其他網頁后，可能出現不能返回當前網頁的情況，致使運算出現死循環，從而影響PR 值的精準性，引導查詢結果不完整。

圖6 特殊的網頁鏈接關系圖

另外，在“大學搜”的網絡爬蟲算法中引入了Shark Search 算法（以內容評價為基礎的重要垂直搜索引擎網絡爬蟲算法），由于其原算法對搜索主題和搜索內容沒有進行明確界定，降低對兩者之間關聯度的關注，導致數據準確度不高。“大學搜”在Shark Search 算法中引入向量空間模型，通過對搜索頁面和搜索內容之間的關聯程度進行分析，大幅提高了搜索的準確性。但是，沒有考慮擴大搜索范圍方面的因素，放棄了外鏈接網頁，這也是引導查詢結果不完整的因素之一。“大學搜”的索引模塊和查詢模塊設計只提供了10 個搜索查詢結果的顯示。

4 結語

通過理論及實驗比較分析表明，參與實驗過程的4個垂直搜索引擎都是非常優秀的，且各具特色。有些搜索引擎對某個專業領域的搜索、查詢結果不一定能獲得最佳的效果，問題主要出在專用與通用的處理機制方面；有些搜索引擎搜索、查詢結果范圍不廣，主要是沒有建立的效的外鏈接機制。同時，也驗證了本文設計的垂直搜索引擎在優化系統結構的同時，抓住了主題爬蟲這個主要環節，確保了搜索的精確度，在應用方面更具針對性。

本文設計的垂直搜索引擎具有以下特點：

（1）在網絡爬蟲設計中，以建立關鍵詞特征值為基礎，針對包裝及印刷信息搜索需求制定高效的特征值評分規則，確保了抓取重點，評分機制同時作用于內鏈接和外鏈接，確保了抓取范圍。

（2）網絡爬蟲抓取機制考慮到了專用與通用結合，在確保包裝及印刷領域信息搜索的同時，盡量滿足了包裝及印刷各工序中多方面的信息查詢需求。

（3）將頁面去噪模塊從網絡爬蟲中分離出來，并營銷類網頁（當前此類網頁非常多）和重復網頁實現隔離。

（4）對索引功能模塊中的抓取結果排序設計進行改進，根據查詢內容的重要性制定排序規則。

（5）在查詢功能模塊中有效解決了額外排序等問題。