淺析搜索引擎優(yōu)化技術(shù)及其應(yīng)用

2017-05-30 07:16:42徐煒

科技風 2017年4期

關(guān)鍵詞：優(yōu)化技術(shù)搜索引擎

徐煒

摘要：文章分析了“船舶救生設(shè)備”的教學現(xiàn)狀，提出了信息化課堂教學的重要性，并介紹了信息化課堂教學在船舶救生設(shè)備教學中的具體應(yīng)用。

關(guān)鍵詞：搜索引擎；優(yōu)化技術(shù)；爬蟲軟件

1 搜索引擎工作原理

1.1 搜索引擎原理

要了解搜索引擎優(yōu)化技術(shù)，首先需要明白搜索引擎的工作原理。目前國內(nèi)外的搜索引擎較多，例如谷歌、百度、雅虎、必應(yīng)等等。雖然其具體的優(yōu)化和排序算法有一定的差異，但是其基本原理大致相同，一共可以分為五個主要的步驟，分別為網(wǎng)頁的抓取、信息的提取、關(guān)鍵字的搜索、建立關(guān)鍵字索引以及網(wǎng)頁的排序。其中最為關(guān)鍵的一步就是對于網(wǎng)頁的提取。對于搜索引擎而言，其主要目的是對于互聯(lián)網(wǎng)上的網(wǎng)頁進行分析，而后結(jié)合用戶的搜索要求來實現(xiàn)匹配。而匹配的主要渠道則是通過用戶在搜索引擎的網(wǎng)站上輸入對應(yīng)的關(guān)鍵字，搜索引擎在獲取關(guān)鍵字以后根據(jù)相應(yīng)的優(yōu)化匹配算法降互聯(lián)網(wǎng)上的網(wǎng)頁按照其自身的規(guī)則進行排序，從而最終展現(xiàn)在用戶界面上。

1.2 爬蟲程序

從上一小節(jié)的介紹中可以知道，對于搜索引擎而言，其最為主要的兩個部分是對于網(wǎng)頁的檢索和處理，其次則是搜索引擎的優(yōu)化匹配算法。對于不同的搜索引擎而言其優(yōu)化匹配的算法上可能存在一定的差異。例如用戶在google和百度上分別輸入對應(yīng)的關(guān)鍵字進行搜索，由于其優(yōu)化匹配算法的不同，其搜索的結(jié)果就可能出現(xiàn)不一樣的情況。

但是相對于優(yōu)化匹配算法而言，構(gòu)成搜索引擎運行關(guān)鍵的另一個部分，即網(wǎng)頁的檢索以及處理部分則是基本相同的。這部分的工作由兩個部分構(gòu)成，第一是爬蟲程序完成對互聯(lián)網(wǎng)上網(wǎng)頁的檢索，第二則是對網(wǎng)頁內(nèi)容的處理從而形成關(guān)鍵詞的索引。目前主流的搜索引擎大多采用爬蟲程序來完成互聯(lián)網(wǎng)上網(wǎng)頁的檢索。爬蟲軟件在工作的過程中，在對互聯(lián)網(wǎng)上的網(wǎng)頁進行檢索時主要對網(wǎng)頁的鏈接和內(nèi)容進行分析。其具體如下圖1所示：

如上圖1所示，爬蟲軟件在對網(wǎng)頁進行處理的過程只能夠包含兩個主要的部分，第一是解析網(wǎng)頁中存在的鏈接，從而獲得其他互聯(lián)網(wǎng)上網(wǎng)頁的網(wǎng)址，為后續(xù)的網(wǎng)頁分析提供依據(jù)。否則不能找到新的網(wǎng)頁則失去了分析的對象，爬蟲程序也將終止。第二則是對于網(wǎng)頁的文本內(nèi)容進行分析，了解網(wǎng)頁中文本描述的主體內(nèi)容。需要說明的是，爬蟲程序?qū)τ谒阉饕娑允窃诤笈_一直運行的一項程序，通過爬蟲軟件的不斷運行實現(xiàn)對于互聯(lián)網(wǎng)上網(wǎng)頁檢索的動態(tài)更新。無論是對網(wǎng)頁的內(nèi)容進行更新還是對于網(wǎng)頁鏈接的更新（即新的網(wǎng)頁出現(xiàn)時，更新網(wǎng)頁鏈接）。對于不同類型的網(wǎng)頁而言，爬蟲軟件的處理上也存在一定的差異，例如對于新聞網(wǎng)站的網(wǎng)頁而言，特別是其首頁，網(wǎng)頁的網(wǎng)址和參數(shù)等都不會發(fā)生變化。但是網(wǎng)頁的文本內(nèi)容上則經(jīng)常會更新，因此爬蟲軟件在對這一類網(wǎng)頁進行分析時，來回瀏覽的頻率也會相對較高。

2 搜索引擎優(yōu)化技術(shù)研究

2.1 對爬蟲軟件的影響因素

由上文對于搜索引擎工作原理的介紹可以知道，搜索引擎的工作基礎(chǔ)是爬蟲軟件對于互聯(lián)網(wǎng)上網(wǎng)頁的檢索和分析。因此影響爬蟲軟件瀏覽到互聯(lián)網(wǎng)網(wǎng)頁的因素都將影響搜索引擎對于網(wǎng)頁的排序。當爬蟲軟件對于互聯(lián)網(wǎng)上的網(wǎng)頁進行瀏覽時，如果網(wǎng)頁不能正常打開也不會立即影響到搜索引擎對于該網(wǎng)頁的排序，但是會產(chǎn)生漸變的影響。這也是為什么用戶在通過搜索引擎搜索關(guān)鍵字時，有時候搜索引擎提供的網(wǎng)站不能正常打開的原因。因為該網(wǎng)站雖然不能正常打開了，但是由于爬蟲軟件對于該網(wǎng)頁有歷史瀏覽記錄，而搜索引擎對于網(wǎng)頁的排序則主要是依據(jù)爬蟲軟件的歷史記錄來進行匹配的。因此網(wǎng)頁不能訪問后則會逐步降低搜索引擎對于該網(wǎng)頁的排序。

同理，影響爬蟲軟件訪問的因素還包括以下幾點：

1）網(wǎng)頁不能正常打開。當爬蟲軟件對于互聯(lián)網(wǎng)上的網(wǎng)頁進行瀏覽時，如果網(wǎng)頁不能正常打開也不會立即影響到搜索引擎對于該網(wǎng)頁的排序，但是會產(chǎn)生漸變的影響。這也是為什么用戶在通過搜索引擎搜索關(guān)鍵字時，有時候搜索引擎提供的網(wǎng)站不能正常打開的原因。因為該網(wǎng)站雖然不能正常打開了，但是由于爬蟲軟件對于該網(wǎng)頁有歷史瀏覽記錄。所以網(wǎng)頁不能正常打開的情況下，網(wǎng)頁的排序會逐漸落后，直至爬蟲軟件最終不再訪問該網(wǎng)頁。

2）頁面的內(nèi)容設(shè)置。之前關(guān)于爬蟲軟件的工作原理進行過介紹。爬蟲軟件在對網(wǎng)頁進行訪問和分析的時候會采用一定的規(guī)則進行分析。因而不適應(yīng)爬蟲軟件分析規(guī)則的網(wǎng)頁則不會將網(wǎng)頁需要表示的主題和內(nèi)容反映給爬蟲軟件。因此搜索引擎在進行匹配時也不能與用戶實際搜索的關(guān)鍵字進行匹配。

3）超鏈接的錯誤。爬蟲軟件在進行網(wǎng)頁分析時，第一時間就會處理網(wǎng)頁中的超鏈接。因此超鏈接將直接影響到爬蟲軟件的效率和分析結(jié)果。如果網(wǎng)頁中的鏈接出現(xiàn)錯誤或者死鏈接，那么爬蟲則會陷入死循環(huán)中。在影響爬蟲軟件運行效率的同時也會影響到該網(wǎng)頁的排序。

2.2 關(guān)鍵詞位置與頻率的優(yōu)化

目前互聯(lián)網(wǎng)網(wǎng)頁的傳輸是依靠網(wǎng)絡(luò)協(xié)議進行傳輸。而對應(yīng)的網(wǎng)頁編碼和解碼則是需要根據(jù)既定的規(guī)則來進行編碼和解碼。為了保持互聯(lián)網(wǎng)跨平臺共享信息的優(yōu)點則需要采用一種通用的語言可以讓各種不同操作系統(tǒng)或者平臺的軟件都可以較好的解釋網(wǎng)頁。因此則出現(xiàn)了HTML語言，這種語言是一種標準化的對象語言。其特點與XML數(shù)據(jù)庫相類似，HTML語言的核心思想是將網(wǎng)頁中所有的元素都轉(zhuǎn)換成一個個不同的對象，因此在對網(wǎng)頁進行解釋和編碼的過程中則可以非常明確的指導不同元素所代表的內(nèi)容或者在網(wǎng)頁中的位置。

從目前的網(wǎng)頁組成來說，一般都會存在幾個主要的部分。第一是title，即整個網(wǎng)頁的標題。第二則是body，即整個網(wǎng)頁的主要部分，這這個部分包含了網(wǎng)頁中的主要內(nèi)容，包含文字的敘述內(nèi)容，或者是圖像化的圖片內(nèi)容等等。通常來講爬蟲軟件在對網(wǎng)頁進行分析時，提取其關(guān)鍵字主要是依靠兩個方面來進行關(guān)鍵詞的判斷，第一部分就是根據(jù)title中的內(nèi)容來分析該網(wǎng)頁的主體，第二部分則是根據(jù)網(wǎng)頁中body里含有的文字敘述來進行分析。

另外，爬蟲軟件在對網(wǎng)頁進行分析時，除了對于title的分析以外還會對于網(wǎng)頁中文字敘述進行分析。目前在這方面的分析算法中比較常見的方法則是關(guān)于文字處理的聚類算法等等。其中較為典型的則是DF-IFD算法。其原理是通過對于將不同網(wǎng)頁中的關(guān)鍵詞進行統(tǒng)計，而后在大量統(tǒng)計的基礎(chǔ)上建立不同類型文檔的典型特征向量。通過不同網(wǎng)頁中關(guān)鍵詞出現(xiàn)頻率的對比來提取最能表現(xiàn)一個網(wǎng)頁主體的關(guān)鍵詞，并將其作為其特征向量的“維度”。因此從這一方面來講影響網(wǎng)頁與搜索關(guān)鍵字排序結(jié)果的另一個主要因素則是關(guān)鍵詞出現(xiàn)的頻率。

關(guān)于通過提高頻率來改變網(wǎng)頁排序的方式較為常用，因此也出現(xiàn)了針對這種辦法的懲罰措施。一般而言，通過提高頻率來改變網(wǎng)頁排序主要是依靠關(guān)鍵詞的不斷堆砌，而懲罰措施則是針對這種關(guān)鍵詞的堆砌進行的一種懲罰。但是在合理的范圍內(nèi)增加關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的頻率依然可以改變該網(wǎng)頁在對應(yīng)關(guān)鍵詞下搜索時的排序結(jié)果。

2.3 鏈接優(yōu)化策略

超鏈接是爬蟲軟件在抓取網(wǎng)頁的主要途徑。如果整個互聯(lián)網(wǎng)上導入到該網(wǎng)頁的超鏈接越多，則該網(wǎng)頁被網(wǎng)絡(luò)爬蟲爬過的幾率則會大大提升，其排序的結(jié)果和權(quán)重也會相應(yīng)的越大。這種方式被稱為外部導入方式的鏈接優(yōu)化。其次，對于同一網(wǎng)站而言，其內(nèi)部的鏈接如果足夠優(yōu)化，那么網(wǎng)站內(nèi)部的所有頁面之間都可以方便的進行互相訪問，而對應(yīng)的不同網(wǎng)頁之間也會存在包含站內(nèi)其他頁面的超鏈接地址，即在站內(nèi)通過合理的外部導入實現(xiàn)了鏈接的優(yōu)化。并且網(wǎng)絡(luò)爬蟲在對網(wǎng)站進行評價時有其一套評價辦法，同一網(wǎng)站的評估可以通過pagerank值來進行評估，并且在頁面跳轉(zhuǎn)的過程中可以將pagerank值直接帶入到站內(nèi)的其他頁面中。

3 總結(jié)

本文對于搜索引擎的工作原理進行了介紹，指出網(wǎng)絡(luò)爬蟲程序是搜索引擎運行的關(guān)鍵。因此針對網(wǎng)絡(luò)爬蟲程序的優(yōu)化方法可以達到優(yōu)化網(wǎng)頁在搜索引擎中排序的目的。由此本文對于網(wǎng)絡(luò)爬蟲軟件的運行原理以及影響網(wǎng)絡(luò)爬蟲軟件抓取網(wǎng)頁的主要因素進行了分析。最后從關(guān)鍵詞優(yōu)化和鏈接優(yōu)化兩個方面提出了搜索引擎優(yōu)化的主要辦法和措施。而這兩個方面的具體措施和方法則是下一步需要研究的重點。

參考文獻：

[1] 陳偉雄.基于元搜索的中文搜索引擎的研究與實現(xiàn)[M].北京：清華大學計算機科學與技術(shù)系，2014.

[2] JiaweiHan，Micheline Kamber著.范明，孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京：機械工業(yè)出版社，2013：290-295.