陳 琳
(福建省信息職業技術學院,福建 福州 350003)
將搜索引擎中的基本技術應用于高職教學探討
陳 琳
(福建省信息職業技術學院,福建 福州 350003)
本文探討了搜索引擎的基本技術,以及將搜索引擎的基本技術融入高職教學中的合理性、有效性和可行性。探討如何將搜索引擎的基本技術融入《數據結構》課程教學中。
搜索引擎;高職教學;數據結構
搜索引擎為互聯網上數以億計的網頁建立索引,包含不勝枚舉迥然不同的詞匯。每天要完成成千上萬個查詢。處理查詢必須快,達到每秒能處理成百上千個查詢。索引系統必須能夠有效、快速地處理億萬個的數據。而且用戶希望得到高精度的搜索結果,并且這些結果最好能出現在前面的幾十個。
搜索引擎的基本技術有:
抓取網頁是由幾個分布式爬蟲完成的。一個URL服務器負責向爬蟲提供URL列表。抓來的網頁交給存儲服務器。再由存儲服務器壓縮網頁并把它們存到知識庫中。
設定最大的線程的數目,每個線程對應一個爬蟲。所有爬蟲同時在網上進行搜索,根據數據庫中已有的網頁信息,尋找需要更新的網頁或新鮮有用的網頁。執行的重點是找DNS。每個爬蟲有它自己的DNS緩存,不必每個網頁都查DNS。每一百個連接都有幾種不同的狀態:查DNS,連接主機,發送請求,接收回答。它用異步IO處理事件,若干請求隊列從一個網站到另一個網站不停的抓取網頁。
分詞技術分為英文分詞技術和中文分詞技術。眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,因此英文分詞技術較容易實現。為了得到有效結果,還應實現短語切分,實現短語查詢。中文是以字為單位,句子中所有的字連起來才能描述一個意思,因此,中文分詞技術很難實現。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。
中文分詞技術可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。
1.2.1 基于字符串匹配的分詞方法
又稱機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”分詞詞典中的詞條進行比較,若在詞典中找到某個字符串,則成功切出一個詞??梢园褭C械分詞作為一種初分手段,再利用各種其它的語言信息來進一步提高切分的準確率。
1.2.2 基于理解的分詞方法
是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。
1.2.3 基于統計的分詞方法
是根據上下文,若相鄰的字同時出現的次數越多,就越有可能構成一個詞。以此來識別一些新的詞。
用戶查詢方式有單詞查詢、短語查詢、“智能”查詢和分層的主題查詢。所謂的"智能"是基于對概率統計的靈活應用。它能夠同時進行基于概念和關鍵字的索引。搜索引擎最基本的檢索是基于布爾查詢。一般認為用戶輸入的若干關鍵詞為與關系,同時支持短語和鄰近兩種運算。在布爾查詢的基礎上,按空間向量模型的相似度算法計算各個文檔與查詢的相似度算法計算各個文檔與查詢的相似度,結果作為排序的基礎。分層的主題查詢,能讓你能夠從一個常用的主題導引入到另一個相關的主題。
對搜索到的網頁按它們的價值度和訪問次數排序。理想情況是將價值越大或訪問次數越多的網頁排在最前面。
PageRank技術主要根據鏈接數來排序而HillTop算法更強調了內容的相關性,相同主題網站之間的鏈接優先。
與排序技術相關的技術有:詞干技術和拼寫糾錯技術。
搜索引擎將抓取的文檔信息存入知識庫中。知識庫中有64個“存儲桶”。前向索引是將抓取的文檔信息存入包含一些Word Id的“存儲桶”中,“存儲桶”的關鍵字為DocId,“存儲桶”即前向索引表,它已完成了部分排序;而后向索引是在前向索引的基礎上建立Word Id與其對應的所有DocId的關系,形成后向索引表,它是以Word Id為關鍵字,建立某個關鍵詞與其對應的所有網頁,即倒排文件。如果倒排文件的索引項數據用鏈表方式,則有利于提高更新效率,不利于檢索;如果索引項數據按序連續存儲,則有利于提高檢索效率,不利于更新;一個折中方案是索引項用連續存儲,索引更新采用部分索引重建的方式。
在信息化時代的今天,高職院校的學生經常在網絡上查閱各種信息,頻繁使用搜索引擎。對搜索引擎有一定程度的了解,將搜索引擎的基本技術融入高職教學中具有一定的合理性。雖然高職學生會使用搜索引擎查閱資料,但他們未必了解它的工作過程,出于好奇,他們也會想了解它的工作過程,興趣是最好的老師,如果將搜索引擎技術融入高職教學中,能吸引學生的注意,引起學生的興趣,從而能有效地提高相關課程的學習熱情,增強學習效果。因此,將搜索引擎的基本技術融入高職教學中具有一定的有效性。在高職院校計算機及其相關專業中開設了 《數據結構》課程,它是計算機專業基礎課,是理論和實踐并重的課程,它不是一門非常實用的課程,但對于計算機專業的學生來說,它又是一門非常重要的課程,學好它,能提高學生的學習能力、提高分析問題和解決問題的能力,能有效地提高學生的編程水平。因此,將搜索引擎的基本技術融入高職教學中具有一定的可行性。
《數據結構》課程的主要內容有線性表 (串、文件)、樹、圖、查找和排序。數據結構研究數據的邏輯結構和物理結構。線性表、樹、圖是三種基本的數據結構,每一種數據結構都有不同的存儲結構,在計算機中都是以它的一種物理結構的存儲形式存在。目前,高職教育推崇以工作過程為導向的教育理念,提倡以任務驅動的案例教學模式,搜索引擎的基本技術是一個不錯的案例,可以貫穿整個《數據結構》課程教學的過程中。
設計一個方案如下:搜索引擎的知識庫中為每個網頁建立一個字典表,包括URL編號、單詞及其出現的次數??梢杂米值浔碜鳛榫€性表的案例?;谧址ヅ涞姆衷~方法,其常用的策略有以下三種:正向最大匹配法、逆向最大匹配法和最少切分法??梢杂没谧址ヅ涞姆衷~方法作為串的案例。用戶查詢方式中的分層的主題索引可以作為樹的案例。抓取網頁技術用多個爬蟲實現,每個爬蟲有一定的搜索路徑,其搜索方式可以作為圖的案例。用戶查詢方式中用單詞查詢或短語查詢可以作為查找的案例。用搜索引擎中的排序技術作為排序的案例。爬蟲將抓取的文檔存入知識庫中的所建立的倒排文件可以作為文件的案例。
在《數據結構》課程的實際教學中,可安排1至2周的實訓課程,完成其中的部分或全部功能。對于高職學生來說,不能作太高要求,能完成基本功能即可。
本文探討了搜索引擎的基本技術,以及將搜索引擎的基本技術融入高職教學中的合理性、有效性和可行性,它不具備必要性。本文還設計了搜索引擎的基本技術融入《數據結構》課程教學的一種方案。
[1]王暢.基于java技術的搜索引擎基本組成和數據結構探究[J].科技博覽,2011:109-110.
[2]魏長春.資料搜集過程中搜索引擎合理化選擇探討[J].信息通信,2011:87-88.
[3]鄭志宏,徐文君,文紅等.改進搜索引擎及其數據結構的設計[J].情報科學,2012:200-205.
[4]鄧雄(Johnny Deng)萬維網Web自動搜索引擎(技術報告)2006.12 http://www.csdn.net.
[5]搜索引擎的基本原理及數據結構剖析http://hi.baidu.com/lewutian/blog/item/0e6074dd5f6e2fe476c63885.html.
The Discussion on the Application of Search Engine Technology to the Vocational High School Teaching
CHEN Lin
(Fujian Instiute of Information Technology,Fuzhou,Fujian 350003)
This paper discusses the basic techniques of search engine and the rationality,effectiveness and feasibility of applying them to the vocational teaching.Issues such as how to apply them to course teaching eg.Data Structure is also explored.
search Engine;vocational Teaching;data Structure
G350;TP393
A
1674-2109(2012)01-0103-03
2012-02-25
陳琳(1963-),女,漢族,高講,主要研究方向:軟件技術。