賀 維 劉 彬 田學志
(1、黑龍江農業工程職業學院,黑龍江 哈爾濱 150000 2、泰山學院,山東 泰安 271000)
隨著互聯網普及,網絡搜索成為一種最快捷、最有效的信息獲得手段,用戶可以通過登錄網絡搜索平臺,鍵入查詢關鍵字搜索和收集需要的信息。在享受網絡搜索技術便利的同時,搜索結果中的大量垃圾信息也給用戶帶來極大的不便,用戶經常需要大量點擊搜索結果來獲得有效信息[1]。
利用行為模式技術,搜索平臺通過對垃圾信息統計出的不同行為特征,對搜索結果信息進行過濾,來增強信息搜索的準確率。
衡量搜索引擎的一條很重要的標準,就是搜索到信息的海量性。為了實現這一條標準,通常需要一種強大的搜索器作為支撐,一般稱為為“網絡蜘蛛”。
“網絡蜘蛛”即Web Spider,是通過網頁的鏈接地址來尋找網頁,從網站的某一個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣循環下去,直到把這個網站所有的網頁都抓取完為止。在抓取網頁的時候,“網絡蜘蛛”一般有兩種策略深度優先、廣度優先。通過內容提取技術獲取網頁上文本信息[2]。
在用戶通過定義的關鍵字實施信息搜索時,經常會獲得大量的搜索結果,從這些海量信息中提取有效信息經常會浪費用戶大量的時間和精力。對于用戶來說,沒有利用價值的信息可以認為是無效搜索信息,而在這其中還存在很大一部分由于某些網站為增加點擊率而故意篡改信息產生的垃圾信息?!?br>