梁中閣,陳孝如
(廣州大學華軟軟件學院,廣東廣州 510990)
網絡技術高速發展,互聯網已成為大眾化信息交流的重要場所,網絡中的信息增長速度飛快,如何處理海量網絡信息引起眾多研究學者關注[1]。信息檢索是信息處理領域的重要課題,目前通常通過查詢串的文件檢索以及目錄結構的信息檢索處理信息檢索問題,無法有效獲取用戶所需的關鍵信息[2]。用戶使用網絡時,可采用輸入關鍵詞獲取檢索結果,關鍵詞檢索是用戶從海量網絡中獲取關鍵信息的主要方式。
Web 2.0技術已日益成熟,提供互聯網內容已由網站運營方和開發方轉變為網絡用戶。網絡監管機制較為落后,互聯網具有較強的開發性[3],網絡上內容差異巨大,容易出現錯誤的輿論引導,影響事實真相以及正確觀念及時發布,威脅社會和諧。檢測以及預警出現于Web服務器中的網絡話題以及網絡事件[4],可正確引導網絡輿論。
近年來針對網絡搜索以及訪問安全性的研究較多,周文等人研究一種SVM學習框架下的Web3D輕量級模型檢索算法[5],利用支持向量機實現Web3D輕量級模型檢索,檢索實時性較高,但檢索精度較低;魏德賓等人研究基于自相似流量水平分級預測的網絡隊列調度算法[6],利用自相似流量水平分級預測實現網絡隊列調度,提升網絡運行安全性。研究基于關鍵詞分級檢索的Web信息訪問監控算法,將關鍵詞分級檢索結果作為Web信息訪問監控依據,保障網絡安全。關鍵詞分級檢索可有效提升關鍵詞檢索速度以及查準率,通過較優的查詢速度以及排序誤差率提升Web信息訪問監控性能。
通過構建詞匯鏈提升關鍵詞抽取精度,計算所搜尋詞語與初始詞匯鏈的相似度,依據相似度結果加入相應詞匯鏈中,具體過程如下:
1)對待檢索文本集實施詞性標注、分詞以及未登陸詞識別,用DF與TF分別表示文檔頻率以及特征頻率,統計各詞在文檔集中的DF與TF;
2)部分相對重要的領域詞匯并未收錄于文本集內。設置指定閾值δ,設置該閾值為3,當詞匯的TF大于δ時,利用未登錄詞生成詞匯鏈L0;
3)將TF大于閾值δ的動詞A1,A2,…,An以及全部名詞設置為候選詞匯集,利用其中的A1建立初始詞匯鏈L1;
4)從候選詞匯集內依次選取詞語Ai,i∈[2,n],可得獲取該詞語與詞匯鏈L0外的各詞匯鏈詞義相似度值S(Ai,Lj)公式如下:

(1)
式(1)中,i=1,2,…,n,j=1,2,…,m,N與Ak分別表示詞匯鏈Lj內包含詞匯數量以及包含詞匯,1≤k≤N。
通過式(1)可知,不同詞匯鏈的詞義相似度值即與該詞匯鏈內全部單詞詞義相似度之和的平均值[7];
5)當預設的相似度閾值ζ小于最大詞義相似度S(Ai,Lk)時,將該詞插入詞匯鏈Lk內;
6)當預設的相似度閾值ζ大于最大詞義相似度S(Ai,Lk)時,生成新的詞匯鏈,并將詞語A插入新詞匯鏈內;
7)重復步驟(3)-步驟(6),直至完成全部候選詞匯計算。
分析以上過程可知,構建詞匯鏈時,相似度閾值ζ越大,所生成的詞匯鏈數量越多。
確定詞匯鏈權值時,需要充分考慮詞匯鏈長度、詞匯鏈中詞匯分布密度、詞匯鏈覆蓋本文范圍、組成詞匯鏈的不同詞語的初始權值以及詞匯鏈的拓撲結構。
完成文本詞匯鏈生成后,需評價所構建各個詞匯鏈,并將相應權值賦予各個詞匯鏈中。用T={T1,T2,…,Tn}表示各個文本,Ti為不同詞匯鏈權值。文本主題表達水平在詞匯鏈權值越大時越強,文本主題表達水平在詞匯鏈權值越小時越差[8]。利用預設權值從文本集內選取較強的詞匯鏈呈現文本,從所獲取的詞匯鏈中所包含詞匯中抽取關鍵詞。
所獲取詞匯鏈Li(0≤i≤n)中包含眾多語義相近詞匯集合,通過考慮詞匯的以下屬性確定選取哪些詞匯作為關鍵詞。
1)首次出現位置
全部詞匯數據量中詞匯在其所在文檔中首次出現位置前詞語數量比例表示詞語的首次出現位置,通常情況下首次出現位置取值為0-1之間;
2)所處文檔區域
確定所處文檔區域時需制定假設如下:
文檔摘要、文檔標題以及章節標題內詞匯為文檔關鍵詞的可能性高于其它詞語為關鍵詞的可能性。
3)所處詞匯鏈強度
詞匯所處詞匯鏈的權值決定了詞匯所處詞匯鏈的強度[9],詞匯鏈表達文檔主體的能力在權值越大時越強。
4)詞匯的信息熵
詞匯的信息熵可以體現出詞匯所包含的文檔具體信息內容,詞匯信息熵計算公式如下

(2)
式(2)中,Ei與M分別表示詞匯Ai的信息熵以及多文檔集內文檔總數或單文檔內句子總數;fij與dfi分別表示句子j以及文檔j內出現dfi的次數以及出現dfi的文檔數或句子數。
全部文檔中均出現該詞匯時,則該詞匯的信息熵較小[10];當僅個別文檔中存在該詞匯時,則該詞匯的信息熵較大。
綜合考慮文檔中首次出現詞匯的位置、詞匯所處詞匯鏈強度、詞匯所處文檔區域以及詞匯的信息熵4個重要屬性,獲取文檔中詞匯權值計算公式如下
Weighti=α×b(fi+1.0)×(1+Ei)+β×Ti

(3)
式(3)中,Weighti與fi分別表示詞匯Ai的權值以及出現次數;Ti與Lengthi分別表示詞匯Ai所在詞匯鏈權值以及詞匯Ai首次出現在文檔中之前的詞匯數量;Length與Areai分別表示文檔中全部詞匯數量以及詞匯Ai所處文檔區域的權值。當文檔標題以及文檔摘要中出現詞匯Ai時,Areai值分別為5以及4;當章節標題中出現詞匯Ai時,Areai值為2;其余情況下Areai值為0.5;α、β、γ與η均表示調節詞匯權值計算中各屬性的調節因子,本文取1。
計算詞匯鏈內所存在的全部詞匯的權值后,用Ti={ti1,ti2,…,tim}表示全部詞匯權值,tij為建立詞匯鏈中詞匯Li的權值。降序排列全部詞匯鏈內全部詞匯權值,依據所需關鍵詞數量依次選取權值較大的詞匯作為關鍵詞,依據所確定關鍵詞實現關鍵詞分級檢索。
依據所獲取關鍵詞分級檢索Web信息,利用PageRank算法實現Web信息訪問頁面的實時監控,實現網絡資源優化,保障Web網絡運行安全性能。
PageRank算法是衡量網頁重要程度的重要算法,將PageRank算法應用于Web信息訪問監控中的主要思想是集中資源與精力關注存在關鍵詞數量較多的較為重要的網頁。PageRank算法是網頁排名技術,即網頁級別算法,該算法是評價網頁重要性的重要方法[11],Web利用該算法可調整搜索結果,令網頁出現在靠前位置,重點監控重要性較高的網頁,提升Web信息訪問安全性。
PageRank算法利用網絡自身的超鏈接結構確定網頁重要性的等級數量,利用網頁重要性的等級數排序網頁,等級數即PageRank值,即通過連接結構獲取網頁重要性,Web網頁的重要性與其余Web網頁的重要性存在關聯以及依賴性。
PageRank值計算公式如下

(4)
式(4)中,PR(a)與L1,…,Ln分別表示Web網頁的PageRank值以及鏈接至網頁a的網頁;G(Ln)與G分別表示其從網頁Ln轉送至其它網頁的超鏈接數量以及規范化因子,利用規范化因子令全部網頁的PageRank值之和為常量。
為簡化計算,將式(4)轉化為
PR(a)=(1-d)+G(Ln)
(5)
式(5)中,d表示阻尼系數,本文設置為0.15。
首先需獲取待排序網頁數量總和,設置各網頁的PageRank值為1/Sum,依據式(4)以及式(5)統計網頁的超鏈接數,獲取最終的G(Ln)。
采用本文算法實現基于關鍵詞分級檢索的Web信息訪問監控過程如下:首先構建詞匯鏈,從詞匯鏈中提取關鍵詞實現關鍵詞分級檢索,利用關鍵詞分級檢索結果獲取Web頁面的重要程度,依據所獲取的重要程度指標排序Web網頁的超鏈接[12],排序較為靠前的超鏈接具有較高的重要程度,設置較短的監控周期,依據排名順序擴大監控周期。本文算法依據Web網頁重要程度確定Web信息訪問監控策略,具有較高的時效性與有效性。
從網絡中選取100篇Web信息作為本文算法有效性的測試對象,Web信息中包含文學、財經、軍事、教育、體育五種類型內容。
選取準確率(P)、召回率(R)作為評價采用本文算法監控Web信息訪問中關鍵詞分級檢索性能。選取SVM算法(參考文獻[5])以及自相似算法(參考文獻[6])作為對比算法,三種算法分級檢索關鍵詞的檢索準確率對比結果如圖1所示。

圖1 檢索準確率對比
圖1實驗結果可以看出,采用本文算法分級檢索關鍵詞的檢索準確率均高于99%;采用另兩種算法分級檢索關鍵詞的檢索準確率均低于99%。對比結果有效驗證本文算法具有較高的分級檢索關鍵詞準確率。
選取SVM算法以及自相似算法作為對比算法,三種算法分級檢索關鍵詞的檢索召回率對比結果如圖2所示。

圖2 檢索召回率對比
圖2實驗結果可以看出,采用本文算法分級檢索關鍵詞的檢索召回率均高于99%;采用另兩種算法分級檢索關鍵詞的檢索召回率均低于99%。采用本文算法分類檢索不同類別Web信息關鍵詞的檢索準確率、召回率均為最高,說明本文算法具有較高的關鍵詞分類檢索有效性。
統計采用本文算法分級檢索不同類別Web信息關鍵詞在不同信息量大小情況下的漏搜率以及多搜率,對比結果如表1所示。

表1 不同算法漏搜率與多搜率
表1實驗結果可以看出,采用本文算法分級檢索不同大小信息量Web信息關鍵詞具有較低的漏搜率以及多搜率,采用本文算法分級檢索Web信息關鍵詞的漏搜率以及多搜率均低于0.7%;采用另兩種算法分級檢索Web信息關鍵詞的漏搜率以及多搜率均高于1%。采用本文算法分級檢索不同大小信息量Web信息關鍵詞的漏搜率以及多搜率均明顯低于另兩種算法,實驗結果有效驗證本文算法具有較高的關鍵詞分級檢索性能,可為Web信息訪問監控提供良好基礎。
通過圖1、圖2以及表1實驗結果可知,本文算法分類檢索Web信息關鍵詞的整體評價結果較為理想,可獲取較優的關鍵詞分類檢索效果,主要原因是本文算法的關鍵詞抽取算法充分考慮了Web信息中關鍵詞位置與因素,獲取較高的Web信息關鍵詞檢索效果,提升Web信息訪問監控有效性。
采用本文算法獲取不同類別Web網頁的PageRank值排行結果如表2所示。

表2 PageRank值排行結果
表2實驗結果可以看出,采用本文算法可利用PageRank值獲取Web網頁的重要程度,利用所獲取Web網頁的重要程度重點監視較為重要Web網頁中的Web信息,實現Web信息訪問的有效監控。
統計采用本文算法監控Web信息訪問100min內的Web信息訪問監控有效率以及誤報率,統計結果如表3所示。

表3 監控性能對比
表3實驗結果表明,采用本文算法監控Web信息訪問的有效率均高于99.2%;采用本文算法監控Web信息訪問的誤報率均低于0.7%。采用本文算法監控Web信息訪問的有效率遠高于另兩種算法,本文算法監控Web信息訪問的誤報率遠低于另兩種算法。采用本文算法監控Web信息訪問具有較高的有效率以及較低的誤報率,有效驗證本文算法監控Web信息訪問有效性。
利用信息抽取技術建立詞匯鏈實現關鍵詞分級檢索,并利用關鍵詞分級檢索結果實現Web信息訪問監控,利用所研究算法應用于網絡中Web信息訪問監控中,可降低時間開銷以及空間開銷,并且可避免出現漏搜以及多搜情況。所研究算法具有較高的關鍵詞檢索準確率以及召回率,通過縮小檢索范圍提升檢索速度,利用抽取文檔關鍵詞組,明確查詢匹配結果,提升Web信息訪問監控效果。將其應用于Web信息訪問監控中,依據所設定關鍵詞可實現Web信息訪問有效監控,具有較高的Web信息訪問監控性能。