999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關鍵詞分級檢索的Web信息訪問監控算法

2021-12-10 09:06:08梁中閣陳孝如
計算機仿真 2021年11期
關鍵詞:詞匯信息

梁中閣,陳孝如

(廣州大學華軟軟件學院,廣東廣州 510990)

1 引言

網絡技術高速發展,互聯網已成為大眾化信息交流的重要場所,網絡中的信息增長速度飛快,如何處理海量網絡信息引起眾多研究學者關注[1]。信息檢索是信息處理領域的重要課題,目前通常通過查詢串的文件檢索以及目錄結構的信息檢索處理信息檢索問題,無法有效獲取用戶所需的關鍵信息[2]。用戶使用網絡時,可采用輸入關鍵詞獲取檢索結果,關鍵詞檢索是用戶從海量網絡中獲取關鍵信息的主要方式。

Web 2.0技術已日益成熟,提供互聯網內容已由網站運營方和開發方轉變為網絡用戶。網絡監管機制較為落后,互聯網具有較強的開發性[3],網絡上內容差異巨大,容易出現錯誤的輿論引導,影響事實真相以及正確觀念及時發布,威脅社會和諧。檢測以及預警出現于Web服務器中的網絡話題以及網絡事件[4],可正確引導網絡輿論。

近年來針對網絡搜索以及訪問安全性的研究較多,周文等人研究一種SVM學習框架下的Web3D輕量級模型檢索算法[5],利用支持向量機實現Web3D輕量級模型檢索,檢索實時性較高,但檢索精度較低;魏德賓等人研究基于自相似流量水平分級預測的網絡隊列調度算法[6],利用自相似流量水平分級預測實現網絡隊列調度,提升網絡運行安全性。研究基于關鍵詞分級檢索的Web信息訪問監控算法,將關鍵詞分級檢索結果作為Web信息訪問監控依據,保障網絡安全。關鍵詞分級檢索可有效提升關鍵詞檢索速度以及查準率,通過較優的查詢速度以及排序誤差率提升Web信息訪問監控性能。

2 關鍵詞分級檢索的Web信息訪問監控算法

2.1 構建詞匯鏈

通過構建詞匯鏈提升關鍵詞抽取精度,計算所搜尋詞語與初始詞匯鏈的相似度,依據相似度結果加入相應詞匯鏈中,具體過程如下:

1)對待檢索文本集實施詞性標注、分詞以及未登陸詞識別,用DF與TF分別表示文檔頻率以及特征頻率,統計各詞在文檔集中的DF與TF;

2)部分相對重要的領域詞匯并未收錄于文本集內。設置指定閾值δ,設置該閾值為3,當詞匯的TF大于δ時,利用未登錄詞生成詞匯鏈L0;

3)將TF大于閾值δ的動詞A1,A2,…,An以及全部名詞設置為候選詞匯集,利用其中的A1建立初始詞匯鏈L1;

4)從候選詞匯集內依次選取詞語Ai,i∈[2,n],可得獲取該詞語與詞匯鏈L0外的各詞匯鏈詞義相似度值S(Ai,Lj)公式如下:

(1)

式(1)中,i=1,2,…,n,j=1,2,…,m,N與Ak分別表示詞匯鏈Lj內包含詞匯數量以及包含詞匯,1≤k≤N。

通過式(1)可知,不同詞匯鏈的詞義相似度值即與該詞匯鏈內全部單詞詞義相似度之和的平均值[7];

5)當預設的相似度閾值ζ小于最大詞義相似度S(Ai,Lk)時,將該詞插入詞匯鏈Lk內;

6)當預設的相似度閾值ζ大于最大詞義相似度S(Ai,Lk)時,生成新的詞匯鏈,并將詞語A插入新詞匯鏈內;

7)重復步驟(3)-步驟(6),直至完成全部候選詞匯計算。

分析以上過程可知,構建詞匯鏈時,相似度閾值ζ越大,所生成的詞匯鏈數量越多。

確定詞匯鏈權值時,需要充分考慮詞匯鏈長度、詞匯鏈中詞匯分布密度、詞匯鏈覆蓋本文范圍、組成詞匯鏈的不同詞語的初始權值以及詞匯鏈的拓撲結構。

完成文本詞匯鏈生成后,需評價所構建各個詞匯鏈,并將相應權值賦予各個詞匯鏈中。用T={T1,T2,…,Tn}表示各個文本,Ti為不同詞匯鏈權值。文本主題表達水平在詞匯鏈權值越大時越強,文本主題表達水平在詞匯鏈權值越小時越差[8]。利用預設權值從文本集內選取較強的詞匯鏈呈現文本,從所獲取的詞匯鏈中所包含詞匯中抽取關鍵詞。

2.2 關鍵詞分級檢索

所獲取詞匯鏈Li(0≤i≤n)中包含眾多語義相近詞匯集合,通過考慮詞匯的以下屬性確定選取哪些詞匯作為關鍵詞。

1)首次出現位置

全部詞匯數據量中詞匯在其所在文檔中首次出現位置前詞語數量比例表示詞語的首次出現位置,通常情況下首次出現位置取值為0-1之間;

2)所處文檔區域

確定所處文檔區域時需制定假設如下:

文檔摘要、文檔標題以及章節標題內詞匯為文檔關鍵詞的可能性高于其它詞語為關鍵詞的可能性。

3)所處詞匯鏈強度

詞匯所處詞匯鏈的權值決定了詞匯所處詞匯鏈的強度[9],詞匯鏈表達文檔主體的能力在權值越大時越強。

4)詞匯的信息熵

詞匯的信息熵可以體現出詞匯所包含的文檔具體信息內容,詞匯信息熵計算公式如下

(2)

式(2)中,Ei與M分別表示詞匯Ai的信息熵以及多文檔集內文檔總數或單文檔內句子總數;fij與dfi分別表示句子j以及文檔j內出現dfi的次數以及出現dfi的文檔數或句子數。

全部文檔中均出現該詞匯時,則該詞匯的信息熵較小[10];當僅個別文檔中存在該詞匯時,則該詞匯的信息熵較大。

綜合考慮文檔中首次出現詞匯的位置、詞匯所處詞匯鏈強度、詞匯所處文檔區域以及詞匯的信息熵4個重要屬性,獲取文檔中詞匯權值計算公式如下

Weighti=α×b(fi+1.0)×(1+Ei)+β×Ti

(3)

式(3)中,Weighti與fi分別表示詞匯Ai的權值以及出現次數;Ti與Lengthi分別表示詞匯Ai所在詞匯鏈權值以及詞匯Ai首次出現在文檔中之前的詞匯數量;Length與Areai分別表示文檔中全部詞匯數量以及詞匯Ai所處文檔區域的權值。當文檔標題以及文檔摘要中出現詞匯Ai時,Areai值分別為5以及4;當章節標題中出現詞匯Ai時,Areai值為2;其余情況下Areai值為0.5;α、β、γ與η均表示調節詞匯權值計算中各屬性的調節因子,本文取1。

計算詞匯鏈內所存在的全部詞匯的權值后,用Ti={ti1,ti2,…,tim}表示全部詞匯權值,tij為建立詞匯鏈中詞匯Li的權值。降序排列全部詞匯鏈內全部詞匯權值,依據所需關鍵詞數量依次選取權值較大的詞匯作為關鍵詞,依據所確定關鍵詞實現關鍵詞分級檢索。

2.3 PageRank算法的Web信息訪問監控

依據所獲取關鍵詞分級檢索Web信息,利用PageRank算法實現Web信息訪問頁面的實時監控,實現網絡資源優化,保障Web網絡運行安全性能。

PageRank算法是衡量網頁重要程度的重要算法,將PageRank算法應用于Web信息訪問監控中的主要思想是集中資源與精力關注存在關鍵詞數量較多的較為重要的網頁。PageRank算法是網頁排名技術,即網頁級別算法,該算法是評價網頁重要性的重要方法[11],Web利用該算法可調整搜索結果,令網頁出現在靠前位置,重點監控重要性較高的網頁,提升Web信息訪問安全性。

PageRank算法利用網絡自身的超鏈接結構確定網頁重要性的等級數量,利用網頁重要性的等級數排序網頁,等級數即PageRank值,即通過連接結構獲取網頁重要性,Web網頁的重要性與其余Web網頁的重要性存在關聯以及依賴性。

PageRank值計算公式如下

(4)

式(4)中,PR(a)與L1,…,Ln分別表示Web網頁的PageRank值以及鏈接至網頁a的網頁;G(Ln)與G分別表示其從網頁Ln轉送至其它網頁的超鏈接數量以及規范化因子,利用規范化因子令全部網頁的PageRank值之和為常量。

為簡化計算,將式(4)轉化為

PR(a)=(1-d)+G(Ln)

(5)

式(5)中,d表示阻尼系數,本文設置為0.15。

首先需獲取待排序網頁數量總和,設置各網頁的PageRank值為1/Sum,依據式(4)以及式(5)統計網頁的超鏈接數,獲取最終的G(Ln)。

采用本文算法實現基于關鍵詞分級檢索的Web信息訪問監控過程如下:首先構建詞匯鏈,從詞匯鏈中提取關鍵詞實現關鍵詞分級檢索,利用關鍵詞分級檢索結果獲取Web頁面的重要程度,依據所獲取的重要程度指標排序Web網頁的超鏈接[12],排序較為靠前的超鏈接具有較高的重要程度,設置較短的監控周期,依據排名順序擴大監控周期。本文算法依據Web網頁重要程度確定Web信息訪問監控策略,具有較高的時效性與有效性。

3 仿真分析

從網絡中選取100篇Web信息作為本文算法有效性的測試對象,Web信息中包含文學、財經、軍事、教育、體育五種類型內容。

選取準確率(P)、召回率(R)作為評價采用本文算法監控Web信息訪問中關鍵詞分級檢索性能。選取SVM算法(參考文獻[5])以及自相似算法(參考文獻[6])作為對比算法,三種算法分級檢索關鍵詞的檢索準確率對比結果如圖1所示。

圖1 檢索準確率對比

圖1實驗結果可以看出,采用本文算法分級檢索關鍵詞的檢索準確率均高于99%;采用另兩種算法分級檢索關鍵詞的檢索準確率均低于99%。對比結果有效驗證本文算法具有較高的分級檢索關鍵詞準確率。

選取SVM算法以及自相似算法作為對比算法,三種算法分級檢索關鍵詞的檢索召回率對比結果如圖2所示。

圖2 檢索召回率對比

圖2實驗結果可以看出,采用本文算法分級檢索關鍵詞的檢索召回率均高于99%;采用另兩種算法分級檢索關鍵詞的檢索召回率均低于99%。采用本文算法分類檢索不同類別Web信息關鍵詞的檢索準確率、召回率均為最高,說明本文算法具有較高的關鍵詞分類檢索有效性。

統計采用本文算法分級檢索不同類別Web信息關鍵詞在不同信息量大小情況下的漏搜率以及多搜率,對比結果如表1所示。

表1 不同算法漏搜率與多搜率

表1實驗結果可以看出,采用本文算法分級檢索不同大小信息量Web信息關鍵詞具有較低的漏搜率以及多搜率,采用本文算法分級檢索Web信息關鍵詞的漏搜率以及多搜率均低于0.7%;采用另兩種算法分級檢索Web信息關鍵詞的漏搜率以及多搜率均高于1%。采用本文算法分級檢索不同大小信息量Web信息關鍵詞的漏搜率以及多搜率均明顯低于另兩種算法,實驗結果有效驗證本文算法具有較高的關鍵詞分級檢索性能,可為Web信息訪問監控提供良好基礎。

通過圖1、圖2以及表1實驗結果可知,本文算法分類檢索Web信息關鍵詞的整體評價結果較為理想,可獲取較優的關鍵詞分類檢索效果,主要原因是本文算法的關鍵詞抽取算法充分考慮了Web信息中關鍵詞位置與因素,獲取較高的Web信息關鍵詞檢索效果,提升Web信息訪問監控有效性。

采用本文算法獲取不同類別Web網頁的PageRank值排行結果如表2所示。

表2 PageRank值排行結果

表2實驗結果可以看出,采用本文算法可利用PageRank值獲取Web網頁的重要程度,利用所獲取Web網頁的重要程度重點監視較為重要Web網頁中的Web信息,實現Web信息訪問的有效監控。

統計采用本文算法監控Web信息訪問100min內的Web信息訪問監控有效率以及誤報率,統計結果如表3所示。

表3 監控性能對比

表3實驗結果表明,采用本文算法監控Web信息訪問的有效率均高于99.2%;采用本文算法監控Web信息訪問的誤報率均低于0.7%。采用本文算法監控Web信息訪問的有效率遠高于另兩種算法,本文算法監控Web信息訪問的誤報率遠低于另兩種算法。采用本文算法監控Web信息訪問具有較高的有效率以及較低的誤報率,有效驗證本文算法監控Web信息訪問有效性。

4 結論

利用信息抽取技術建立詞匯鏈實現關鍵詞分級檢索,并利用關鍵詞分級檢索結果實現Web信息訪問監控,利用所研究算法應用于網絡中Web信息訪問監控中,可降低時間開銷以及空間開銷,并且可避免出現漏搜以及多搜情況。所研究算法具有較高的關鍵詞檢索準確率以及召回率,通過縮小檢索范圍提升檢索速度,利用抽取文檔關鍵詞組,明確查詢匹配結果,提升Web信息訪問監控效果。將其應用于Web信息訪問監控中,依據所設定關鍵詞可實現Web信息訪問有效監控,具有較高的Web信息訪問監控性能。

猜你喜歡
詞匯信息
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
本刊可直接用縮寫的常用詞匯
本刊一些常用詞匯可直接用縮寫
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 成年人久久黄色网站| 成人在线视频一区| 免费无码在线观看| 成人噜噜噜视频在线观看| 91精品国产91欠久久久久| 999精品视频在线| 欧美一级专区免费大片| 国产91高跟丝袜| 国产91小视频| 欧美激情首页| 欧美午夜在线视频| 国产成人91精品免费网址在线| 91亚瑟视频| 国产成人91精品免费网址在线| 免费高清a毛片| 久久国产成人精品国产成人亚洲| 国产精品无码在线看| 国产呦精品一区二区三区下载| 久久综合五月婷婷| 91麻豆久久久| 九九久久99精品| 在线色综合| 欧美a在线看| 欧美成人午夜在线全部免费| 国产亚洲欧美日韩在线一区| 国产国产人免费视频成18| 久久综合伊人 六十路| 国产精彩视频在线观看| 日韩福利视频导航| 欧美成人午夜视频免看| 亚洲日本中文字幕天堂网| 精品久久久久无码| 亚洲人人视频| 欧美日韩国产精品va| 99re在线免费视频| 凹凸国产熟女精品视频| 国产美女一级毛片| 久久国产精品无码hdav| 国产福利一区视频| 欧美另类一区| 在线观看欧美国产| a网站在线观看| 狠狠躁天天躁夜夜躁婷婷| 欧美一区二区三区国产精品| 国产人碰人摸人爱免费视频| 免费女人18毛片a级毛片视频| 日本欧美一二三区色视频| 成人福利在线免费观看| 免费观看男人免费桶女人视频| 99久久国产综合精品女同| 91成人免费观看| 精品国产黑色丝袜高跟鞋| 日本爱爱精品一区二区| 欧美成人怡春院在线激情| 日韩成人午夜| 中文字幕在线播放不卡| 国内精品久久人妻无码大片高| 国产激爽爽爽大片在线观看| 青青青亚洲精品国产| 日本午夜三级| 一区二区三区四区精品视频| 亚洲第一成年人网站| 国产国语一级毛片| 日韩毛片免费视频| 亚洲综合色婷婷| 亚洲无线视频| 国产免费久久精品99re丫丫一| 亚洲成人www| 日韩在线第三页| 538精品在线观看| 亚洲浓毛av| 国产成人高清精品免费软件| 色婷婷色丁香| 88av在线看| 无码啪啪精品天堂浪潮av| 国产真实乱人视频| 国产精品人成在线播放| 欧洲高清无码在线| YW尤物AV无码国产在线观看| 欧美有码在线| 国产精品永久久久久| 久久国产乱子伦视频无卡顿|