999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的網(wǎng)站識(shí)別方案

2020-07-13 07:06:54劉天一張汝嫻袁藝邢韋川林清然周延森指導(dǎo)老師
關(guān)鍵詞:檢測(cè)模型

◆劉天一 張汝嫻 袁藝 邢韋川 林清然 周延森指導(dǎo)老師

(國(guó)際關(guān)系學(xué)院 北京 100091)

1 引言

近年來(lái)互聯(lián)網(wǎng)技術(shù)發(fā)展迅速,網(wǎng)絡(luò)資源豐富了生活。但與此同時(shí),大量博彩、色情等非法網(wǎng)站的出現(xiàn)嚴(yán)重影響了網(wǎng)絡(luò)環(huán)境,非法網(wǎng)站檢測(cè)也成為保護(hù)網(wǎng)絡(luò)安全的一環(huán)。

有關(guān)部門已開(kāi)展大量專項(xiàng)整治行動(dòng),但由于網(wǎng)絡(luò)建站成本低、活動(dòng)隱蔽性強(qiáng)及監(jiān)管難度大等特點(diǎn),許多諸如色情、博彩等非法網(wǎng)站仍屢禁不止,對(duì)網(wǎng)絡(luò)安全造成嚴(yán)重威脅,目前急需高效檢測(cè)的技術(shù)手段。

非法網(wǎng)站檢測(cè)目前主要有三類技術(shù):黑名單、靜態(tài)檢測(cè)、動(dòng)態(tài)檢測(cè)。基于URL 檢測(cè)黑名單的技術(shù)簡(jiǎn)單且準(zhǔn)確率較高,但靈活性較差,且人工維護(hù)黑名單耗時(shí)耗力。靜態(tài)檢測(cè)是目前主流,多數(shù)預(yù)先采用網(wǎng)絡(luò)爬蟲獲取目標(biāo)網(wǎng)站靜態(tài)數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)提取特征構(gòu)建分類識(shí)別模型[2-4],其關(guān)鍵是選取有效檢測(cè)特征與構(gòu)建適合的分類器。動(dòng)態(tài)檢測(cè)耗時(shí)長(zhǎng)且難度較大,針對(duì)掛馬類惡意網(wǎng)站識(shí)別率較高,而對(duì)于博彩、色情等網(wǎng)站效果欠佳。

相比已有的非法網(wǎng)站檢測(cè)工作,我們針對(duì)不同類型非法網(wǎng)站采用不同手段,進(jìn)而提高識(shí)別的準(zhǔn)確性與效率。一方面,使用自然語(yǔ)言處理技術(shù)提取網(wǎng)頁(yè)特征并利用SVM 生成博彩網(wǎng)站識(shí)別與分類模型。另一方面,在已有NSFW 色情圖片識(shí)別平臺(tái)基礎(chǔ)上實(shí)現(xiàn)色情網(wǎng)站檢測(cè)模型。

2 非法網(wǎng)站系統(tǒng)構(gòu)建

本文所設(shè)計(jì)的非法網(wǎng)站檢測(cè)系統(tǒng)框架如圖1,輸入指定URL 后系統(tǒng)依次對(duì)其進(jìn)行是否為博彩、色情網(wǎng)站的識(shí)別,從而對(duì)其是否為非法網(wǎng)站作出初步判斷。

圖1 非法網(wǎng)站識(shí)別系統(tǒng)

2.1 基于SVM 的博彩網(wǎng)站檢測(cè)

博彩網(wǎng)站檢測(cè)模型構(gòu)建步驟如圖2。

(1)請(qǐng)求URL 獲取HTML 文本;

(2)通過(guò)正則匹配從HTML 指定標(biāo)簽中提取文本。由于各個(gè)國(guó)家對(duì)非法網(wǎng)站的界定不同,目前本模型只針對(duì)國(guó)內(nèi)網(wǎng)站進(jìn)行識(shí)別,因此正則后只保留中文字符;

(3)對(duì)中文文本進(jìn)行分詞并保留詞性。依據(jù)經(jīng)驗(yàn)制定任務(wù)相關(guān)停用詞表,并同通用停用詞表結(jié)合,移除停用詞及非動(dòng)、名詞等無(wú)意義的詞,過(guò)程中建立語(yǔ)料庫(kù),統(tǒng)計(jì)加入了語(yǔ)料庫(kù)詞的詞頻;

(4)采用指定方式對(duì)語(yǔ)料庫(kù)排序,進(jìn)行特征選擇。分別采用信息增益、卡方檢驗(yàn)、頻次等方式排序,指定維數(shù)并且完成特征提取;

(5)根據(jù)所選特征,即排序后的前[指定維數(shù)]個(gè)詞,重復(fù)(2)(3),計(jì)算tf-idf,形成特征向量。

至此得到HTML 的特征向量,將其作為分類器的輸入,完成分類、識(shí)別等任務(wù)。

本實(shí)驗(yàn)選用已知非法網(wǎng)站和從chinaz 中隨機(jī)選取的URL 組成數(shù)據(jù)集,預(yù)先分別將其標(biāo)注為合法/非法。選取過(guò)程中過(guò)濾不可正常訪問(wèn)網(wǎng)站和非中文網(wǎng)站。考慮到數(shù)據(jù)集規(guī)模較小,特征維數(shù)較高,任務(wù)目標(biāo)為二分類,因此選用SVM。考慮到過(guò)擬合等問(wèn)題,此處在特征選擇時(shí)指定維數(shù)為3000。數(shù)據(jù)集劃分為70/30 進(jìn)行訓(xùn)練/測(cè)試,并統(tǒng)計(jì)訓(xùn)練集和測(cè)試集的各項(xiàng)指標(biāo)。

實(shí)驗(yàn)結(jié)果表明訓(xùn)練集中測(cè)試的準(zhǔn)確率為97.14%,測(cè)試集中為95.56%,而80/20 劃分訓(xùn)練/測(cè)試集的情況下可達(dá)99.9%,未發(fā)生過(guò)擬合。其中,采取了十折交叉驗(yàn)證以保證可信度。后期如需進(jìn)一步擴(kuò)大數(shù)據(jù)集,特征選擇時(shí)選定的維數(shù)應(yīng)相應(yīng)增多。實(shí)驗(yàn)說(shuō)明本文通過(guò)自然語(yǔ)言處理對(duì)HTML 進(jìn)行的特征提取、特征選擇等操作可形成明確劃分界限,可供分類器進(jìn)行處理,以及結(jié)合SVM 進(jìn)行分類的模型基本可行。

2.2 基于NSFW 的色情網(wǎng)站識(shí)別

NSFW 標(biāo)識(shí)鏈接中存在的不適宜公眾場(chǎng)合內(nèi)容。本文基于NSFW色情圖片識(shí)別模型來(lái)實(shí)現(xiàn)網(wǎng)站檢測(cè),該模型經(jīng)訓(xùn)練能對(duì)圖像進(jìn)行5個(gè)維度的檢測(cè)并輸出符合概率,因此可用于檢測(cè)URL 中圖片。5 個(gè)維度分別是:繪畫drawings、變態(tài)hentai、中立neutral、色情porn、性感sexy,其概率總和為1。

借助NSFW,本文從每個(gè)URL 中爬取所有圖片,將單個(gè)網(wǎng)站的所有圖片輸入以獲取概率結(jié)果,與設(shè)定的閾值比較,以此來(lái)判別。為避免漏報(bào),使用MAX(Porn)+MAX(Hentai)作為score 值輸出,此即網(wǎng)站的描述特征。只要某網(wǎng)站中一張圖片被判定為色情圖片,就將其識(shí)別為存在色情信息的網(wǎng)站。

本實(shí)驗(yàn)數(shù)據(jù)集構(gòu)造與前一模型相似。逐一計(jì)算URL 所對(duì)應(yīng)的score,與設(shè)定的閾值比較,如低于閾值則輸出“通過(guò)檢測(cè)”,反之判定為色情網(wǎng)站并輸出“未通過(guò)檢測(cè)”。

色情網(wǎng)站界定標(biāo)準(zhǔn)存在主觀因素,需反復(fù)調(diào)整,通過(guò)實(shí)驗(yàn)分析大量正常網(wǎng)站閾值的各項(xiàng)統(tǒng)計(jì)指標(biāo),最終將閾值取0.85 較合理。

最終以此確定色情網(wǎng)站識(shí)別模型,與博彩網(wǎng)站檢測(cè)并行,構(gòu)成一個(gè)功能較為多元的非法網(wǎng)站檢測(cè)系統(tǒng)。

3 總結(jié)

本文以非法網(wǎng)站檢測(cè)為目標(biāo),基于機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了集成博彩和色情網(wǎng)站識(shí)別的檢測(cè)系統(tǒng)。可以改進(jìn)的地方在于本系統(tǒng)目前只能針對(duì)合法網(wǎng)站數(shù)據(jù)量進(jìn)行擴(kuò)展,沒(méi)有更多的訓(xùn)練評(píng)估。未來(lái)可以考慮在非法網(wǎng)站獲取樣本,檢驗(yàn)本文的檢測(cè)算法對(duì)此類非法樣本的可靠性。

猜你喜歡
檢測(cè)模型
一半模型
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 国产高清在线精品一区二区三区| 91视频青青草| 免费全部高H视频无码无遮掩| 老司机午夜精品网站在线观看| 免费国产在线精品一区| 午夜欧美理论2019理论| 日韩国产无码一区| 国产精品13页| 国产成人久视频免费| 一级高清毛片免费a级高清毛片| 久久婷婷国产综合尤物精品| 亚洲精品动漫在线观看| 久久香蕉欧美精品| 精品人妻一区无码视频| 色香蕉影院| 无码中文字幕加勒比高清| 国产成人91精品免费网址在线| 亚洲妓女综合网995久久| 亚洲一区二区无码视频| 婷婷色中文网| 国产久草视频| 国产人人射| 中文成人在线视频| 国产毛片网站| 无码中文字幕精品推荐| 亚洲免费三区| 亚洲欧美不卡| 丝袜国产一区| 欧美在线国产| 拍国产真实乱人偷精品| 黄色免费在线网址| 污视频日本| 精品福利国产| 免费国产黄线在线观看| 区国产精品搜索视频| 亚洲成av人无码综合在线观看| 欧美成人a∨视频免费观看| 911亚洲精品| 国产精品久久久久久久伊一| 国产福利在线观看精品| 精品人妻无码中字系列| 国产精品污污在线观看网站| 国产精品白浆无码流出在线看| 欧美自拍另类欧美综合图区| 欧美精品成人一区二区视频一| 四虎影视永久在线精品| 无码粉嫩虎白一线天在线观看| 久久久精品国产亚洲AV日韩 | 久久免费视频播放| 国内精品自在自线视频香蕉| 国产综合日韩另类一区二区| AV熟女乱| 白浆视频在线观看| yjizz视频最新网站在线| 男女性色大片免费网站| 亚洲 欧美 中文 AⅤ在线视频| 少妇高潮惨叫久久久久久| 中文字幕天无码久久精品视频免费| 精品国产福利在线| 性色一区| 国产一区亚洲一区| 亚洲成人精品在线| 日本亚洲国产一区二区三区| 国产极品粉嫩小泬免费看| 欧美日韩一区二区三区在线视频| 国产亚洲欧美在线中文bt天堂| 亚洲欧美另类中文字幕| 日韩麻豆小视频| 欧美成人国产| 91在线免费公开视频| 国产精品永久不卡免费视频| 色哟哟国产精品| 久久精品国产电影| 欧美一区二区人人喊爽| 亚洲精品欧美重口| 色婷婷成人| 992tv国产人成在线观看| 最新精品国偷自产在线| 67194在线午夜亚洲| 伊人久久久久久久久久| 欧美不卡视频在线观看| 免费观看三级毛片|