999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)

2016-03-15 08:09:14袁優(yōu)
課程教育研究·中 2016年1期
關(guān)鍵詞:深度學(xué)習(xí)

【摘要】網(wǎng)頁(yè)主題爬蟲(chóng)能夠從萬(wàn)維網(wǎng)中尋找從屬于特定主題的網(wǎng)頁(yè),并對(duì)其中的關(guān)鍵詞、段落和圖像進(jìn)行保存和索引。但在網(wǎng)頁(yè)的表達(dá)形式、數(shù)量和內(nèi)容都呈現(xiàn)爆發(fā)式增長(zhǎng)的情況下,傳統(tǒng)的基于關(guān)鍵字匹配的網(wǎng)頁(yè)主題發(fā)現(xiàn)方法已經(jīng)難以有效的為爬蟲(chóng)程序進(jìn)行準(zhǔn)確的主題識(shí)別,這對(duì)于搜索引擎建立有效的網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)庫(kù)和網(wǎng)頁(yè)內(nèi)容的話題分析等關(guān)鍵應(yīng)用都是具大的挑戰(zhàn)。提出一種基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì),采用深度信念網(wǎng)絡(luò)對(duì)由文字向量表示的網(wǎng)頁(yè)內(nèi)容進(jìn)行概念表達(dá),以此構(gòu)建多層次的網(wǎng)頁(yè)主題概念特征向量,并使用支持向量機(jī)模型在新的特征表達(dá)下對(duì)網(wǎng)頁(yè)主題進(jìn)行快速識(shí)別,有效提升了爬蟲(chóng)程序?qū)W(wǎng)頁(yè)主題的識(shí)別準(zhǔn)確率。

【關(guān)鍵詞】主題爬蟲(chóng) 深度學(xué)習(xí) 深度信念網(wǎng)絡(luò) 向量空間模型 支持向量機(jī)

【Abstract】A foucsed crawler can detect the web pages belonging to certain topics through WWW as well as storing and indexing the key words, paragraphs and images in these web pages. However, currently the rapid growing of the quantities of formats and contents of web pages lead to a great challenge that the traditional topic discovery methods based on key words matching are ineffective for precise topic recognition, which also affect to the construction of web page database and topic detection of web page sessions. In this paper, we propose a design of focused crawler based on deep learning. In this method, a deep belief network is adopted to represent the potential concepts of web pages with different topics which are described as vector space model. The extracted concepts of a topic forms a feature vector which is used by a support vector machine to classify the topics of a new web page. The proposed method improves the recognition accuracy of web page topics.

【Keywords】focused crawler; deep learning; deep belief network; vector space model; support vector machine

【中圖分類(lèi)號(hào)】G64 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2016)01-0218-02

1.背景

在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天,萬(wàn)維網(wǎng)(World Wide Web,WWW)上保存了海量的信息和資源,且大多以多媒體網(wǎng)頁(yè)的形式進(jìn)行保存[1]。為了使人們能夠在海量的網(wǎng)頁(yè)資源中快速查找到感興趣的網(wǎng)頁(yè)資源,搜索引擎通過(guò)網(wǎng)頁(yè)爬蟲(chóng)(Web Crawler)收集各種網(wǎng)頁(yè),并建立基于關(guān)鍵詞或主題的索引,方便用戶的快速搜索[2]。在這種情況下,網(wǎng)頁(yè)爬蟲(chóng)程序?qū)W(wǎng)頁(yè)主題的識(shí)別能力和效率就顯得十分重要[3]。傳統(tǒng)爬蟲(chóng)程序主要是依據(jù)對(duì)網(wǎng)頁(yè)關(guān)鍵詞的匹配進(jìn)行主題識(shí)別,主要對(duì)HTML頁(yè)面中的meta字段或整個(gè)HTML文本進(jìn)行關(guān)鍵詞匹配[4]。而對(duì)特定主題的定義則為若干個(gè)關(guān)鍵詞的組合。這種基于簡(jiǎn)單文本匹配的方法對(duì)當(dāng)前復(fù)雜且種類(lèi)繁多的網(wǎng)頁(yè)是不適用的,主要原因在于網(wǎng)頁(yè)主題是一個(gè)比較復(fù)雜的概念,僅通過(guò)關(guān)鍵詞或其組合的方式難以準(zhǔn)確表達(dá)某個(gè)網(wǎng)頁(yè)主題[5, 6]。

研究者們采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法對(duì)不同主題的文本特征進(jìn)行學(xué)習(xí)和提取,并以模型參數(shù)的形式預(yù)先設(shè)置在爬蟲(chóng)程序里面,當(dāng)進(jìn)行網(wǎng)頁(yè)獲取時(shí),爬蟲(chóng)程序通過(guò)模型在線判斷一個(gè)新網(wǎng)頁(yè)所屬的主題,然后確定是否保存到數(shù)據(jù)庫(kù)中[7]。但同時(shí)我們指出,不同的機(jī)器學(xué)習(xí)模型的訓(xùn)練代價(jià)、識(shí)別效率和對(duì)網(wǎng)頁(yè)主題所蘊(yùn)含的抽象概念的表達(dá)能力各不相同。基于統(tǒng)計(jì)學(xué)習(xí)和淺層機(jī)器學(xué)習(xí)的模型由于受限于其對(duì)復(fù)雜函數(shù)的表達(dá)能力,因此在網(wǎng)頁(yè)主題爬蟲(chóng)上使用的效果并不十分理想[8]。針對(duì)目前網(wǎng)頁(yè)主題爬蟲(chóng)對(duì)網(wǎng)頁(yè)主題的識(shí)別問(wèn)題,本文提出采用基于深度學(xué)習(xí)(Deep Learning)的模型對(duì)主題進(jìn)行特征表達(dá)并使用支持向量機(jī)(Support Vector Machine,SVM)模型進(jìn)行識(shí)別。區(qū)別于傳統(tǒng)的淺層模型,深度學(xué)習(xí)模型的輸入層和輸出層之間相隔了若干個(gè)運(yùn)算層,如堆疊自動(dòng)編碼器(Stacked Auto Encoder,SAE)就是若干個(gè)自動(dòng)編碼器的疊加,深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)實(shí)質(zhì)上是一個(gè)多層的貝葉斯信念網(wǎng)絡(luò)[9]。通過(guò)多層的運(yùn)算單元疊加,可以有效提取和表達(dá)各種復(fù)雜概念,這是構(gòu)建有效主題識(shí)別模型的基礎(chǔ)。

2.主要方法

本文方法首先使用向量空間模型對(duì)網(wǎng)頁(yè)進(jìn)行向量化表達(dá),即把網(wǎng)頁(yè)轉(zhuǎn)化為詞向量,在本研究中對(duì)中英文網(wǎng)頁(yè)分別使用不同的基礎(chǔ)向量,這是由于中文和英文的詞集是不同的。使用分詞軟件對(duì)網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行過(guò)濾和分詞,并把分詞結(jié)果記錄在一個(gè)m維布爾向量中,若該網(wǎng)頁(yè)含有第i個(gè)基本詞,則該向量的第i位為1,反之為0。在此基礎(chǔ)上構(gòu)建深度信念網(wǎng)絡(luò),它本質(zhì)上是一個(gè)多層神經(jīng)網(wǎng)絡(luò),通過(guò)訓(xùn)練它可以以最大的后驗(yàn)概率去生成數(shù)據(jù)。對(duì)于每一層,其輸出均可以看作是對(duì)輸入的重新編碼,但要求得到的新編碼能依概率還原本來(lái)的輸入,深度學(xué)習(xí)模型正是通過(guò)這種不斷的重新編碼發(fā)現(xiàn)隱含概念。圖1給出了一個(gè)深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)。

圖1. 深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)

使用已經(jīng)標(biāo)注主題且以向量空間模型表達(dá)的網(wǎng)頁(yè)數(shù)據(jù)對(duì)DBN進(jìn)行訓(xùn)練,其目標(biāo)是通過(guò)正向(輸入層至輸出層)的數(shù)據(jù)通路得出在當(dāng)前權(quán)重下的模型輸出,與有監(jiān)督數(shù)據(jù)中的網(wǎng)頁(yè)真實(shí)主題信息進(jìn)行比較,若發(fā)現(xiàn)模型的輸出有錯(cuò)誤,則通過(guò)反向傳播從輸出層至輸入層逐層調(diào)整權(quán)重,最終使模型的輸出與真實(shí)的主題信息一致。取訓(xùn)練后的模型權(quán)重矩陣作為網(wǎng)頁(yè)爬蟲(chóng)程序在分析網(wǎng)頁(yè)的主題信息時(shí)的模型參數(shù)。需要指出的是,在圖1所示的DBN網(wǎng)絡(luò)中,其輸出層是一個(gè)多路的支持向量機(jī)分類(lèi)器,該SVM的輸入是第t-1層的概念表達(dá)。如前所述,在DBN 中,每一層均是對(duì)前一層輸出特征向量的一種重新表達(dá),以盡可能還原原來(lái)的輸入信息為約束。因此,SVM分類(lèi)器模型所得到的是一組抽象層次相當(dāng)高的概念。在模型中通過(guò)改變每一層的節(jié)點(diǎn)數(shù)量對(duì)概念的表達(dá)長(zhǎng)度進(jìn)行壓縮,在本研究中SVM的輸入僅為模型輸入長(zhǎng)度的■。

令網(wǎng)頁(yè)的向量空間表達(dá)的特征向量長(zhǎng)度為d,即每個(gè)網(wǎng)頁(yè)pi為一個(gè)d維布爾向量,深度信念網(wǎng)絡(luò)執(zhí)行基于概率的特征表達(dá)轉(zhuǎn)換,如公式(1)所示:

p(x,y,h|?茲)=■(1)

其中?茲={b,c,d,W1,W2},E(·)是一個(gè)能量函數(shù),模擬能量從輸入層到輸出層的傳播,E(·)的定義如公式(2)所示:

E(x,y,h|?茲)=-bTx-cTh-dTy-xTW1h-hTW2y(2)

而Z(?茲)是一個(gè)邊緣分布函數(shù),定義為:

Z(?茲)=■exp(-E(x,y,h|?茲))(3)

在支持向量機(jī)作為輸出層的情況下,一個(gè)網(wǎng)頁(yè)x被分類(lèi)為屬于某個(gè)主題yi的概率為:

p(yi=1|x)=■sig(cj+W■■+(W■■)Tx)(4)

其中sig(·)為sigmoid函數(shù)。結(jié)合公式(1)至(4),可以得到給定網(wǎng)頁(yè)x,它的主題向量的預(yù)測(cè)分布概率表達(dá)式:

p(y|x)=■(5)

本文方法的訓(xùn)練時(shí)間復(fù)雜度較高,但由于訓(xùn)練只需進(jìn)行一次,把得到的權(quán)重矩陣W放在分類(lèi)器中,測(cè)試時(shí)根據(jù)公式(5)可以直接得到主題向量的預(yù)測(cè)分布,需要O(mn)的計(jì)算量。

3.實(shí)驗(yàn)

采用一個(gè)互聯(lián)網(wǎng)上公開(kāi)的網(wǎng)頁(yè)數(shù)據(jù)集“THE 4 UNIVERSITIES DATASET”對(duì)本文方法進(jìn)行測(cè)試,該數(shù)據(jù)集收集了幾所大學(xué)的計(jì)算機(jī)系網(wǎng)站上的網(wǎng)頁(yè),包含了7個(gè)分類(lèi),分別是Student、Faculty、Staff、Department、Course、Project和Other。一共包含8282個(gè)網(wǎng)頁(yè),平均網(wǎng)頁(yè)大小為26k。實(shí)驗(yàn)中僅對(duì)網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行分析,先對(duì)每個(gè)網(wǎng)頁(yè)生成一個(gè)15000維的詞向量,然后使用深度信念網(wǎng)絡(luò)進(jìn)行概念提取,得到一個(gè)102維的特征向量,最后使用多分類(lèi)的支持向量機(jī)進(jìn)行網(wǎng)頁(yè)主題的分類(lèi)。根據(jù)經(jīng)驗(yàn),深度信念網(wǎng)絡(luò)設(shè)計(jì)為15層,每層的節(jié)點(diǎn)數(shù)量遞減10%。訓(xùn)練集和測(cè)試集按3:7的比例從整個(gè)數(shù)據(jù)集中隨機(jī)抽取進(jìn)行構(gòu)建。為了增加主題識(shí)別結(jié)果的穩(wěn)定性,進(jìn)行了10次隨機(jī)的劃分,并取其識(shí)別正確率的平均值作為最終的結(jié)果。表1列出了本文方法對(duì)每個(gè)類(lèi)別的識(shí)別正確率和CPU運(yùn)行時(shí)間。

表1 算法在評(píng)估數(shù)據(jù)集上的正確率

從表1中可以看出,本文方法對(duì)實(shí)驗(yàn)數(shù)據(jù)集的主題有較高的識(shí)別率,且對(duì)單個(gè)網(wǎng)頁(yè)的運(yùn)行時(shí)間非常短,從而說(shuō)明該方法對(duì)于提高主題爬蟲(chóng)在識(shí)別網(wǎng)頁(yè)主題時(shí)的有效性和效率。

4.結(jié)論

本文提出了使用深度學(xué)習(xí)算法構(gòu)建網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)方案,設(shè)計(jì)了一種多層的深度信念網(wǎng)絡(luò),對(duì)多個(gè)受限波特曼機(jī)模型進(jìn)行堆疊,有效解決了對(duì)網(wǎng)頁(yè)主題的內(nèi)在概念的特征提取問(wèn)題,使用支持向量機(jī)模型對(duì)經(jīng)過(guò)概念轉(zhuǎn)換表達(dá)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類(lèi),在測(cè)試數(shù)據(jù)集上表明本文方法有較高的準(zhǔn)確率且運(yùn)行速度較快,從而說(shuō)明本文方法的有效性。

參考文獻(xiàn):

[1]L.Deng and D.Yu, “Deep learning: Methods and applications,” Found. Trends Signal Process., vol.7, no.4, pp. 197–387, Jun. 2014.

[2]M.Spencer, J.Eickholt, and J.Cheng, “A deep learning network approach to ab initio protein secondary structure prediction,” IEEE/ACM Trans. Comput. Biol. Bioinformatics, vol.?12, no.1, pp. 103–112, Jan. 2015.

[3]J.Fu, T.Mei, K.Yang, H.Lu, and Y.Rui, “Tagging personal photos with transfer deep learning,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 344–354.

[4]Z.Zuo, G.Wang, B.Shuai, L.Zhao, and Q.Yang, “Exemplar based deep discriminative and shareable feature learning for scene image classification,” Pattern Recogn., vol.48, no.10, pp. 3004–3015, Oct. 2015.

[5]N.Srivastava and R.Salakhutdinov, “Multimodal learning with deep boltzmann machines,” J. Mach. Learn. Res., vol.15, no.1, pp. 2949–2980, Jan. 2014.

[6]A.M. Elkahky, Y.Song, and X.He, “A multi-view deep learning approach for cross domain user modeling in recommendation systems,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 278–288.

[7]W.Zhang, R.Li, T.Zeng, Q.Sun, S.Kumar, J.Ye, and S.Ji, “Deep model based transfer and multi-task learning for biological image analysis,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ser. KDD 15. New York, NY, USA: ACM, 2015, pp. 1475–1484.

[8]H.Wang, N.Wang, and D.-Y. Yeung, “Collaborative deep learning for recommender systems,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ser. KDD 15. New York, NY, USA: ACM, 2015, pp. 1235–1244.

[9]K.Jung, B.-T. Zhang, and P.Mitra, “Deep learning for the web,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15 Companion. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 1525–1526.

作者簡(jiǎn)介:

袁優(yōu)(1981-),女,湖北人,大學(xué)本科,講師。研究方向:智能信息系統(tǒng),統(tǒng)計(jì)學(xué)習(xí)。

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 亚洲视频在线网| 在线网站18禁| 99久久精彩视频| 色偷偷一区| 一级片免费网站| 青青草国产精品久久久久| 欧美黑人欧美精品刺激| 人妻一本久道久久综合久久鬼色| 狠狠色噜噜狠狠狠狠奇米777 | 国产精品成人观看视频国产| 欧美精品在线视频观看| 91精品久久久无码中文字幕vr| 日韩一级二级三级| 亚洲国产中文在线二区三区免| 在线看片中文字幕| 中国毛片网| 国产网友愉拍精品视频| 午夜啪啪福利| 精品人妻一区无码视频| 国产精品va免费视频| 一级毛片在线直接观看| 亚洲精品午夜无码电影网| 无码AV高清毛片中国一级毛片| AV无码国产在线看岛国岛| 中文字幕久久波多野结衣| 国产在线观看精品| 中文字幕在线日韩91| 欧美伊人色综合久久天天| 国产在线八区| 老司国产精品视频91| 无码日韩人妻精品久久蜜桃| a级毛片在线免费| 午夜在线不卡| 色国产视频| 国产精品尤物在线| 國產尤物AV尤物在線觀看| 天天色天天操综合网| 亚洲日本在线免费观看| 亚洲精品福利视频| 国产精品福利社| 免费不卡视频| 91精品网站| 欧美一级视频免费| www.99在线观看| 国产91精品调教在线播放| 找国产毛片看| 在线观看国产小视频| 制服丝袜一区二区三区在线| 麻豆精品在线视频| 久久国产精品影院| 亚洲综合在线最大成人| 一本大道香蕉高清久久| 亚洲成aⅴ人片在线影院八| 国产成人精品免费视频大全五级| 国产精品一区二区在线播放| 欧美亚洲综合免费精品高清在线观看 | 久久无码av三级| 久久亚洲精少妇毛片午夜无码| 在线不卡免费视频| 72种姿势欧美久久久久大黄蕉| 国产91精品久久| 2020精品极品国产色在线观看 | 91精品国产情侣高潮露脸| 亚洲成网777777国产精品| 99久久国产综合精品2023| 国产成人综合亚洲欧美在| 久久久久亚洲Av片无码观看| 亚洲成人网在线观看| 999福利激情视频| 精品一区国产精品| 午夜a视频| 久久久噜噜噜久久中文字幕色伊伊| 亚洲一区国色天香| 伊人色天堂| 亚洲精品日产AⅤ| 国产在线八区| a毛片基地免费大全| 中文字幕人妻av一区二区| 欧洲亚洲一区| 成人国产免费| 亚洲第一极品精品无码| 精品国产自|