999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高職院校教育信息爬取與數據分析研究

2021-10-29 12:18:18劉雷胡文利
網絡安全技術與應用 2021年10期
關鍵詞:頁面高職策略

◆劉雷 胡文利

高職院校教育信息爬取與數據分析研究

◆劉雷 胡文利

(江西工業職業技術學院 江西 330039)

基于高職院校的信息爬取采用了一種綜合數據爬取方法,該方法使用了深度優先及反鏈優先策略相結合技術,開發了一個根據關鍵詞檢索高職教育教學信息的檢索系統,為高職院校的信息爬取及檢索工作提出了一種方法,以供相關研究參考。

高職院校;網絡爬蟲;爬蟲分類;高職教育

1 引言

在當代大數據背景下,各行業對數據獲取的準確性提出了越來越高的要求,在這種趨勢下,需要優化檢索方法以精準地獲取目標的準確信息。從現階段來看,各大搜索引擎技術可以滿足部分需求,但是搜索引擎所獲取的數據大多被廣告和其他不需要信息所占滿,如何精準獲取到自己想要的數據,特別是行業數據,現階段可以利用爬蟲技術進行分析,通過網絡爬蟲技術,提高數據檢索質量。

在此背景下,如何利用深度挖掘數據技術,以便使優質教育教學資源實現共享。通過使優質的教育教學資源的共享能夠逐漸縮小到不同地域、不同學校,從而減少資源的差異性。為了提升高職教育教學的質量,利用深度挖掘數據技術,以便使優質教育教學資源實現共享。

2 爬蟲分類

現階段,網絡類型的爬蟲有很多種類,實現的方式方法大同小異,現將網絡上典型的兩種爬蟲進行分類分析,包括通用型爬蟲和聚焦型爬蟲。

2.1 通用類型爬蟲

通用型爬蟲的爬取步驟一般分為四個:

第一步:通用型爬蟲先進行網絡地址初始化。初始化的網絡地址可以是一個也可以是多個,網絡地址由用戶自行選擇。

第二步:網絡爬蟲依據用戶輸入的網址,開始爬取網址對應的頁面,并對頁面中的獲取信息數據存儲到原始數據庫中,在存儲數據的同時,將頁面中發現的新的網絡地址,存放到預先設置的URL列表中,當數據保存完成后,再用于判定是否開啟新的進程用于逐條爬取URL列表中的網址。

第三步:將URL列表中的網址根據第二步的算法進行爬取新的頁面數據和新的URL網址,分別存放到數據庫和URL列表中,重復二、三步過程。

第四步:在URL列表中或者根據用戶預先設置的停止條件,停止數據爬取。并將數據庫中的信息進行賽選分析,獲得可用信息,其流程圖如圖1所示:

圖1 通用網絡爬蟲采集數據流程圖

2.2 聚焦類型爬蟲

聚焦型爬蟲與通用型爬蟲相類似,但是其更具有目的性,因此相比于通用型爬蟲而言,添加了目標的定義和URL過濾機制,即在通用型爬蟲基礎上額外添加三個關卡,包括目標的定義、鏈接的過濾及URL篩選功能。其步驟如下所示:

第一步對需要爬取的內容進行范圍劃定,選取爬取目標。找到需要爬取內容相關的網站URL,以便爬取的范圍具有相關性,并且將爬取范圍縮小。

第二步:針對性的選取URL進行初始化。初始化的URL 可以是一個也可以是多個,URL地址由用戶自行選擇,一般情況下根據需要爬取的行業網址進行選擇。

第二步:網絡爬蟲依據用戶輸入的網址,開始爬取網址對應的頁面,并對頁面中的獲取信息數據存儲到原始數據庫中,在存儲數據的同時,在所檢索的頁面中發現新的網絡地址時,便開始從新的網絡地址中獲取目標信息,并將過濾掉的URL存放到預先設置的URL列表中,當數據保存完成后,再從網絡地址隊列中,根據網絡地址的檢索算法,設置其訪問優先級別,通過優先級別,來設置下一個目標地址。用于判定是否開啟新的進程用于逐條爬取URL列表中的網址。因為不同的爬取檢索順序,可能導致爬取效率和結果不同。

第三步:將URL列表中的網址根據第二步的算法進行爬取新的頁面數據和新的URL網址,分別存放到數據庫和URL列表中,重復二、三步過程。

第四步:在URL列表中或者根據用戶預先設置停止條件,便停止檢索頁面中的數據操作。并將數據庫中的信息進行賽選分析,獲取到有用的信息。其流程圖如圖2所示:

圖2 聚焦類型爬蟲采集數據流程圖

3 爬行策略分析

上面針對爬蟲的分類進行了簡要描述,但是網絡數據爬取的過程中,針對URL列表中多個URL網址數據,如何選取合適的爬取順序,是一個關鍵。通常情況下,針對通用型爬蟲來說,爬取的順序選擇對數據爬取的結果和效率影響不大,但是針對通用型爬蟲爬取數據量大且內容相識度可能不高,冗余量非常大。相對于聚焦類型的爬蟲來說,所需要檢索的數據具有很強的目的性,因此選擇爬取URL網址的順序至關重要,因為選擇不同的爬行策略會大大影響爬行的結果和效率。下面針對一些常用的爬行策略,進行分別介紹。

常見的爬行策略包括深度算法優先、廣度算法優先、大型網站優先、反鏈式優先策略等。

3.1 深度算法優先策略

如圖3所示,假如網絡上有一個待爬取的網站,A1,A2,A3,An,A11,A12,A1n,A31,A32,A33,A121,A122,A12n,這些頁面分別是該網站下的不同頁面,其箭頭是網頁所在網絡層次結構。

圖3 待爬取網站頁面網絡層次結構表現圖

假設該網站的網頁A1,A2,A3,An,A11,A12,A1n,A31,A32,A33等在等待隊列中排序,根據現有的爬行策略,所獲取的數據結果是不同的。

如果按照深度算法優先去爬取數據的話,此時會先爬取第一個目標網頁,然后根據這個網頁的下一層網絡超級鏈接依次深入爬取完整個目錄結構再返回到上一層目錄結果進行數據爬取。

按照深度算法優先的爬行策略規則,圖3-3網站中的頁面檢索順序是:

A1→A11→A12→A121→A122→A12n→A1n→A2→A3→A31→A32→A33→An。

如果按照廣度算法優先規則去爬取數據,在這種情況下,爬取第一個網絡目標網頁,然后在該頁面同層次的其他網頁將會在后續的爬取隊列中等待,待將該層次的所有頁面遍歷完成后,在爬取該頁面的其他層次頁面繼續遍歷,直至該網站的所有頁面被遍歷完全。因此,按照廣度算法優先的策略,圖3網站中的頁面檢索順序是:

A1→A2→A3→An→A11→A12→A1n→A31→A32→A33→A121→A122→A12n。

除以上兩種爬行算法策略外,大型網站優先爬行算法策略也經常使用。在該種策略算法中,會將網站中的所有對應網頁進行分類,如若頁面數量很多的情況下,該網站統稱為大站,如果按照大站優先策略,網頁數目越多的網站優先爬取。

反鏈優先策略是根據該網頁被其他網頁指向或者引用的次數,因為這個次數在一定程度上表示該網頁被其他同類網頁引用、推薦的次數。因此,如果按反鏈優先策略去爬取數據的話,這種反鏈數量越多,該網頁將會被優先爬取。

4 數據的爬取與實現

基于高職院校的信息爬取采用了綜合爬取方法,該方法使用了深度優先及反鏈優先策略的結合技術,開發了一個根據關鍵詞檢索高職教育教學信息的檢索系統,該系統將網絡中零散的數據信息,通過在線數據分析,將符合條件的URL保存到線下數據庫中。具體方法簡要描述如下:

(1)為了爬取目標數據,檢索網頁中的網絡關鍵詞,并將獲取的數據進行分類統計分析,在所有網頁中獲取到最有結果即為符合條件的最優質網頁。

(2)將有可能在爬取過程中丟失的數據,使用pandas 包進行二次處理,并將獲取的網絡地址信息存放到數據庫中或者本地表格中。

(3)將數據進行數據在處理,該操作包括數據預處理,數據在分析,保存操作等。

(4)綜合測試,將所爬取的數據進行綜合分析并測試,得到最后的爬取結果。

5 總結

文章首先對網絡爬蟲進行了簡要的描述和分類,爬蟲包括通用類型爬蟲,聚焦類型爬蟲。但是針對通用類型爬蟲爬取數據量大且內容相識度可能不高。相對于聚焦類型爬蟲而言,所需要的爬取數據具有很強的目的性,因此根據該特性,描述了常用的爬行策略,包括深度算法優先、廣度算法優先、大型網站優先、OPIC策略等。選擇不同的爬取策略會大大影響爬取的結果和效率。基于高職院校的信息爬取采用了綜合爬取方法,該方法使用了深度優先及反鏈優先策略的結合技術,開發了一個根據關鍵詞檢索高職教育教學信息的檢索系統,系統仍處于試用階段,仍有爬取耗時多、爬取數據精準度不夠等問題,仍需繼續進一步完善。

[1]李連天.基于大數據技術的崗位信息爬取與分析[J].信息與電腦(理論版),2021,33(02):177-180.

[2]簡悅,汪心瀛,楊明昕.基于Python的豆瓣網站數據爬取與分析[J].電腦知識與技術,2020,16(32):51-53.

[3]劉曉知.基于Python的招聘網站信息爬取與數據分析[J].電子測試,2020(12):75-76+110.

[4]傅駿,鄭丁元,張峻寧,莫成,高一心.Python爬蟲技術在文獻計量學中應用實踐[J].計算機產品與流通,2019(07):133.

[5]仇明.一種教育輿情的爬蟲程序設計[J].河北軟件職業技術學院學報,2021,23(01):12-14+18.

大數據時代下基于Python的高職教育信息爬取與數據分析(項目類型:一般項目,項目編號:GJJ191677)

猜你喜歡
頁面高職策略
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
例談未知角三角函數值的求解策略
我說你做講策略
高職應用文寫作教學改革與創新
活力(2019年21期)2019-04-01 12:18:24
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
高職人才培養模式創新探討
Passage Four
海峽影藝(2012年1期)2012-11-30 08:15:44
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 波多野结衣爽到高潮漏水大喷| 天天色综网| 99成人在线观看| 免费人成视频在线观看网站| 91亚洲精选| 在线看片中文字幕| 国产人碰人摸人爱免费视频| 国产午夜不卡| 精品国产女同疯狂摩擦2| 福利姬国产精品一区在线| 特级aaaaaaaaa毛片免费视频| 国产成人综合网在线观看| www.91在线播放| 国产精鲁鲁网在线视频| 波多野结衣视频网站| 亚洲欧美日韩视频一区| 日本欧美一二三区色视频| 亚洲二区视频| 无码精油按摩潮喷在线播放| 日韩无码黄色网站| 欧美不卡二区| av尤物免费在线观看| 美女无遮挡免费视频网站| 麻豆精选在线| 啪啪啪亚洲无码| 91午夜福利在线观看精品| 久久久久免费精品国产| 国产高清无码第一十页在线观看| 亚洲精品在线91| 国产成人综合日韩精品无码首页 | 国产精彩视频在线观看| 亚洲精品不卡午夜精品| 亚洲人成亚洲精品| 国产精品尤物在线| 午夜毛片福利| 色悠久久久| 国产激情国语对白普通话| 91网站国产| 色综合激情网| 国产高清色视频免费看的网址| 国产极品美女在线观看| 日韩欧美综合在线制服| 亚洲视频无码| 国产精品自拍露脸视频| 高潮毛片无遮挡高清视频播放| 亚洲成a人片| 国产H片无码不卡在线视频| 91精选国产大片| 毛片久久网站小视频| 国产精品人人做人人爽人人添| 国产精品第一区在线观看| 免费在线播放毛片| 国产乱子伦一区二区=| 欧美日韩一区二区三区四区在线观看| 国产亚洲成AⅤ人片在线观看| 国产福利一区在线| 亚洲一本大道在线| AV不卡在线永久免费观看 | 婷婷99视频精品全部在线观看| 国产黄色片在线看| 久久99国产综合精品1| 亚洲最大情网站在线观看| 亚洲无线视频| 欧美三級片黃色三級片黃色1| 欧美国产日韩在线观看| 欧美a网站| 国产中文一区a级毛片视频| 91视频青青草| 免费A∨中文乱码专区| 婷婷综合缴情亚洲五月伊| 99热6这里只有精品| 久久午夜夜伦鲁鲁片不卡| 玖玖免费视频在线观看| 国产美女一级毛片| 2022国产无码在线| 国产福利在线免费观看| 九九热精品免费视频| 国产99热| 无码有码中文字幕| 国产欧美日韩综合在线第一| 久久这里只有精品免费| 伊人网址在线|