999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

2019-11-05 07:45:15熊輝
科技視界 2019年28期
關(guān)鍵詞:信息化設(shè)計(jì)

熊輝

【摘 要】面對(duì)高速發(fā)展的經(jīng)濟(jì)以及科技新突破給我國(guó)帶來(lái)的翻天覆地變化,互聯(lián)網(wǎng)已經(jīng)普及國(guó)內(nèi)外,人們的生活也因科技的作用而便利了很多,但科技是一把“雙刃劍”,互聯(lián)網(wǎng)的高速發(fā)展與各種信息的傳播也讓給我們帶來(lái)了“信息污染”,一時(shí)間很難辨別信息的正確性。對(duì)于校園數(shù)字化建設(shè)來(lái)說(shuō),也同樣不可避免的會(huì)受到“信息污染”的干擾,各種無(wú)效信息使我們對(duì)正確信息的查找與定位變得艱難,而調(diào)查發(fā)現(xiàn)對(duì)于很多學(xué)校來(lái)說(shuō),大多是運(yùn)用很普通的搜索引擎檢索信息,而普通的搜索引擎難以搜集到有效、正確的信息。針對(duì)上述問(wèn)題,為了還學(xué)校一個(gè)高效、清凈的信息環(huán)境,筆者將結(jié)合Python技術(shù)對(duì)校園網(wǎng)的搜索引擎進(jìn)行相關(guān)介紹和設(shè)計(jì),設(shè)計(jì)方案僅供參考。

【關(guān)鍵詞】Python技術(shù);校園網(wǎng)搜索引擎;設(shè)計(jì);信息化;信息污染

中圖分類(lèi)號(hào): TP391.3;TP393.18文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)28-0173-002

DOI:10.19694/j.cnki.issn2095-2457.2019.28.079

【Abstract】In the face of the rapid development of the economy and new breakthroughs in science and technology to bring about great changes in our country, the Internet has been popularized at home and abroad, people's lives are also because of the role of science and technology and facilitate a lot, but science and technology is a "double-edged sword", the rapid development of the Internet and the dissemination of various information has also brought us "information pollution", It's hard to tell the correctness of information for a while. For the campus digital construction, is also inevitable by the "information pollution" interference, all kinds of invalid information makes us to find and locate the correct information become difficult, and the survey found that for many schools, most lying through a very common search engine to retrieve information, and ordinary search engines difficult to collect effective, The right information. In view of the above-mentioned problems, in order to return the school an efficient and clean information environment, the author will combine Python technology on the campus network search engine related introduction and design, design design for reference only.

【Key words】Python technology; Campus web search engine; Design; Information; Information pollution

21世紀(jì)是一個(gè)經(jīng)濟(jì)高速發(fā)展,高度信息化的社會(huì),互聯(lián)網(wǎng)在我國(guó)境內(nèi)幾乎已經(jīng)全覆蓋,通過(guò)它人們不出門(mén)就能夠獲取各種各樣的信息,但如今隨著它的高速發(fā)展,各種各樣的網(wǎng)絡(luò)信息也隨處都是,人們有時(shí)候很難在第一時(shí)間找到自己想要的信息,因此要想讓自己的信息搜索效率提高就需要改進(jìn)搜索引擎,好的搜索引擎能夠極大的幫助人們獲取自己想要的信息。本文將主要針對(duì)校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行探討,而要將校園網(wǎng)搜索引擎設(shè)計(jì)好則需要運(yùn)用Python技術(shù),筆者下文將對(duì)此展開(kāi)分析,第一,從建立校園網(wǎng)搜索引擎的相關(guān)流程展開(kāi):首先構(gòu)建設(shè)計(jì)框架,然后再利用反向引擎進(jìn)行索引。第二,對(duì)scrapy爬蟲(chóng)框架運(yùn)用于校園網(wǎng)搜索引擎的設(shè)計(jì)進(jìn)行詳細(xì)介紹:首先解釋Scrapy爬蟲(chóng)框架的含義以及其運(yùn)行步驟,然后在Scrapy爬蟲(chóng)對(duì)URL進(jìn)行查重種推薦更有效的算法進(jìn)行查重,最后對(duì)寫(xiě)完爬蟲(chóng)后要進(jìn)行相關(guān)的設(shè)置進(jìn)行簡(jiǎn)單介紹。

1 建立搜索引擎的相關(guān)流程

1.1 首先建立框架

要想將校園搜索引擎建立好首先就要將設(shè)計(jì)的流程先分析好,然后再對(duì)Python語(yǔ)言中的Scrapy開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)結(jié)構(gòu)進(jìn)行分析然后做設(shè)計(jì),這之后要進(jìn)行分析以Python語(yǔ)言為基礎(chǔ)的Whoosh索引檢索庫(kù),最后還要測(cè)試自己建構(gòu)的系統(tǒng)的實(shí)際效用。

1.2 什么是網(wǎng)絡(luò)爬蟲(chóng)

網(wǎng)絡(luò)爬蟲(chóng)的前身是“網(wǎng)絡(luò)漫游者”,1993年時(shí)已經(jīng)誕生。“網(wǎng)絡(luò)漫游者”被稱(chēng)作網(wǎng)絡(luò)機(jī)器人,是全世界中第一個(gè)出現(xiàn)的網(wǎng)絡(luò)爬蟲(chóng)程序。之所以將其網(wǎng)絡(luò)爬蟲(chóng)是因?yàn)樗軌蚶脠D論程序中的遍歷算法將互聯(lián)網(wǎng)中充斥的信息下載下來(lái),而若要建立搜索引擎,利用圖論程序中的遍歷算法先下載互聯(lián)網(wǎng)的信息這個(gè)步驟是必不可少的。此方法目的是要利用互聯(lián)網(wǎng)中的每個(gè)網(wǎng)頁(yè)中的超鏈接將每個(gè)網(wǎng)頁(yè)相互連接,即將互聯(lián)網(wǎng)比作一張巨大的網(wǎng)絡(luò),里面的每個(gè)網(wǎng)頁(yè)比作一個(gè)點(diǎn),然后利用網(wǎng)頁(yè)的超鏈接將每個(gè)網(wǎng)頁(yè)鏈接,這樣才能為搜索引擎的有效使用打好堅(jiān)實(shí)的基礎(chǔ)。

1.3 利用搜索引擎進(jìn)行索引

要進(jìn)行有效的索引必須進(jìn)行布爾集合運(yùn)算,這是所有搜索引擎的基礎(chǔ),無(wú)論其設(shè)計(jì)的引擎有多么高端智能,都要運(yùn)用該運(yùn)算,總之布爾運(yùn)算是索引的核心。布爾運(yùn)算的三個(gè)運(yùn)算邏輯是and、or和not,O與I是該運(yùn)算主要使用的值。

索引包括正向索引和反向索引。其中正索引是先把每篇文章中的關(guān)鍵詞圈出并建立集合,然后再將關(guān)鍵詞提取出來(lái),索引程序會(huì)將每一個(gè)關(guān)鍵詞出現(xiàn)的位置以及次數(shù)記下,進(jìn)行正索引時(shí)就能夠有效的對(duì)文檔中的關(guān)鍵詞進(jìn)行有效的查詢(xún)、索引、分析,注意正向索引以遍歷掃描為基礎(chǔ),要掃描所有文檔關(guān)鍵詞得出結(jié)論,。而且這個(gè)過(guò)程會(huì)受到系列因素的限制,比如內(nèi)存、處理器和時(shí)間等,這就導(dǎo)致工作效率不高。因此我們實(shí)際工作中主要是對(duì)反向索引進(jìn)行設(shè)計(jì)和運(yùn)用,反向索引以“單詞——文檔矩陣”為結(jié)構(gòu),可以通過(guò)關(guān)鍵詞快速的搜索自己想要查詢(xún)信息,因此對(duì)于校園網(wǎng)搜索引擎的設(shè)計(jì),筆者是運(yùn)用反向索引程序進(jìn)行索引。

2 將scrapy爬蟲(chóng)框架運(yùn)用于校園網(wǎng)搜索引擎中

2.1 Scrapy爬蟲(chóng)框架的介紹以及運(yùn)行步驟

Scrapy是一種爬蟲(chóng)框架,它的效用發(fā)揮需要以Python語(yǔ)言技術(shù)為基礎(chǔ),這種爬蟲(chóng)結(jié)構(gòu)進(jìn)入到網(wǎng)站數(shù)據(jù)中就能夠提取想要的數(shù)據(jù)信息。不僅如此,而且它對(duì)數(shù)據(jù)的挖掘、歷史數(shù)據(jù)的存儲(chǔ)、自動(dòng)測(cè)試和檢測(cè)以及信息的處理方面都起來(lái)重要的作用,應(yīng)用廣泛。

Scrapy的運(yùn)行步驟主要包括四步。第一,為了能夠?qū)ξ磥?lái)信息進(jìn)行有效抓取,需要在基于Scrapy爬蟲(chóng)框架的校園網(wǎng)搜索引擎的調(diào)度器中提取URL(連接)。第二,利用該引擎將連接(URL)變成一個(gè)請(qǐng)求通過(guò)下載器傳送并且通過(guò)下載器將其下載下來(lái),之后嘴周會(huì)將其包裝變成相應(yīng)的回答。第三,scrapy爬蟲(chóng)接受應(yīng)答。第四,爬蟲(chóng)接收后若解讀出實(shí)體則將其交給管道進(jìn)行在處理,而如果解析出的是URL(連接)則將其床給調(diào)度器,最后信息就會(huì)被抓取。

2.2 利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重

利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重,主要是利用RFP Dupe Filter類(lèi)進(jìn)行實(shí)現(xiàn)的,這個(gè)過(guò)程的實(shí)現(xiàn)需要輸入一系列代碼,這之后就能夠?qū)π畔⑦M(jìn)行有效的查重。這個(gè)過(guò)程中Scrapy有自帶的算法對(duì)URL查重,但是因?yàn)榫W(wǎng)頁(yè)數(shù)量的巨大,而且查重過(guò)程還會(huì)占用很大的內(nèi)存,因此該算法存在一定的缺陷,不太能適用。所以利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重時(shí)推薦用Bloom Filter算法,筆者運(yùn)用此算法可以利用布隆過(guò)濾器節(jié)省大量的內(nèi)存。

2.3 寫(xiě)完爬蟲(chóng)后要進(jìn)行相關(guān)的設(shè)置

一般寫(xiě)完爬蟲(chóng)之后不做另外的設(shè)置的話(huà),那么對(duì)網(wǎng)站訪(fǎng)問(wèn)時(shí)就會(huì)被立刻禁止,所以寫(xiě)完爬蟲(chóng)不能直接默認(rèn),要進(jìn)行相關(guān)設(shè)置,有兩種方法可供選擇。第一中方法可以在settings-py的文件中對(duì)download-delay程序進(jìn)行相關(guān)的設(shè)置,為了能夠有效降低爬蟲(chóng)爬取頻率要對(duì)其賦值1s以上,不過(guò)這種方法的缺點(diǎn)是會(huì)使抓取目標(biāo)的時(shí)間延長(zhǎng)。第二種方法可以運(yùn)用user agent池,筆者運(yùn)用這種設(shè)置方法后可以更加高效的縮短抓取目標(biāo)的時(shí)間,因此推薦在此過(guò)程中運(yùn)用第二種方法對(duì)爬蟲(chóng)進(jìn)行相關(guān)設(shè)置,以免Scrapy爬蟲(chóng)被禁止。

3 結(jié)語(yǔ)

綜合上述分析可知,要運(yùn)用python技術(shù)建立高效的校園網(wǎng)搜索引擎是一個(gè)科技含量高且難度大的工程,但為了校園網(wǎng)絡(luò)的清凈,筆者認(rèn)為學(xué)校還是很有必要跟上科技的潮流,對(duì)學(xué)校的相關(guān)搜索引擎進(jìn)行改善。本文針對(duì)如今“信息污染”嚴(yán)重化的問(wèn)題對(duì)基于python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了相應(yīng)的分析,主要是為同行提供了筆者認(rèn)為在索引中更加有效的方法,而且在實(shí)際的測(cè)試中通過(guò)相應(yīng)的技術(shù)改進(jìn)和正確的方法可以有效的控制索引更新的速度從而提高其更新的頻率,使校園網(wǎng)收取信息更及時(shí),并且筆者利用Python技術(shù)使搜索程序簡(jiǎn)單化、高效化。希望上述方法能給相關(guān)從業(yè)者提供有價(jià)值的參考,讓搜索引擎更加高效,還學(xué)校、社會(huì)一個(gè)更加清凈的“信息社會(huì)”。

【參考文獻(xiàn)】

[1]陳道存[1],劉斌[2],張?chǎng)蝃3].高校FTP搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].蚌埠學(xué)院學(xué)報(bào),2015(3):1-5.

[2]楊國(guó)志,江業(yè)峰.基于python的聚焦網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].科學(xué)技術(shù)創(chuàng)新,2018(2):73-74.

[3]陳蒙,王鋒,鄧輝,etal.基于Python的天文軟件命令行界面設(shè)計(jì)與實(shí)現(xiàn)[J].天文研究與技術(shù),2015,12(2):196-203.

[4]王天奇,管新潮.語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的技術(shù)拓展——《Python文本分析:用可實(shí)現(xiàn)的方法挖掘數(shù)據(jù)價(jià)值》評(píng)介[J].外語(yǔ)電化教學(xué),2017(05):94-97.

猜你喜歡
信息化設(shè)計(jì)
月“睹”教育信息化
月“睹”教育信息化
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
何為設(shè)計(jì)的守護(hù)之道?
《豐收的喜悅展示設(shè)計(jì)》
流行色(2020年1期)2020-04-28 11:16:38
“云會(huì)計(jì)”在中小企業(yè)會(huì)計(jì)信息化中的應(yīng)用分析
活力(2019年21期)2019-04-01 12:16:40
瞞天過(guò)海——仿生設(shè)計(jì)萌到家
設(shè)計(jì)秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計(jì)叫而專(zhuān)
Coco薇(2017年5期)2017-06-05 08:53:16
信息化是醫(yī)改的重要支撐
主站蜘蛛池模板: 国产麻豆福利av在线播放| 69精品在线观看| 欧美福利在线观看| 国产精品极品美女自在线网站| 中文天堂在线视频| 亚洲综合香蕉| 爱做久久久久久| 亚洲高清在线天堂精品| 国产精品网址你懂的| 欧美在线免费| 香蕉视频在线观看www| 国产美女视频黄a视频全免费网站| 亚洲国模精品一区| 69av免费视频| 国产在线观看人成激情视频| 日本亚洲国产一区二区三区| 日本国产精品一区久久久| 亚洲AV无码久久精品色欲| 999在线免费视频| 欧美区一区| 亚洲精品国产精品乱码不卞| 国产在线无码av完整版在线观看| 国产福利一区在线| 啪啪啪亚洲无码| 亚洲侵犯无码网址在线观看| 久久国产亚洲偷自| 中文字幕在线视频免费| 国产成人亚洲综合A∨在线播放| 91无码视频在线观看| 国产视频入口| www.日韩三级| 99re视频在线| 毛片网站观看| 黄色一级视频欧美| 国产另类乱子伦精品免费女| 亚洲人成网站日本片| 中文字幕永久在线看| 亚洲国产成人久久精品软件 | 亚洲乱伦视频| 一区二区三区在线不卡免费| 在线精品自拍| 欧美一级爱操视频| 91色综合综合热五月激情| 99精品福利视频| 日韩第一页在线| 在线观看国产精品日本不卡网| 99尹人香蕉国产免费天天拍| 一级做a爰片久久毛片毛片| 中国国产高清免费AV片| 成人午夜网址| 国产日韩欧美精品区性色| 久久综合婷婷| 日韩国产精品无码一区二区三区 | 国产午夜无码片在线观看网站| 在线网站18禁| 欧美亚洲国产视频| 婷婷丁香在线观看| 青青青伊人色综合久久| 免费国产一级 片内射老| 婷婷综合色| 国产精品美女免费视频大全| 精品国产香蕉在线播出| 欧美激情综合| 3p叠罗汉国产精品久久| 香蕉视频国产精品人| 中文无码影院| 精品久久777| 国产爽歪歪免费视频在线观看| 2020精品极品国产色在线观看| 中文字幕在线看视频一区二区三区| 99久久精品无码专区免费| 深爱婷婷激情网| 日韩专区欧美| 欧美日韩中文国产va另类| 国产精品黄色片| аⅴ资源中文在线天堂| 91精品综合| 国产乱子伦精品视频| 一级在线毛片| 亚洲成AV人手机在线观看网站| 午夜日本永久乱码免费播放片| vvvv98国产成人综合青青|