999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網站資源信息自動采集技術

2020-08-25 00:51:18馬浩銘
湖北農機化 2020年12期
關鍵詞:進程程序數據庫

馬浩銘

(新疆質信通工程檢測技術有限公司,新疆 烏魯木齊 830011)

1 信息采集器

1.1 Index程序的參數設置

-n number 索引指定數目的文檔后退出。注意:在運行index-n number后,運行index-D程序。如果用戶使用多線程,索引的文檔數目會比預定的值高一些。

-N number 設置運行索引線程的數量。只有對多個網站進行索引時,多線程索引才有意義。兩個線程或多個線程不能同時對同一站點進行索引。

-R number 運行解析進程的數目。默認是線程數/5+1。如果用戶的服務器解析慢的時候,用戶需要增加默認值。

1.2 重新索引控制參數設置

-a 重新索引所有的文檔,并忽略文檔的失效狀態。默認情況下,只有比Period時間早的文檔才被重新索引。

-m 存儲文檔中詞和超鏈接,忽略文檔的修改狀態。沒有這個參數時,只有修改的文檔才會被重新索引。

-o 優先抓深度淺的文檔。這里的跳躍指的是文檔的深度值。

-M繼續索引先前索引任務的URLs。這些URLs會被存儲在臨時MySQL數據庫中,這常用于調試目的。

1.3 實時數據庫索引選項

-T URL索引URL到實時數據庫中,需要注意的是,用戶不能增加太多的文檔到實時數據庫中,否則檢索實時數據庫會非常地慢。實際上實時數據庫文檔的限制是依賴于硬件的,大約1000個urls,效果會比較好。實時數據庫的文檔歸并到主數據庫的命令是index-D。這個參數選項在重新索引經常需要改變的網頁時候非常有用。用戶可以及時地看到結果,用戶可以使用-A參數一起使用。

1.4 清理數據庫

-C清理數據庫。用戶可以控制參數來限制清理數據庫的范圍。注意:清理規模較大的數據庫的速度會很慢。從文件中讀取將要被索引、插入、清除的URLs。用戶使用-做文件名,則URL列表將從標準輸入進行讀取。另外,指定抓取的網頁需明確。

1.5 輸出

-r file重定位信息輸出到指定file。

-g file設置index程序的統計信息的日志文件。

1.6 停止index程序

-E安全地停止已經運行的index程序。

2 守護進程模塊

Searchd是一個搜索守護進程,自動采集器利用這個守護進程,搜索index程序創建的數據庫,緩存搜索結果等。它主要是監聽s.cgi查詢的端口,執行搜索指令并返回s.cgi查詢的結果。Searchd為了加速搜索的速度——從數據庫一些數據加載到內存。如果硬盤的數據改變,Searchd程序會重新加載。

2.1 基本命令參數

-D 運行searchd程序作為守護進程。用戶每次運行searchd,都需要使用這個參數。

-R 在searchd失敗的時候,能夠自動重新啟動searchd守護進程。如果用戶使用這個選項,搜索引擎將不會停止。

-l logfile設置searchd將日志寫入日志文件中。

2.2 錯誤日志

如果在啟動searchd的時候,端口被其他程序占用,用戶不能從控制臺獲得錯誤信息,只能從日志文件中獲取,所以,在每次啟動searchd程序的時候,首先要檢查是否有其他程序占有該端口號,或者在searchd程序啟動后,檢查日志文件。

3 主要技術指標及軟硬件環境

采用面向對象的設計思路,可以運行在常用的32位或64位Linux操作系統上,后臺數據庫采用MySQL 5.1,支持GBK、BIG5、UTF8、UNICODE等多種編碼格式,可以定制采集網址、欄目,支持分頁采集與網頁內容動態采集。

后臺數據庫名為searchDB,庫中的表名、字段名主要都是參照相應的英文名稱命名的,如:wordurl表示“關鍵詞所對應的url表”。管理數據庫可以使用命令行工具管理MySQL數據庫(命令mysql和 mysqladmin),也可以從MySQL的網站下載圖形管理工具MySQL Administrator和MySQL Query Browser,也可以采用更方便操作的phpMyAdmin通過Web界面管理后臺數據庫。軟件安裝所需的具體硬件環境和軟件支持要求如下:

3.1 硬件環境(表1)

表1 硬件環境最低要求

3.2 軟件環境(表2)

4 結語

筆者重點介紹了網站資源信息自動采集功能模塊的相關技術,該采集器可做到在指定url種子中的相關欄目信息更新后,執行采集器采集信息時只采集最新的欄目,不重復采集,且采集過來的內容比較完整,只需簡單調整一下字體格式便可快速發布,簡單實用。該功能在本公司上線投入運行以來,給網站發布人員工作帶來了極大的便利,取得了令人滿意的應用效果。

表2 軟件環境要求

猜你喜歡
進程程序數據庫
債券市場對外開放的進程與展望
中國外匯(2019年20期)2019-11-25 09:54:58
試論我國未決羈押程序的立法完善
人大建設(2019年12期)2019-05-21 02:55:44
“程序猿”的生活什么樣
英國與歐盟正式啟動“離婚”程序程序
環球時報(2017-03-30)2017-03-30 06:44:45
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
創衛暗訪程序有待改進
中國衛生(2015年3期)2015-11-19 02:53:32
社會進程中的新聞學探尋
民主與科學(2014年3期)2014-02-28 11:23:03
主站蜘蛛池模板: 成人午夜福利视频| 在线精品亚洲国产| 精品国产自| 久久国产黑丝袜视频| 久久这里只有精品国产99| 九色在线观看视频| 国产日韩精品一区在线不卡 | 欧美一级夜夜爽| 亚洲无线国产观看| 精品视频第一页| 亚洲色图在线观看| 伊人福利视频| 日韩精品无码免费专网站| 国产在线观看成人91| 日韩少妇激情一区二区| 免费av一区二区三区在线| 亚洲精品日产AⅤ| 日本人又色又爽的视频| 永久成人无码激情视频免费| 青青草原国产免费av观看| 欧美午夜理伦三级在线观看| 国产精品亚洲五月天高清| 一区二区三区在线不卡免费| 国产成人一区免费观看| 亚洲国产成人在线| 秘书高跟黑色丝袜国产91在线 | 日本三级精品| 亚洲动漫h| 青草娱乐极品免费视频| 国产美女91呻吟求| 国产资源免费观看| 不卡无码h在线观看| 高清无码一本到东京热| 亚洲伦理一区二区| 午夜精品久久久久久久无码软件| 91亚瑟视频| 国产男女免费视频| 久久国产免费观看| 天堂在线www网亚洲| 谁有在线观看日韩亚洲最新视频 | 免费一级毛片在线观看| 无码国产伊人| 午夜在线不卡| 亚洲一区网站| 日韩av高清无码一区二区三区| 久精品色妇丰满人妻| 国产一级毛片在线| 国产精品人成在线播放| 亚洲av无码成人专区| 亚洲一区二区三区香蕉| 亚洲国产成人麻豆精品| 欧美亚洲国产一区| 国产乱人激情H在线观看| 91国内在线观看| 潮喷在线无码白浆| 国产欧美中文字幕| 乱人伦视频中文字幕在线| 日韩精品中文字幕一区三区| 国产幂在线无码精品| 免费不卡视频| 亚洲精品国产综合99| 日韩人妻少妇一区二区| 亚洲男人天堂网址| 亚洲一区第一页| 久久动漫精品| 成人综合网址| 国产成年女人特黄特色毛片免| 日韩人妻精品一区| 国产精品视频导航| 亚洲va欧美va国产综合下载| Aⅴ无码专区在线观看| 欧美狠狠干| 日本成人不卡视频| 国产伦精品一区二区三区视频优播| 欧美日韩一区二区三区四区在线观看| 国产在线无码av完整版在线观看| 国产微拍一区| 97影院午夜在线观看视频| 国产午夜一级毛片| 黄片在线永久| 99热这里只有成人精品国产| 国产精品视频999|