999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

專利檢索系統中專利信息采集模塊的研究

2012-12-31 00:00:00田素端
科技致富向導 2012年8期

【摘 要】在專利檢索系統中,專利信息采集模塊是最重要的模塊,它能保證查詢到的專利信息是網絡中最新的。本文詳述了專利檢索系統中專利信息采集模塊的設計和實現方法,其中對采集流程和用到的網絡爬蟲技術做了詳細的介紹。

【關鍵詞】專利信息采集;網絡爬蟲;索引;分詞處理

在當今社會,專利技術作為一種無形資產與社會財富,它和材料、能源等資源同等重要,在當今知識爆炸的社會中有著重要的作用。目前,社會上有許許多多的專利檢索系統,功能各不相同,但專利信息采集模塊是十分重要的一個模塊,它從Internet上獲取專利信息,讓專利查詢者可以更好及時的獲取網絡上最新的專利信息,對專利查詢者的專利研究起到很好的作用。

根據專利檢索與服務實際應用,我們可以將系統分為專利利用、競爭對手專利分析、專利信息采集、專利檢索、專利的受理、系統管理6個功能模塊,系統的結構圖如圖1所示。

圖1 系統功能結構

專利受理模塊是實現用戶提交專利申請、回復以及相關信息的管理。競爭對手專利分析模塊為用戶提供一個對產品信息快速技術分析的工具,用于監視競爭對手技術動向;模仿創新,產生更富有競爭力的新產品和新工藝。專利利用模塊主要為專利的使用者提供一個交流平臺。專利檢索模塊實現面向專利信息的全文檢索功能。系統管理模塊主要包括系統初始化工作、用戶權限管理、數據備份、回復、日志等功能。專利信息采集模塊實現對互聯網上最新專利信息的獲取。

在專利檢索與服務系統的六大模塊中,專利信息采集模塊是系統實現的難點也是一個重點,它在開發中應用到網絡爬蟲技術,它實際上是一個基于Web的程序,它從一個初始網頁出發遍歷互聯網自動地采集網上信息。當其進入某個超文本頁面時,它利用Html語言的標記結構來搜索信息和獲取指向其他超文本的URL鏈接,通過一定的算法選擇下一個要訪問的站點繼而轉向另一個站點繼續搜集信息,其處理流出如圖2所示。

圖2 專利信息采集處理流程圖

網絡爬蟲的系統一般由控制器,解析器,資源庫三部分組成。三部分協調工作,共同完成爬行搜索任務。控制器是網絡爬蟲的中央控制器,它主要是負責根據系統傳過來的URL鏈接,分配一個線程,然后啟動線程調用爬蟲爬取網頁的過程;解析器是負責網絡爬蟲的主要部分,其負責下載網頁的功能,對網頁的文本進行處理,分析數據功能;資源庫主要是用來存儲網頁中下載下來的數據記錄的容器,并提供生成索引的目標源。

系統中專利信息采集引擎采用主題型搜索引擎技術,即以構筑某一專利主題的網絡信息資源庫為目標,智能地在互聯網上搜集符合這一專題的信息資源。搜索引擎結構圖如圖3所示。

圖3 專利搜索引擎模塊組成部分

采用基于內容的搜索技術,其主要實現方式就是在搜索引擎內部建立一個針對主題的詞表,搜索引擎的爬行器根據其內設的詞表對網上的信息進行索引。各個不同的系統詞表建設的復雜度也大不相同。可以較好地解決了信息檢索過程中的詞匯不匹配問題以及信息過載問題,大大提高了信息檢索的效率和質量。

專利信息采集模塊由Spider、索引器、分析器、檢索器、任務管理器五個部分組成。首先通過Spider程序,訪問網站并搜集專利信息和專利影像檔案信息。專利信息保存為xml格式的文件,然后由分析器對專利信息的xml文件進行分詞,詞法分析器根據專利信息的特點,分別進行英文、亞洲文字的分詞處理。索引器將經過分詞處理后的專利信息創建索引,并計算出token值。使用Appache+Tomcat發布系統的檢索網站,當用戶通過入口網站進入檢索頁面,并提交檢索關鍵字,檢索關鍵字經過分析器進行詞法分析器進行分詞處理;經過語法分析器生成語法解析樹。檢索關鍵字被傳送到檢索器,檢索器從索引中檢索出結果,并高亮顯示后返回給用戶。

該模塊利用服務器端操作系統的任務計劃功能,定時運行數據采集程序,初始設定采集周期為一個星期,用戶可以根據需要對此進行修改。專利信息采集分為單個目標網站采集和私人用戶信息采集兩種方式。

(1)單個目標網站采集流程,該模塊首先從公共主題詞表P_KEY_PUB中逐條獲取記錄。針對某個網站對每條記錄進行如下采集操作。他的采集步驟如下:

首先解析采集對象網站對應的xml文件,其次根據解析結果利用Http Client工具進行數據采集,再根據xml文件提供的格式解析數據,獲取所需要的專利信息。最后依據黑名單對采集的信息進行篩選,將需要的數據存入公共臨時專利數據庫表P_TMP_PUB中。

(2)私人用戶信息采集與單個目標網站采集流程類似。但是也有區別,主要區別如下:

一是所有私人用戶的信息采集參數都先放在私有主題詞表P_KEY_PRI中。私人用戶可以添加、刪除主題詞。

二是所有私人用戶采集的專利信息存放在私有專利數據庫P_TMP_PRI表中。

三是信息采集的周期初始化為1天,比如每天晚上12點進行采集。

四是私人用戶可以對采集到的專利信息記錄進行刪除、推薦。推薦的專利記錄添加到公共臨時專利表:P_TMP_PUB,由管理員進行審核。

專利信息采集模塊功能主要實現關鍵詞管理、黑名單管理和新采集專利管理三個功能。關鍵詞管理主要為管理員提供管理采集關鍵詞的功能,可以執行添加、刪除和修改的操作。黑名單管理功能主要對被加入黑名單的專利進行處理,包括:入庫、刪除、快速檢索等。

我們只有掌握了專利檢索系統中專利信息采集模塊的設計,才能更好地對這個模塊進行實現。通過使用合適的網絡爬蟲技術和全文檢索技術,我們就能更好的在網絡上對專利信息進行爬取,使得爬取的專利信息更好的為專利查詢者服務,達到設計系統的目的。

【參考文獻】

[1]劉佳佳,董旻,方曙.國外專利分析工具的比較研究[J].現代圖書情報技術,2007,(02).

[2]楊洋.基于多Agent系統的專利采集系統研究[D].北京工業大學,2010.

[3]劉晨.專利信息獲取與分析系統關鍵技術研究[D].北京工業大學,2009.

主站蜘蛛池模板: 久久狠狠色噜噜狠狠狠狠97视色| 手机精品视频在线观看免费| 久久99热66这里只有精品一 | 亚洲成人福利网站| 日韩一区精品视频一区二区| 色九九视频| 日韩av无码DVD| 91福利一区二区三区| 大陆精大陆国产国语精品1024| 19国产精品麻豆免费观看| 欧美一区国产| 欧美日韩va| 欧日韩在线不卡视频| 亚洲成人动漫在线观看| 看国产毛片| 四虎永久在线精品国产免费| 全部毛片免费看| 在线va视频| 欧美在线综合视频| 一本一道波多野结衣av黑人在线| 亚洲精品国产日韩无码AV永久免费网 | 免费Aⅴ片在线观看蜜芽Tⅴ | 嫩草国产在线| 亚洲第一视频网站| 色屁屁一区二区三区视频国产| 91丝袜在线观看| 亚洲无码精彩视频在线观看| 亚洲无码一区在线观看| 婷婷六月综合| 国产精品主播| 亚洲九九视频| 久操线在视频在线观看| 国产精品网址你懂的| 中日韩一区二区三区中文免费视频| 国产日韩久久久久无码精品| 亚洲区第一页| 91po国产在线精品免费观看| 国产国产人在线成免费视频狼人色| 永久天堂网Av| 亚洲男人的天堂视频| 国产视频自拍一区| 福利一区三区| 免费欧美一级| 天堂网亚洲系列亚洲系列| 久久久亚洲色| 久久99精品久久久大学生| 色综合中文字幕| 2021精品国产自在现线看| 99这里只有精品免费视频| 色精品视频| 亚洲高清国产拍精品26u| 久久国语对白| 亚洲精品视频网| 国产97视频在线| 免费看av在线网站网址| 夜夜高潮夜夜爽国产伦精品| 欧美激情伊人| 97国产精品视频自在拍| 不卡国产视频第一页| AV天堂资源福利在线观看| 91免费国产在线观看尤物| 99在线观看免费视频| 色婷婷电影网| 亚洲最大看欧美片网站地址| 国产xxxxx免费视频| 美女一区二区在线观看| 六月婷婷激情综合| 中国黄色一级视频| 国产成人AV大片大片在线播放 | 新SSS无码手机在线观看| 又大又硬又爽免费视频| 99久久国产精品无码| 国产精品冒白浆免费视频| 亚洲男人的天堂在线| 亚洲精品中文字幕无乱码| 激情在线网| 国产一国产一有一级毛片视频| 毛片免费高清免费| 国产成人一区在线播放| 欧美在线伊人| 免费一级无码在线网站| 欧美成人午夜视频免看|