【摘 要】在專利檢索系統中,專利信息采集模塊是最重要的模塊,它能保證查詢到的專利信息是網絡中最新的。本文詳述了專利檢索系統中專利信息采集模塊的設計和實現方法,其中對采集流程和用到的網絡爬蟲技術做了詳細的介紹。
【關鍵詞】專利信息采集;網絡爬蟲;索引;分詞處理
在當今社會,專利技術作為一種無形資產與社會財富,它和材料、能源等資源同等重要,在當今知識爆炸的社會中有著重要的作用。目前,社會上有許許多多的專利檢索系統,功能各不相同,但專利信息采集模塊是十分重要的一個模塊,它從Internet上獲取專利信息,讓專利查詢者可以更好及時的獲取網絡上最新的專利信息,對專利查詢者的專利研究起到很好的作用。
根據專利檢索與服務實際應用,我們可以將系統分為專利利用、競爭對手專利分析、專利信息采集、專利檢索、專利的受理、系統管理6個功能模塊,系統的結構圖如圖1所示。
圖1 系統功能結構
專利受理模塊是實現用戶提交專利申請、回復以及相關信息的管理。競爭對手專利分析模塊為用戶提供一個對產品信息快速技術分析的工具,用于監視競爭對手技術動向;模仿創新,產生更富有競爭力的新產品和新工藝。專利利用模塊主要為專利的使用者提供一個交流平臺。專利檢索模塊實現面向專利信息的全文檢索功能。系統管理模塊主要包括系統初始化工作、用戶權限管理、數據備份、回復、日志等功能。專利信息采集模塊實現對互聯網上最新專利信息的獲取。
在專利檢索與服務系統的六大模塊中,專利信息采集模塊是系統實現的難點也是一個重點,它在開發中應用到網絡爬蟲技術,它實際上是一個基于Web的程序,它從一個初始網頁出發遍歷互聯網自動地采集網上信息。當其進入某個超文本頁面時,它利用Html語言的標記結構來搜索信息和獲取指向其他超文本的URL鏈接,通過一定的算法選擇下一個要訪問的站點繼而轉向另一個站點繼續搜集信息,其處理流出如圖2所示。
圖2 專利信息采集處理流程圖
網絡爬蟲的系統一般由控制器,解析器,資源庫三部分組成。三部分協調工作,共同完成爬行搜索任務。控制器是網絡爬蟲的中央控制器,它主要是負責根據系統傳過來的URL鏈接,分配一個線程,然后啟動線程調用爬蟲爬取網頁的過程;解析器是負責網絡爬蟲的主要部分,其負責下載網頁的功能,對網頁的文本進行處理,分析數據功能;資源庫主要是用來存儲網頁中下載下來的數據記錄的容器,并提供生成索引的目標源。
系統中專利信息采集引擎采用主題型搜索引擎技術,即以構筑某一專利主題的網絡信息資源庫為目標,智能地在互聯網上搜集符合這一專題的信息資源。搜索引擎結構圖如圖3所示。
圖3 專利搜索引擎模塊組成部分
采用基于內容的搜索技術,其主要實現方式就是在搜索引擎內部建立一個針對主題的詞表,搜索引擎的爬行器根據其內設的詞表對網上的信息進行索引。各個不同的系統詞表建設的復雜度也大不相同。可以較好地解決了信息檢索過程中的詞匯不匹配問題以及信息過載問題,大大提高了信息檢索的效率和質量。
專利信息采集模塊由Spider、索引器、分析器、檢索器、任務管理器五個部分組成。首先通過Spider程序,訪問網站并搜集專利信息和專利影像檔案信息。專利信息保存為xml格式的文件,然后由分析器對專利信息的xml文件進行分詞,詞法分析器根據專利信息的特點,分別進行英文、亞洲文字的分詞處理。索引器將經過分詞處理后的專利信息創建索引,并計算出token值。使用Appache+Tomcat發布系統的檢索網站,當用戶通過入口網站進入檢索頁面,并提交檢索關鍵字,檢索關鍵字經過分析器進行詞法分析器進行分詞處理;經過語法分析器生成語法解析樹。檢索關鍵字被傳送到檢索器,檢索器從索引中檢索出結果,并高亮顯示后返回給用戶。
該模塊利用服務器端操作系統的任務計劃功能,定時運行數據采集程序,初始設定采集周期為一個星期,用戶可以根據需要對此進行修改。專利信息采集分為單個目標網站采集和私人用戶信息采集兩種方式。
(1)單個目標網站采集流程,該模塊首先從公共主題詞表P_KEY_PUB中逐條獲取記錄。針對某個網站對每條記錄進行如下采集操作。他的采集步驟如下:
首先解析采集對象網站對應的xml文件,其次根據解析結果利用Http Client工具進行數據采集,再根據xml文件提供的格式解析數據,獲取所需要的專利信息。最后依據黑名單對采集的信息進行篩選,將需要的數據存入公共臨時專利數據庫表P_TMP_PUB中。
(2)私人用戶信息采集與單個目標網站采集流程類似。但是也有區別,主要區別如下:
一是所有私人用戶的信息采集參數都先放在私有主題詞表P_KEY_PRI中。私人用戶可以添加、刪除主題詞。
二是所有私人用戶采集的專利信息存放在私有專利數據庫P_TMP_PRI表中。
三是信息采集的周期初始化為1天,比如每天晚上12點進行采集。
四是私人用戶可以對采集到的專利信息記錄進行刪除、推薦。推薦的專利記錄添加到公共臨時專利表:P_TMP_PUB,由管理員進行審核。
專利信息采集模塊功能主要實現關鍵詞管理、黑名單管理和新采集專利管理三個功能。關鍵詞管理主要為管理員提供管理采集關鍵詞的功能,可以執行添加、刪除和修改的操作。黑名單管理功能主要對被加入黑名單的專利進行處理,包括:入庫、刪除、快速檢索等。
我們只有掌握了專利檢索系統中專利信息采集模塊的設計,才能更好地對這個模塊進行實現。通過使用合適的網絡爬蟲技術和全文檢索技術,我們就能更好的在網絡上對專利信息進行爬取,使得爬取的專利信息更好的為專利查詢者服務,達到設計系統的目的。
【參考文獻】
[1]劉佳佳,董旻,方曙.國外專利分析工具的比較研究[J].現代圖書情報技術,2007,(02).
[2]楊洋.基于多Agent系統的專利采集系統研究[D].北京工業大學,2010.
[3]劉晨.專利信息獲取與分析系統關鍵技術研究[D].北京工業大學,2009.