999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的工程項目數據檢索平臺設計與實現

2020-04-14 03:22:46
天津科技 2020年3期
關鍵詞:搜索引擎信息系統

王 屹

(海洋石油工程股份有限公司 天津300451)

0 引 言

隨著海上油氣設施工程建設的發展,工程項目逐漸增多,設計數據也以前所未有的速度增長。傳統的數據處理方式難以發掘出海量數據以及數據中所隱藏的規律,而搜索引擎為解決項目數據共享、信息集成提供了方法。

隨著信息技術的廣泛應用,工程建設階段產生的大量數據被各自孤立的項目方收集并管理,如果不建立統一的檢索平臺,歷史項目采集的數據不可避免地會丟失和遺漏,項目經驗和傳承也會隨之消散。為了實現項目歷史數據的檢索與再利用,提高項目管理績效,工程公司借助信息技術,搭建信息檢索管理平臺,旨在規范數據,減少冗余和錯誤數據,縮短項目工期,提高對標方案選擇、投標料單估算和方案初步選擇的效率,從而降低成本。

1 系統設計

1.1 核心技術

搜索引擎開發采用 Python技術,使用 Numpy、Mat-plotlib、Mysql-python等多個第三方模塊撰寫可配置的算法,并封裝成函數作為I/O接口用以進行數據檢索。系統平臺采用 B/S(Browser/Server)平臺技術,通過HTML、CSS、JS實現網頁展示,利用.Net框架實現后臺處理,同時采用流程審批,進行文檔授權下載。

1.2 系統架構

如圖1所示,數據檢索平臺分為4層架構,采用MySQL數據庫的Share-Nothing思想,Replication實現機制,Cluster的架構設計,使整個系統不受硬件平臺的限制,具有良好的擴展性和可管理性。

圖1 平臺架構Fig.1 Platform architecture

系統整體架構符合面向服務體系架構(SOA)標準,具有高穩定性與可靠性,采用注冊服務或服務發布的方式,確保本系統與其他系統的集成。

1.3 功能設計

如圖2所示,搜索引擎整體構架由核心系統和核心數據組成,其中核心系統主要包含spider爬行器和search&index索引建立與查詢系統,保證系統對實時信息的快速采集、建立索引并展現。

①爬行器。搜索引擎爬蟲的工作過程由抓取、過濾、收錄索引、排序 4大環節組成,根據資源描述信息,通過深度和廣度的抓取,對企業項目公共盤中各種異構的文件進行爬取,文件格式主要包含:doc/docx、xls/xlsx、ppt/pptx/pps、pdf 等項目文檔格式和html、xml等網頁格式。

如圖3所示,爬行器的主要工作原理是通過爬行器插件對多種類型的數據信息進行提取和轉換,其中爬行器插件由與各類型信息相關的結構組成,文本轉化時即通過相應接口來實現,并根據不同算法轉化為相應文本流。處理文本流時需要對其進行詞組切分,并記錄切分的詞組出現的頻率和在文本中的位置。爬行器中預處理階段主要采用全庫采集和增量爬行對信息載體進行處理,同時預處理采集階段中也可以分別采用主動提交和被動捕獲 2種策略方案。爬行器根據項目信息數據存儲的物理和虛擬介質不同,設計了針對 Oracle數據庫和 SQL Server、FTP、網站、SPS、CMS等進行信息索引的爬行器類型。

圖2 搜索引擎系統結構圖Fig.2 Structure of search engine system

圖3 爬行器工作原理圖Fig.3 Working principle of crawler

②索引器。索引器主要原理是對爬行采集的相關數據信息進行處理,可以通過分詞技術、標簽技術等對相關資源建立索引文件。索引器的主要作用是信息采集,通過 Python技術,根據預先選定的范圍,自動搜集網頁、數據庫、文件系統中的信息。

③搜索。在用戶定制好相關爬取關鍵詞后,爬取條件在經過算法特殊處理后,會在索引文件中搜索出所有滿足爬取條件的數據信息。

2 功能模塊

2.1 項目信息門戶

對公司內部數據信息進行整合,確保信息入口單一和數據唯一,同時提供一個高效的信息交流和協同工作環境。

2.2 項目關鍵信息管理

采集各項目實施全過程中項目產生的相關關鍵信息和知識文檔,進行集中式管理和儲存,并進行分類管理,如:單位部門或項目分類。

2.3 法律法規信息管理

采集各項目相關的法律法規,進行集中式管理和儲存,并進行分類管理,如:不同國家分類。

2.4 信息檢索

Web Browser/Web Server檢索方式,支持 MS OFFICE、PDF、HTML,可以對.pdf、.doc 或.docx、.xls或.xlsx、.ppt或pptx、.xml等文件直接進行檢索。

①可以對多類型數據進行混合檢索,包括結構化和非結構化數據,如數據庫中關鍵參數及硬盤中文檔等。②提供全文搜索功能,允許對文中的任意單字、詞組、句子和相關片段進行檢索。③提供范圍檢索和差異比較,如數值、日期等特征字段。④支持正則相關的通配符檢索,即模糊檢索。⑤對于多并發訪問,采取多線程設計。⑥多樣化排序,如時間排序和相關性排序。⑦多種條件組合檢索:包括標題、正文以及日期范圍檢索。⑧關鍵詞組合檢索。⑨檢索結果可以顯示相關動態摘要,摘要內容基于查詢關鍵詞形成。⑩關鍵詞的高亮顯示。搜索結構自定義圖形模版顯示。支持根據自動分類的類目進行檢索。

2.5 業務申請

當用戶需要下載所檢索到的項目文檔時,由用戶向相關主管領導發起申請流程管理模塊。

2.6 在線瀏覽

當用戶檢索到相關項目文檔時,可以在線瀏覽該文檔,但需要申請權限后才能下載。

3 結 語

工程項目數據檢索平臺能夠滿足工程公司對歷史設計項目數據源全文數據的檢索和利用,提高了信息資源的利用率,避免了重復勞動,利于在未來的競爭中取得更大的主動權。在技術實現上,采用數據爬取技術和安全高效的搜索引擎技術架構,保證了良好的可擴展性,同時為也為企業知識管理提供了安全可靠的體系框架。

猜你喜歡
搜索引擎信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 婷婷五月在线视频| 波多野结衣第一页| a级毛片免费播放| 国产一二视频| 亚洲av成人无码网站在线观看| 国产va视频| 欧美伦理一区| 日本www色视频| 日本高清在线看免费观看| 91小视频在线观看免费版高清| 日韩欧美国产中文| 亚洲综合一区国产精品| 97国产在线播放| 国产综合日韩另类一区二区| 狠狠综合久久久久综| 久久综合九色综合97婷婷| 国产经典在线观看一区| 色网在线视频| 亚洲中久无码永久在线观看软件| 国产成年女人特黄特色毛片免| 四虎国产精品永久在线网址| 乱码国产乱码精品精在线播放| 精品久久久久久久久久久| 深夜福利视频一区二区| 日本国产在线| 在线网站18禁| 2021国产精品自产拍在线| 国产女人18毛片水真多1| 国产原创自拍不卡第一页| 欧美亚洲综合免费精品高清在线观看| 久久精品视频一| 精品99在线观看| 麻豆精品在线| 国产精品香蕉| 欧美亚洲另类在线观看| 亚洲综合久久成人AV| 国产成人一二三| 亚洲三级视频在线观看| 久久久久人妻一区精品色奶水| 日韩在线第三页| 97se亚洲| 国产福利在线观看精品| 日韩欧美中文字幕在线韩免费| 成人综合久久综合| 欧美亚洲日韩中文| 色综合五月| 国产乱子伦视频在线播放| 国产欧美日韩18| 日韩欧美国产三级| 欧美三级视频在线播放| 91精品久久久无码中文字幕vr| 狠狠综合久久久久综| 亚洲日韩每日更新| 国产农村妇女精品一二区| 亚洲乱码精品久久久久..| 久久综合九色综合97婷婷| 日本欧美一二三区色视频| 亚洲国产清纯| 国产欧美在线观看精品一区污| 综合网天天| 多人乱p欧美在线观看| 在线va视频| 女人18毛片久久| 亚洲国产一区在线观看| 精品无码人妻一区二区| 亚洲欧美日韩中文字幕在线| 国产精品亚洲一区二区三区z| 国产超碰在线观看| 97免费在线观看视频| 亚洲欧洲免费视频| 亚洲午夜福利在线| 中文字幕不卡免费高清视频| 91久久精品日日躁夜夜躁欧美| 国产高清在线精品一区二区三区| 国产高清无码第一十页在线观看| 国产精品久久久久久久久kt| 免费一级毛片| 亚洲欧洲日韩综合色天使| 中文字幕亚洲精品2页| 国产精品妖精视频| 国产精品久久久久久久久久久久| 国产网站免费|