999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中醫藥信息搜索引擎的研究與初探

2015-12-31 00:00:00許潔梁國慶
醫學信息 2015年34期

摘要:基于中醫藥科研教學中對大數據的需求,本文針對如何在互聯網中快速獲得大量相關信息在技術層面進行了研究和探討。提出了以垂直爬蟲為基礎的中醫藥信息搜索系統的體系結構,在理論層面研究了爬蟲系統依賴的技術,包括語義分析、爬行算法以及正則表達。奠定了整個系統的理論以及架構基礎,為下一步的具體實現進行了有價值的先期鋪墊。

關鍵詞:爬蟲;語義分析;理論研究;正則表達;中醫藥

中醫藥是華夏先祖智慧的結晶,他們歷經千年,不斷傳承,延綿至今;如今,隨著大數據時代的腳步不斷臨近,傳統中醫中藥信息的承載和傳播,也逐漸從紙質古籍的代代相傳,演變為互聯網的分布式存儲以及幾何量級的搜索與復制。

為了應對這種發展的趨勢,如何能快速,準確,完整的從互聯網中采集所需要的中醫藥數據,進而對其挖掘分析,日益成為了廣大科研人員所面臨的一大問題。

因此,使用技術手段,使信息采集、數據挖掘的過程自動而高效,不僅能有效地減輕圖書館員的重復工作量,也能使信息采集數據挖掘的結果更加客觀。

在這種情況下,爬蟲技術開始走入了我們的視線。

1爬蟲技術概述

所謂網絡爬蟲,是一個從Web上下載網頁、并且自動從網頁中提取所需內容的程序。一般我們將爬蟲劃分為如下三個類型:

1.1批量型爬蟲 批量型爬蟲有比較明確的抓取范圍和目標,當爬蟲達到這個設定的目標后,即停止抓取過程。常見的目標包括抓取網頁的數量或者消耗的時間等。

1.2增量型爬蟲 增量型爬蟲特點是定期更新,由于在線網頁處于不斷變化中,而增量型爬蟲需要及時反映這種變化,因而必須持續不斷的抓取,既要抓取新網頁,又要更新已有網頁。通用的商業搜索引擎爬蟲基本都屬此類。

1.3垂直型爬蟲 垂直型爬蟲關注特定主題內容或者行業的網頁。垂直型爬蟲一個最大的特點就是:如何識別網頁內容是否屬于指定主題。它需要在抓取階段就能夠動態識別某個網址是否與主題相關,并盡量忽略無關頁面。

2中醫藥信息搜索系統中的爬蟲技術

顯而易見,中醫中藥,作為一個特定行業,只有垂直爬蟲的定義最為符合其信息采集的特性。因此,如何設計并構建一個適用于中醫中藥的,以垂直搜索為目的的網絡爬蟲系統,逐漸成為值得我們深入研究的課題。

2.1垂直爬蟲的技術原理 垂直搜索里,目標網站往往在某一領域具有其專業性,其整體網站的結構相當規范,并且垂直搜索只需要其中一部分具有垂直性的資源,所以垂直爬蟲相比通用爬蟲更加精確。

通常把爬蟲爬取資源分成三個步驟:url抓取、內容抓取、數據標準化及索引,以下是一般垂直爬蟲的工作流程:①首先確定需要抓取的目標網站,錄入站源表sitelist,然后爬蟲會讀取對應站點的正則解析規則。②根據事先制定的正則規則,篩選出資源url存入urllist表。③爬蟲從urllist表讀出url,存入一個同步的隊列中(同時將url做md5處理,用于去重),多線程下的每個爬蟲程序將從此隊列讀取url,然后爬取每個資源頁,并將提取的內容存入原始數據表。④數據標準化及索引模塊從原始數據表提取數據,進行進一步的規整、聚合,最終存入最終內容表中。

更新策略:①根據每個站點設定的url失效時間,定期的從數據庫抽取需要更新的資源url,加入步驟3的隊列中,進行資源爬取。②爬取的資源更新到數據庫中。

2.2爬蟲系統的先決技術和算法 由上一節可知,要實現中醫藥數據搜索系統,一個基于垂直爬蟲的數據采集服務系統是關鍵,而以下幾點無疑是要實現這個爬蟲系統的先決技術。

2.2.1中醫藥語義分析 所謂語義分析,就是對web頁面所包含的部分或者全部文字內容的含義進行分析,一般包括三個步驟:①分詞。提取一個完整的中文句子或者段落,根據一定的算法對其進行分詞;在這里我們可以自定義算法,或者調用現有的開源分詞組件,如,Lucene的分詞組件、ktdictseg等;分詞后將所有實詞(除去連接詞、語氣詞、介詞等虛詞)存入數組。②構建中醫藥語料庫。語料庫通常由書面語或口語的電子語言材料構成。經過科學選材和標注、具有適當規模的語料庫能夠反映和記錄語言的實際使用情況。因此,根據收集的情報監測網站以及日常中醫藥情報服務中涉及的內容,可以收錄中醫藥、傳統醫學、補充替代醫學領域的專用詞匯,規模可以維持在1000個詞匯左右。③將分出的詞匯和語料庫匹配。匹配率若能高于基于某種算法某一閥值,則判定為具有基于語料庫的相關性。

2.2.2爬行算法 經典的爬取策略可以分為深度優先、廣度優先等幾種。

深度優先策略的目的是要達到被搜索結構的葉結點(無超鏈接頁面)。深度優先搜索沿著頁面上的超鏈走到不能再深入為止,然后返回到這個頁面,再繼續選擇該頁面中的其他鏈接。當不再有其他鏈接可選擇時,抓取結束。

廣度優先策略是指在抓取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。該算法的設計和實現相對簡單。

由于深度優先在很多情況下會導致爬蟲的陷入(traPped)問題,目前在爬蟲開發中常見的是廣度優先算法。

在本系統的研究中,基于中醫藥的主題性,我們可以使用一種改進的基于語義分析的廣度優先算法來爬取頁面,具體思想如下:

首先,在爬取之前,需要對即將入列的url鏈接名稱進行分析,只有經過初步篩選的、符合中醫藥語義的url才會被加入待爬取隊列(urllist)中。

其次,在爬蟲保存頁面之前,對內容進行分詞分析,若分詞符合中醫藥語義達某一閥值,則認為該頁面內容符合中醫藥語義,判定為有效并保存。如此可有效降低無關網頁的數量。

2.2.3基于正則表達式的url分析 在編寫處理字符串的程序或網頁時,經常會有查找符合某些復雜規則的字符串的需要。正則表達式就是用于描述這些規則的工具。

在本文的研究中,我們需要編寫正則來匹配在頁面中提取的url,來判斷是否為系統所需的資源url,以便做下一步的分析。

3體系結構的設計及程序的邏輯分析

綜合以上章節,在體系結構方面,我們可以將整個中醫藥數據搜索系統劃分為兩個部分,一是對外展示以及提供搜索服務的客戶系統。二是對內提供工作管理以及后臺數據采集的數據服務系統。

3.1中醫藥數據采集服務系統 對于服務系統,其本質,就是本文第2章所述的,一種基于垂直爬蟲的信息采集系統。我們將它定位為整個中醫藥信息采集系統的核心,他承載著整個系統最核心的功能,例如基于廣度優先算法的爬蟲程序主體、基于正則的中醫藥行業資源url的篩選、中醫藥行業語義分析、以及對資源頁面的采集、整理、存儲和索引。

系統以CS模式進行構建,也就是說,任何需要對本系統進行管理的計算機必須安裝軟件包后才能具有管理、采集、更新的權限,這就杜絕了將管理端暴露在互聯網中的安全風險,從另一方面來說,雖然CS模式犧牲了一部分在管理上的便捷性,但是以此換來了系統管理的安全性和隱秘性。其系統架構見圖1。

圖1 系統模塊圖

由圖1可知,數據挖掘模塊,是中醫藥信息采集服務系統核心模塊,在系統運作時,對于該模塊,我們可以做如下設定:

第一步,從種子庫(sitelist)中選取一站點讀取首頁,通過爬蟲做三件事:①爬取頁面中的所有超鏈接,根據正則規則篩選出本站資源頁面的超鏈接存入待爬取列表(urllist),并記錄其父頁面以及深度;②保存頁面數據以及url至數據庫的原始數據表中(DataList);③非本站鏈接根據其語義分析結果,凡是符合中醫中藥類語義的鏈接存入待爬取站點列表(sitelist)。

第二步,爬取urllist列表中的每一個url,重復第一步。

第三步,根據事先設定,達到某一深度后停止爬取urllist。

第四步,在sitelist中選取下一站點,重復第一到第三步。

第五步,根據事先設定,在滿足某一條件后停止爬行。

其程序流程圖見圖2。

圖2數據采集模塊程序流程圖

由圖2可知,在整個數據采集模塊中,爬蟲處理程序,又是其中的一個核心功能,在系統運作時,其不斷地重復以上第一步中所有的步驟,其程序流程圖見圖3。

圖3 爬蟲運行時程序流程圖

在整個數據采集完成工作后,我們需要調用數據標準化及索引模塊對在數據庫中存放頁面內容的原始數據表(DataList)進行整理、歸檔以及索引,生成最終的內容表(FinalList),以供客戶系統調用。

3.2中醫藥數據采集客戶系統 對于客戶系統,不同于管理系統,其便捷性和通用性是我們首要考慮的因素,因此我們可以采用BS模式構建一個web服務系統,從而使得用戶可以在任何地點通過任何設備訪問中醫藥數據采集的頁面。

系統可以.Net為基本架構,以SQL-SERVER為頁面采集的存儲數據庫,在客戶發起訪問時,返回類似百度的搜索界面,客戶于搜索框內發起搜索,系統將搜索請求提交回服務端,并在內容表(FinalList)搜索,最后將結果以列表方式返回用戶瀏覽器界面。這就完成了一次用戶請求。

4結論

在當今信息化高速發展的今天,我們進行了在互聯網平臺中進行中醫藥信息數據挖掘研究工作的初步探索。

經過一系列的理論研究和局部試驗,我們發現,通過對該問題進行一系列的分解后,大致可以分為算法研究、體系結構分析、以及程序實現幾個方面,而程序實現由包括主函數構建、程序協同、以及平臺建設等步驟。

在本文中著重對算法研究以及體系結構分析進行了探討,在程序實現方面給出了大致流程和方向,奠定了整個系統的架構基礎,為下一步的具體實現進行了有價值的先期鋪墊。

編輯/孫杰

主站蜘蛛池模板: 日韩精品亚洲一区中文字幕| 午夜一级做a爰片久久毛片| 日本人妻一区二区三区不卡影院| 日韩黄色在线| 国产一级毛片网站| 亚洲成年网站在线观看| 黄网站欧美内射| 丁香亚洲综合五月天婷婷| 欧洲亚洲一区| 四虎影视8848永久精品| 人妻一区二区三区无码精品一区| 在线观看国产网址你懂的| 色欲色欲久久综合网| 亚洲日本精品一区二区| 国产成+人+综合+亚洲欧美| 91精品国产91久久久久久三级| 国产午夜精品一区二区三| 97超爽成人免费视频在线播放| 成人午夜亚洲影视在线观看| 中文字幕日韩丝袜一区| 久久伊人操| 国产一级片网址| 国产在线观看99| 国产在线观看精品| 久久综合亚洲鲁鲁九月天| 国产成人精品一区二区不卡| 久久久久免费精品国产| 婷婷色丁香综合激情| 尤物亚洲最大AV无码网站| 亚洲欧美综合在线观看| 国产人成午夜免费看| 亚洲第一香蕉视频| 国产成人禁片在线观看| 欧洲高清无码在线| 欧洲欧美人成免费全部视频| 中文字幕在线一区二区在线| a天堂视频| 国产成人永久免费视频| 亚洲综合色婷婷中文字幕| 国产手机在线小视频免费观看| 久久精品人人做人人| 亚洲欧美综合在线观看| 综合网久久| 在线国产综合一区二区三区 | 国产成人精品优优av| 91精品最新国内在线播放| 国产成人AV男人的天堂| 91在线无码精品秘九色APP | 狠狠躁天天躁夜夜躁婷婷| 亚洲乱强伦| 国产精品林美惠子在线播放| 中国一级特黄视频| 欧美人与动牲交a欧美精品| 中文成人在线视频| 亚洲午夜国产精品无卡| 国产www网站| 日韩免费中文字幕| 国产激爽大片在线播放| 啪啪永久免费av| 欧美一级夜夜爽| 一本久道久久综合多人| lhav亚洲精品| 免费网站成人亚洲| 黄色免费在线网址| www.亚洲一区二区三区| 91免费在线看| 全色黄大色大片免费久久老太| 玩两个丰满老熟女久久网| 国产精品夜夜嗨视频免费视频| 91久久国产热精品免费| 亚洲精品亚洲人成在线| 国产污视频在线观看| 亚欧成人无码AV在线播放| 26uuu国产精品视频| 高清不卡一区二区三区香蕉| 九九香蕉视频| 久久婷婷色综合老司机| 国产全黄a一级毛片| 四虎精品黑人视频| 午夜少妇精品视频小电影| 国产精品亚洲片在线va| 欧美第九页|