蔣發(fā)俊 覃 琳 黃柏福
(廣西壯族自治區(qū)計(jì)算中心,廣西 南寧 530022)
基于大數(shù)據(jù)技術(shù)的藥用植物研究成果管理平臺(tái)設(shè)計(jì)
蔣發(fā)俊 覃 琳 黃柏福
(廣西壯族自治區(qū)計(jì)算中心,廣西 南寧 530022)
藥用植物研究是一門數(shù)據(jù)量巨大而又復(fù)雜的學(xué)科, 大量專業(yè)的研究數(shù)據(jù)不僅難于記憶查找,而且也不利于成果的深度開發(fā)利用。通過(guò)設(shè)計(jì)開發(fā)藥用植物研究成果管理平臺(tái),將大數(shù)據(jù)技術(shù)等現(xiàn)代互聯(lián)網(wǎng)技術(shù)引進(jìn)到藥用植物研究領(lǐng)域,把藥用植物研究過(guò)程中產(chǎn)生的數(shù)據(jù)、資料、圖片等結(jié)構(gòu)化及非結(jié)構(gòu)化的研究成果存儲(chǔ)到管理平臺(tái)中并通過(guò)數(shù)據(jù)整理、清理、裝載、轉(zhuǎn)換等大數(shù)據(jù)算法技術(shù)進(jìn)行數(shù)據(jù)挖掘分析形成規(guī)范化、模塊化的數(shù)據(jù)倉(cāng)庫(kù),最終在平臺(tái)中提供數(shù)據(jù)采集、統(tǒng)計(jì)查詢、分析預(yù)測(cè)等功能服務(wù),為藥用植物研究成果的管理提供科學(xué)有效的辦法,創(chuàng)造更高的社會(huì)價(jià)值。
藥用植物;大數(shù)據(jù)技術(shù);研究成果;數(shù)據(jù)挖掘;分析預(yù)測(cè)
我國(guó)自古以來(lái)就有著藥用植物研究與應(yīng)用的悠久歷史,據(jù)統(tǒng)計(jì)目前我國(guó)境內(nèi)有超過(guò) 12000種的藥用植物,隨著中藥材在醫(yī)學(xué)界的廣泛應(yīng)用,藥用植物研究已經(jīng)成為了現(xiàn)代醫(yī)藥研究的熱點(diǎn)。
通過(guò)實(shí)際調(diào)研發(fā)現(xiàn),現(xiàn)階段藥用植物研究成果記錄缺乏先進(jìn)的方法和技術(shù)手段,大部分仍然使用幾十年前手寫記錄的方式。大量的研究信息和復(fù)雜的原始試驗(yàn)數(shù)據(jù)記錄之后就堆積在檔案室無(wú)人問(wèn)津,既不利于中醫(yī)藥事業(yè)的傳承交流,也給藥用植物研究成果的查詢應(yīng)用帶來(lái)了很大的困難。同時(shí)由于研究成果除了文字、數(shù)字之外,還包含了圖像、文本、報(bào)表等大量的非結(jié)構(gòu)化數(shù)據(jù),用于管理結(jié)構(gòu)化數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù)缺點(diǎn)以及局限性越來(lái)越明顯。在不斷增加的數(shù)據(jù)量和日趨的復(fù)雜數(shù)據(jù)結(jié)構(gòu)等因素的影響下,原始藥用植物研究成果勢(shì)必要借助大數(shù)據(jù)、非關(guān)系型數(shù)據(jù)庫(kù)等新技術(shù)進(jìn)行管理、加工才能得到更加有效的資源加以利用,發(fā)揮其巨大的價(jià)值和效應(yīng)。
基于這一目的設(shè)計(jì)了一個(gè)以大數(shù)據(jù)分析為核心,藥用植物研究成果管理應(yīng)用為目的藥用植物研究成果管理平臺(tái),將大數(shù)據(jù)技術(shù)運(yùn)用到藥用植物研究領(lǐng)域,保存分析藥用植物研究過(guò)程中產(chǎn)生的大量數(shù)據(jù)、資料、圖片等結(jié)構(gòu)化及非結(jié)構(gòu)化研究成果,探索大數(shù)據(jù)技術(shù)在藥用植物研究領(lǐng)域的應(yīng)用。
藥用植物的研究包括了種子保存、活體試驗(yàn)、離體試驗(yàn)、病蟲害研究、餾分試驗(yàn)以及標(biāo)本保存各個(gè)階段,每個(gè)階段都有大量的實(shí)驗(yàn)數(shù)據(jù)和植物藥理藥性信息需要記錄,而且信息資源具有有別于其他學(xué)科信息資源的典型大數(shù)據(jù)特征:數(shù)量龐大又極具復(fù)雜性。
藥園植物研究涉及到的信息包括了植物的基本屬性、生理信息、藥用植物特性、地理分布、試驗(yàn)數(shù)據(jù)、圖像信息、文件數(shù)據(jù)等多種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),同時(shí)由于各階段工作的相對(duì)獨(dú)立性,研究過(guò)程中又會(huì)產(chǎn)生大量的重復(fù)數(shù)據(jù)。
要實(shí)現(xiàn)藥用植物研究成果的管理利用,首先就需要解決大量研究成果的數(shù)據(jù)化、數(shù)字化以及存儲(chǔ)分析問(wèn)題,為此首先要整合藥用植物六個(gè)不同研究階段所產(chǎn)生的數(shù)據(jù), 把每個(gè)研究階段的大量結(jié)構(gòu)化及非結(jié)構(gòu)化信息進(jìn)行數(shù)據(jù)化、數(shù)字化并加以組合去重,然后把其中包含的不同內(nèi)容進(jìn)行關(guān)聯(lián),形成蘊(yùn)含豐富內(nèi)容的大數(shù)據(jù)資源。
大數(shù)據(jù)技術(shù)的核心作用在于從數(shù)據(jù)里面找出有價(jià)值的東西來(lái),迅速完成數(shù)據(jù)價(jià)值的提純。通過(guò)數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術(shù)對(duì)海量藥用植物研究成果進(jìn)行整理、清理、裝載、轉(zhuǎn)換,形成規(guī)范化、模塊化的數(shù)據(jù)倉(cāng)庫(kù),把復(fù)雜數(shù)據(jù)里面的的知識(shí)挖掘出來(lái),這樣我們才可以對(duì)研究?jī)?nèi)容進(jìn)行利用,進(jìn)而提供更多的信息服務(wù)。
藥用植物數(shù)據(jù)管理平臺(tái)的設(shè)計(jì)需要滿足數(shù)據(jù)集成、分析處理、綜合查詢、分析預(yù)測(cè)及輔助決策等功能,所以在設(shè)計(jì)過(guò)程中首先要對(duì)藥用植物研究過(guò)程進(jìn)行數(shù)據(jù)建模選擇合理的業(yè)務(wù)模型。
根據(jù)藥用植物研究工作的業(yè)務(wù)活動(dòng)流程及其研究成果類型,我們把藥用植物信息分成了基本屬性、地理位置、生理特征、藥用特性、研究成果、文件資料、圖像資料七大數(shù)據(jù)模塊。基本屬性包含藥用植物的中文名、拉丁名、科屬種等基本信息;地理位置包含植物的分布地點(diǎn)、采集地點(diǎn)、保存地點(diǎn)信息;生理特征包含植物的形態(tài)習(xí)性、生長(zhǎng)周期信息;藥用特性包含植物的藥用部位、藥材名、藥理作用、臨床應(yīng)用信息;研究成果包含研究階段的各種實(shí)驗(yàn)數(shù)據(jù)以及結(jié)論等內(nèi)容;文件資料包含和研究有關(guān)的相關(guān)文獻(xiàn)論文;圖像資料包含植物各生長(zhǎng)期以及標(biāo)本等圖像信息。
每個(gè)模塊數(shù)據(jù)都分別存儲(chǔ)于基本屬性數(shù)據(jù)庫(kù)、地理位置數(shù)據(jù)庫(kù)、生理特征數(shù)據(jù)庫(kù)、藥用特性數(shù)據(jù)庫(kù)、研究成果數(shù)據(jù)庫(kù)、文件數(shù)據(jù)庫(kù)、圖像數(shù)據(jù)庫(kù)七個(gè)獨(dú)立的子數(shù)據(jù)庫(kù)。分?jǐn)?shù)據(jù)庫(kù)的模式不僅可以保證系統(tǒng)擁有更快的響應(yīng)速度,而且各個(gè)子庫(kù)的內(nèi)容既可以獨(dú)立使用也可根據(jù)實(shí)際需要互相結(jié)合形成更加完整全面的數(shù)據(jù)信息。
按照數(shù)據(jù)模塊的劃分,管理平臺(tái)分為數(shù)據(jù)采集子系統(tǒng)、地理位置子系統(tǒng)、統(tǒng)計(jì)查詢子系統(tǒng)、生理特征子系統(tǒng)、藥用特性子系統(tǒng)、趨勢(shì)預(yù)測(cè)子系統(tǒng)、文件子系統(tǒng)、圖像子系統(tǒng),每個(gè)子系統(tǒng)都提供特定的功能,方便不同平臺(tái)使用人員根據(jù)實(shí)際需求快速地找到所需信息。藥用植物研究成果管理平臺(tái)的整體系統(tǒng)架構(gòu)圖如圖1:

圖1 平臺(tái)系統(tǒng)架構(gòu)圖
大數(shù)據(jù)平臺(tái)的搭建,使用了針對(duì)超大數(shù)據(jù)集合的低延遲集群分布式計(jì)算系統(tǒng)Spark作為基礎(chǔ)引擎。Spark是一個(gè)基于內(nèi)存計(jì)算的開源的集群計(jì)算系統(tǒng),提供了多種數(shù)據(jù)處理函數(shù),包括基本匯總、map-reduce等,同時(shí)還提供Count, collect, reduce, lookup, save等多種 actions。通過(guò)使用這些多種多樣的數(shù)據(jù)集操作類型來(lái)構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序,給平臺(tái)上層應(yīng)用提供了方便。平臺(tái)利用 Spark強(qiáng)大的數(shù)據(jù)處理能力來(lái)對(duì)采集數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)處理、數(shù)據(jù)異構(gòu)、數(shù)據(jù)可視化及數(shù)據(jù)挖掘等操作,最終提供數(shù)據(jù)分布式索引、統(tǒng)計(jì)查詢、分析預(yù)測(cè)等功能。
在數(shù)據(jù)安全方面還設(shè)計(jì)了備份恢復(fù)功能,自動(dòng)對(duì)平臺(tái)上重要的數(shù)據(jù)定期進(jìn)行備份,當(dāng)數(shù)據(jù)因故障丟失或者順壞時(shí)平臺(tái)能夠及時(shí)地通過(guò)備份數(shù)據(jù)庫(kù)進(jìn)行恢復(fù)。同時(shí)平臺(tái)設(shè)計(jì)過(guò)程中預(yù)留了數(shù)據(jù)接口以及二次開發(fā)接口,方便與其他系統(tǒng)的集成和今后對(duì)平臺(tái)功能進(jìn)行升級(jí)。

圖2 平臺(tái)系統(tǒng)分層結(jié)構(gòu)圖
藥用植物研究成果管理平臺(tái)完成后,最終將實(shí)現(xiàn)集科研究數(shù)據(jù)采集、信息發(fā)布共享、統(tǒng)計(jì)查詢、分析預(yù)測(cè)于一體的目標(biāo),通過(guò)現(xiàn)代軟件技術(shù)及大數(shù)據(jù)技術(shù)幫助研究人員提高藥用植物研究工作的質(zhì)量及效率;研究成果的數(shù)字化可以極大程度地避免以往紙質(zhì)文件或 Excel記錄容易丟失難以查找的情況再次發(fā)生;而原始的研究成果經(jīng)過(guò)平臺(tái)海量數(shù)據(jù)挖掘分析整合處理之后,將會(huì)得到更加簡(jiǎn)單規(guī)律且易于理解的高價(jià)值數(shù)據(jù),便于藥用植物研究成果的分享及深度利用。
目前系統(tǒng)架構(gòu)的搭建、數(shù)據(jù)庫(kù)設(shè)計(jì)、各子系統(tǒng)的開發(fā)和基礎(chǔ)數(shù)據(jù)錄入都已經(jīng)全部完成,藥用植物研究成果管理平臺(tái)中總共保存了接近3000條的植物研究數(shù)據(jù),包含藥用植物的基本屬性、藥用特性、生理特征、地理分布、實(shí)驗(yàn)數(shù)據(jù)、圖像、文件等內(nèi)容,為平臺(tái)的大數(shù)據(jù)分析挖掘提供了數(shù)據(jù)基礎(chǔ)。

圖3 平臺(tái)已錄入的藥用植物列表
通過(guò)各個(gè)子系統(tǒng),平臺(tái)已經(jīng)實(shí)現(xiàn)了數(shù)據(jù)采集、信息發(fā)布共享、統(tǒng)計(jì)查詢、地理位置分析、趨勢(shì)預(yù)測(cè)等功能。其中數(shù)據(jù)采集除了可以通過(guò)人工錄入外,我們還提供了批量導(dǎo)入的接口,方便對(duì)歷史研究數(shù)據(jù)的快速處理;統(tǒng)計(jì)查詢功能能夠通過(guò)圖表、餅狀圖以及柱狀圖的方式對(duì)藥用植物科、屬、種、分布區(qū)域等內(nèi)容歸類展現(xiàn);地理位置分析功能結(jié)合百度地圖進(jìn)行顯示,藥用植物分布一目了然;趨勢(shì)預(yù)測(cè)可以通過(guò)植物的地理位置、生理特性等信息分析預(yù)測(cè)植物分布范圍、生長(zhǎng)規(guī)律、生命周期甚至植物進(jìn)化趨勢(shì)等內(nèi)容。

圖4 植物地理位置分布功能
借助藥用植物研究成果管理平臺(tái),利用 Spark大數(shù)據(jù)技術(shù)來(lái)對(duì)藥用植物研究成果進(jìn)行保存和整理挖掘分析,不僅提高了藥用植物研究工作的效率,而且通過(guò)對(duì)原始數(shù)據(jù)的深度挖掘分析歸納,有效解決了傳統(tǒng)的紙質(zhì)研究成果查詢不便、難以閱讀等問(wèn)題,提高了研究成果利用價(jià)值價(jià)值。
在下一步的研究過(guò)程中,我們將繼續(xù)探索優(yōu)化大數(shù)據(jù)模型算法,提高平臺(tái)數(shù)據(jù)挖掘處理能力,通過(guò)搭建分布式數(shù)據(jù)庫(kù)、數(shù)據(jù)集群等措施提高系統(tǒng)并發(fā)處理能力,進(jìn)一步改善平臺(tái)的不足及缺點(diǎn),提供更加全面高效的服務(wù)。
大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)成為了一個(gè)新興的國(guó)家戰(zhàn)略性產(chǎn)業(yè),而大數(shù)據(jù)在藥用植物研究領(lǐng)域還處于起步階段,今后還將會(huì)有更大的研究發(fā)展空間,相信借助新技術(shù)新應(yīng)用的幫助,藥用植物研究成果的利用一定能夠更上一個(gè)臺(tái)階,在推進(jìn)藥用植物研究進(jìn)步的同時(shí)產(chǎn)生更大的社會(huì)效益。
[1] 艾鐵民.中國(guó)藥用植物志.第 12卷[M].北京大學(xué)醫(yī)學(xué)出版社, 2013.
[2] (美) Jiawei Han [加]Micheline Kamber [加]Jian Pei.數(shù)據(jù)挖掘:概念與技術(shù)[M].機(jī)械工業(yè)出版社,2012.
[3] 李智慧.大型網(wǎng)站技術(shù)架構(gòu):核心原理與案例分析[M].電子工業(yè)出版社,2013.
[4] (美) Holden Karau.Spark快速數(shù)據(jù)處理[M].機(jī)械工業(yè)出版社,2014.
Management platform based on the results of a large study of medicinal plants data technology
Medicinal Plant Research is a huge and complex amount of data subjects, data is not only a large number of professional studies find difficult to remember, but not conducive to the depth of exploitation outcomes. Through the design and development of medicinal plants research management platform, big data technology and other modern Internet technology into the field of medicinal plant research, the study of medicinal plant research data generated in the process, information, pictures and other structured and unstructured results of stored data management platform and through consolidation, cleaning, loading, and other large data conversion technology for data mining algorithms analyze a standardized, modular data warehouse, ultimately providing data collection, statistical inquiry, analysis and forecasting services and other functions in the platform providing scientific and effective way to manage medicinal plants research and create a higher social value.
Medicinal plants; Big data technologies; research; data mining; analysis and forecast
S567
A
1008-1151(2015)02-0038-03
2015-01-13
蔣發(fā)俊,供職于廣西壯族自治區(qū)計(jì)算中心。