郝毫剛,高錄軍,張積慧,劉玲,唐軍,李曉平,趙麗丹
(中國獸醫藥品監察所,北京100081)
?
基于獸藥電子追溯的獸藥大數據平臺建設研究
郝毫剛,高錄軍,張積慧,劉玲,唐軍,李曉平,趙麗丹*
(中國獸醫藥品監察所,北京100081)
從國家實施獸藥產品電子追溯著手,分析了獸藥大數據平臺建設的必要性,介紹了大數據的關鍵技術和分析應用,重點闡述了獸藥大數據平臺的建設原則和技術架構,對獸藥大數據平臺建設的關鍵因素進行了思考,以期為獸藥行業發展提供數據支撐。
大數據;獸藥電子追溯;數據分析
獸藥作為預防、治療、診斷畜禽等動物疾病的物質,是一種特殊商品,既要保障動物疾病得到有效的治療,又要保障動物和人的安全。為強化獸藥安全監管,保障動物產品質量安全,對獸藥產品實施追溯管理,國家實施了獸藥產品電子追溯碼(二維碼)標識制度,為政府、企業和廣大消費者提供相關的公共信息服務。兩年的實踐證明,國家獸藥產品追溯系統(以下簡稱追溯系統)的實施,規范了生產企業質量管理行為,提高了監管部門工作效率,為經營者、養殖者辨別非法產品提供了快捷可靠的手段,有效遏制了造假售假行為。隨著信息技術發展,全國乃至地方獸藥管理和研究機構均不同程度地吸納了國內外先進的信息技術, 建立了不同的系統平臺,獸藥行業的信息化程度得到很大提高。
“大數據”被看作是繼云計算、物聯網之后,人類歷史上又一次深刻的信息技術革命,是生活、工作與思維的大變革[1]。2015年,《國務院關于印發促進大數據發展行動綱要的通知》[2]正式發布,建立“用數據說話、用數據決策、用數據管理、用數據創新”的管理機制,實現基于數據的科學決策,將推動政府管理理念和社會治理模式進步。獸藥追溯系統建設及各級管理部門和企業信息管理系統的建設,為獸藥大數據平臺的建設積累了寶貴的經驗和基礎數據。由此,認識大數據、理清獸藥大數據平臺的建設思路,及早進行獸藥大數據平臺建設并應用,是獸藥企業、監管部門、檢驗機構的當務之急。
1.1 國家獸藥電子追溯歷程 2015年1月,農業部頒布中華人民共和國農業部公告第2210號[3],開始利用國家獸藥產品追溯系統實施獸藥產品電子追溯碼(二維碼)標識制度。國家獸藥產品追溯系統是為行業提供服務的公益性系統,主要在獸藥產品包裝上印制電子追溯碼(二維碼),生產者、經營者、監管者和消費者可掃描電子追溯碼(二維碼),查詢獸藥產品信息,實現獸藥產品可追溯。目前,追溯系統主要包含:國家獸藥產品追溯信息系統、國家獸藥基礎信息查詢系統、國家獸藥進銷存軟件、數據采集設備(內含數據采集系統)、國家獸藥查詢手機APP等。
2016年4月,農業部辦公廳發布《關于在全國范圍內組織開展獸藥經營追溯試點工作的通知》[4],在全國范圍內組織開展獸藥經營追溯試點工作。2016年6月,農業部發布《關于加快推進農產品質量安全追溯體系建設的意見》[5],應用現代信息技術加快推進全國農產品質量安全追溯體系建設。2016年10月,農業部辦公廳印發《農業農村大數據試點方案》的通知[6],推動農業農村大數據應用,在農產品質量安全監管領域研發支撐智慧農業建設的大數據應用系統,爭取2019年底實現數據共享取得突破和大數據應用取得突破。
1.2 我國獸藥行業信息共享現狀 近年來,我國獸藥信息體系發展迅速,已經積累了可觀的數據量。獸藥追溯系統體系框架初步建立。但獸藥生產、經營和使用主體呈現“多、小、散”特點,獸藥基礎信息仍處于多單位和多部門分散管理狀態,政企間信息資料得不到充分利用,無法實現信息資源共享。
1.2.1 國家獸藥信息數據庫不斷完善 中國獸藥信息網自2001年開通以來,宣傳獸藥產業政策方針、法律法規,普及推廣科學知識,成為獸藥行業信息化建設基礎。依托中國獸藥信息網建設的國家獸藥基礎信息查詢系統2011年11月正式上線運行,目前已有12個數據庫,28.5萬余條數據,包括獸藥生產企業(許可證和GMP證書)、獸藥產品批準文號、獸用生物制品批簽發(國產、進口)、獸藥標簽說明書等信息。
1.2.2 獸藥電子追溯不斷匯聚獸藥產業數據資產國家獸藥電子追溯將連接生產、經營、使用、監管四個環節,使我國獸藥產品首次實現流向可追溯、來源可查詢。目前,已有5000余家獸藥生產、經營企業和監管單位在使用追溯系統,獸藥生產、經營、使用、監管等多個環節中所產生的海量數據,逐漸形成獸藥產業數據資產。截止2016年12月底,追溯系統中的數據總量已近百億條。
1.2.3 獸藥不同環節信息化水平不均衡 獸藥使用環節的信息化應用水平遠落后于生產、經營環節。長期以來,獸藥行業信息化基本呈金字塔模式:以部分大型獸藥生產企業和監管單位為金字塔尖,大部分生產企業和部分獸藥經營企業組成金字塔身,多數經營企業和養殖場構成金字塔底。而獸藥使用信息恰恰是獸藥大數據的重要部分。
1.2.4 重系統建設,輕數據分析利用 近幾年來,獸藥行業對硬件基礎設施及應用系統開發的重視程度普遍較高,建成了各種管理系統,投入也越來越大,甚至用到了小型機和大型網絡設備,認為信息化建設與系統搭建實施可以直接劃等號,忽視了信息資源的開發和利用,出現了“重系統輕數據”的問題,對數據的分析利用、深度挖掘重視不足,難以滿足政府決策需求,信息化總體效益和效果不盡如人意。
1.2.5 獸藥信息共享不足,存在“單兵作戰”和“信息孤島”現象 我國在獸藥信息化建設尤其是獸藥監管和企業管理方面發展迅速,建立了國家獸藥產品追溯系統、企業防偽防串貨系統、實驗室信息管理系統(LIMS)、廣西動物衛生監督信息管理平臺、河南省飼料獸藥追溯系統等,但各省、市獸藥系統多數獨立運行,尚未實現業務數據的縱向交換和橫向共享。因數據采集的渠道不同、標準各異、重復冗余,系統之間難以兼容,信息資源難以共享,形成了“信息孤島”,由于缺乏溝通,沒有充分挖掘利用數據的潛在價值。
1.2.6 數據質量較差 不同的系統因多種原因數據收集和錄入準確性不高,數據標準出現前后不一致的現象。不同結構與屬性的數據來源分屬于很多部門,甚至個人所有,數據采集質量較差。
總的來看,目前我國獸藥行業整體尚未能實現信息共享。隨著信息化水平不斷提高,獸藥行業單位和企業積累了大量基礎數據和業務數據,這些“原始數據”是信息化建設和管理的基礎。隨著大數據等技術的成熟,信息化建設的重心將逐步從信息技術向數據技術轉化,未來信息化建設的重心將是如何對系統內的數據進行深入的挖掘和分析。
1.3 獸藥大數據平臺建設的必要性 有效、適時的大數據管理能夠從我國獸藥生產、流通、使用和監管領域的數據中分析出很多深入的和有價值的信息,為建立完善的獸藥追溯體系和風險預測機制提供契機和依據,也有助于解決獸藥安全信息不對稱的問題。
對于監管部門來說,建設獸藥大數據平臺有助于探索建立新的獸藥安全風險防控機制。獸藥大數據平臺建成之后,利用大數據,可以分析不同地區的用藥情況,找出控制用藥的重點地區;分析不同畜禽品種的用藥情況,找出重點的控制用藥的畜禽品種;分析不同的季節與養殖規模和畜禽用藥的關系,給出有效應對措施;分析抗菌藥的使用特點,采取針對性的措施;分析假劣獸藥的生產、流通和使用規律,提高假劣獸藥的打擊力度和獸藥殘留控制的效率;實現大視角、全方位、多角度的觀察和分析,找出重點、找準關鍵點,建立新的獸藥安全風險防控和風險預測機制。
對于生產、經營企業來說,建設獸藥大數據平臺有助于提高企業管理水平。國家獸藥電子追溯碼的推行加快了獸藥企業信息化建設,基礎設施及應用系統開發的重視程度逐漸增高,但卻出現了“重系統輕數據”問題,對數據分析利用、深度挖掘重視不足。行業普遍認為,信息化建設等同于系統開發應用,忽視信息資源的開發和利用。目前獸藥企業信息系統并未按照統一標準開發,多數只能滿足業務流程的電子化和功能性需求,無法有效提取數據中含有的巨大價值。
對于終端獸藥用戶來說,建設獸藥大數據平臺可提供廣泛的查詢及用藥服務。獸藥作為一種特殊商品,獸藥綜合信息查詢可以提高用藥安全性。目前,國內的獸藥綜合信息查詢平臺僅有國家獸藥基礎信息查詢系統,功能僅限于基礎獸藥相關信息查詢,尚不能滿足終端獸藥用戶用藥服務。獸藥大數據平臺未來可通過定制服務為包括政府機構、監管單位、企業、普通大眾等不同層級提供服務,從基礎應用到深度應用,從查詢服務到數據服務,實現獸藥基礎信息查詢、流通信息追溯、監管信息共享,整合獸藥生產環節、經營環節、監管環節、養殖場、終端用戶的數據信息,逐步建立獸藥產業數據資產。
2.1 大數據的定義 目前對大數據尚未有統一公認的定義。維基百科給出的大數據定義為:數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理并整理成為人類所能解讀的信息;IBM 則用4個特征相結合來定義大數據:數量(volume)、種類(variety)、速度(velocity)和真實(veracity)[7]。目前人們對大數據具有數量巨大(volume)、種類多樣(variety)和處理時效緊(velocity)的特征存在共識。大數據可以在大規模數據的基礎上,挖掘分析獲得新的認知、創造新的價值并以此改變市場、組織機構以及政府與公民的關系[8]。同時,也是政府做出科學、準確決策的“數據技術支撐”。通俗的講,大數據指的是經過長期收集所得的資料, 因規模巨大而復雜, 無法通過目前主流的數據庫管理工具和數據處理軟件來處理[9]。大數據與過去海量數據的區別不僅僅在于數據量更大, 更在于數據類型繁多[10],不單純包括“數字”,還包括文本、圖片、音頻、視頻等多種格式,涵蓋內容十分豐富[11]。
根據來源的不同,大數據大致可分為如下三類[12]:(1)來自于人。人們在互聯網活動以及使用移動互聯網過程中所產生的各類數據,包括文字、圖片、視頻等信息。(2)來自于機。各類計算機信息系統產生的數據,以文件、數據庫、多媒體等形式存在,也包括審計、 日志等自動生成的信息。(3)來自于物。各類數字設備所采集的數據。如攝像頭產生的數字信號、醫療物聯網中產生的人的各項特征值、天文望遠鏡所產生的大量數據等。
獸藥大數據屬于生物大數據范疇。在我國目前獸藥監管體系下,獸藥大數據有動態數據和靜態數據,主要含有:獸藥監管機構歷年獸藥質量抽查檢驗數據;歷年獸藥基礎數據;獸藥注冊審批資料;企業GMP及過程控制信息;獸藥電子追溯信息;來源于公共數據庫和文獻的與藥物分析、安全性評價等有關的數據。這些信息既包括數字型數據,如獸藥檢驗結果;也有文本類信息,如抽驗報告、注冊資料等。上述信息或數據具有明顯實效性,隨著時間的推移,使用價值遞減。因此,如何在合理的時間內對上述信息的提取、處理并整理成可服務于獸藥行業的有用信息則成為關鍵。
2.2 大數據的關鍵技術 大數據處理涉及數據的采集、管理、分析與展示等。相關技術示意圖如圖1所示。

圖1 大數據相關技術示意圖
2.2.1 數據采集與預處理 大數據處理的第一步是從數據源采集數據并進行預處理操作,為后繼流程提供統一的高質量的數據集。數據采集與預處理主要含有數據清洗、數據集成、數據存儲三個方面。
在大數據環境下,大數據的維度包含了數量、多樣性、速度、精確性等,在如此大維度中不可避免地存在冗余、錯誤、粗糙的數據,如何將這些良莠不齊的非清潔數據有效轉化成高質量的干凈數據,需要數據清洗。數據的質量體現出數據的價值,數據清洗是數據質量研究的起點,其本質是發現并解決問題的過程,最終目的是提高數據的質量[13]。數據清洗主要是將不正確、不完整和不一致的數據進行過濾和規范,從而提高決策系統的準確性;并根據待分析數據的特點對規范后的數據進行歸約,從而提高決策系統的效率。
由于大數據的來源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在數據集成過程中對數據進行清洗,以消除相似、重復或不一致的數據是非常必要的。
數據存儲與大數據應用密切相關。某些實時性要求較高的應用,如狀態監控,更適合采用流處理模式,直接在清洗和集成后的數據源上進行分析。而大多數其它應用則需要存儲,以支持后繼更深度的數據分析流程。為了提高數據吞吐量,降低存儲成本,通常采用分布式架構來存儲大數據。
2.2.2 數據分析 數據分析是大數據應用的核心流程。根據不同層次大致可分為三類:計算架構、查詢與索引以及數據挖掘。在計算架構方面,MapReduce是當前廣泛采用的大數據集計算模型和框架。在查詢與索引方面,由于大數據中包含了大量的非結構化或半結構化數據,傳統關系型數據庫的查詢和索引技術受到限制,而NoSQL類數據庫技術得到更多關注。由于大數據環境下數據呈現多樣化特點,所以對數據進行挖掘時,就較難統一術語進而挖掘信息。
2.2.3 數據解釋 數據解釋旨在更好地支持用戶對數據分析結果的使用,涉及的主要技術為可視化、人機交互和結果展示。目前已經有了一些針對大規模數據的可視化研究,通過數據投影、維度降解或顯示墻等方法來解決大規模數據的顯示問題。由于人類的視覺敏感度限制了更大屏幕顯示的有效性,以人為中心的人機交互設計也將是解決大數據分析結果展示的一種重要技術。
2.2.4 其他支撐技術 雖然大數據應用強調以數據為中心,將計算推送到數據上執行,但是在整個處理過程中,數據的傳輸仍然是必不可少的。由于虛擬集群具有成本低、搭建靈活、便于管理等優點,人們在大數據分析時可以選擇更加方便的虛擬集群來完成各項處理任務。
2.3 大數據的分析應用 目前,大數據的分析應用主要用于科學、醫藥、商業、金融、互聯網等各個領域,用途差異巨大,但是其分析應用主要有以下三個方面[14]:(1)推測趨勢:由于大數據中包含大量原始、真實的信息,大數據分析能更準確把握事物背后的規律,有效消除個體特征差異,對自然或社會現象進行預測,如可以根據Twitter信息預測股票行情。(2)分析個體特征:個體特征在滿足群體特征時,具有鮮明的個性化特征。大數據中積累了長時間、多維度的數據,可以分析用戶行為規律,更準確描述個體特征,為用戶提供個性化產品和服務。如Google通過其大數據產品對用戶的習慣和愛好進行分析,幫助廣告商評估廣告活動效率,預估在未來可能存在高達到數千億美元的市場規模。(3)分辨真相:大數據來源廣泛而多樣,在一定程度上它可以幫助實現信息的去偽存真。如Yahoo利用大數據分析技術來過濾垃圾郵件。
3.1 建設原則 按照“整體規劃、統一標準、分步實施、逐步完善”原則,從獸藥行業需要出發,統籌整體規劃、強化頂層設計,統一數據定義、制定數據標準,逐步健全平臺、分步實施應用,建設數據中心、完善數據模塊,實現對獸藥數據的深度利用和信息共享,輔助行政管理部門進行合理、有效地決策。為了保證獸藥大數據平臺發揮其應有的作用和功能,建設獸藥大數據平臺時應遵循以下原則:
經濟適用原則:按照經濟實用、需求主導的要求,確定平臺建設的規模和軟硬件配置,要求系統具有很強的環境適應性、較好的開放性;功能模塊間輕耦合,互相通信,交換數據。統一建設原則:平臺建設要統一數據標準(數據結構標準),同時兼顧特殊性,形成縱向和橫向的一體化數據中心。安全可靠原則:平臺建設要符合信息安全的一般特征,保證存儲安全、邏輯安全、訪問安全和傳輸安全,結合平臺自身安全體系,充分確保數據、網絡安全。可擴展性原則:平臺建設應具有較大的可升級空間,以保證業務流程的連續性和系統信息的一致性,立足現有數據資源整合建設,同時為未來不同數據融合利用留有余地。分步實施原則:信息化平臺建設不會一蹴而就,是一個長期、持續的過程,既要考慮短期內成效,又要保護持續發展。因此,平臺架構設計要先進合理,符合主流趨勢,才能確保之后運行穩定、安全可靠、后續建設。
3.2 平臺架構 獸藥大數據的開發建設采用智能化數據處理工具,對國家獸藥產品追溯系統、國家獸藥產品基礎信息查詢系統、LIMS等系統產生的海量數據按照數據規范進行清洗、整合后,根據業務需求對數據進行二次計算,并以可視化交互方式進行展示,通過簡單、靈活、可擴展的操作方式獲取分析統計結果,為獸藥監督管理、企業運行等提供服務。獸藥大數據平臺架構如圖2所示。
3.3 平臺建設關鍵因素 獸藥電子追溯碼標識制度是獸藥行業發展的需要,獸藥電子追溯體系收集的信息資源對于前期大數據平臺建設十分重要。獸藥大數據平臺建設關鍵因素如下:
3.3.1 建立制度體系,加強數據共享,打破“信息孤島模式”,形成數據資源共享的體制與機制 在這方面,獸醫行政管理機構可充分發揮統籌和引領作用,基于對核心單位和企業調研,制定規劃目標,建立農業部門內部不同司局、單位、部門之間的溝通協作機制,梳理各部門之間的數據共享交換標準,同時部級、省級、市級、縣級各主管部門之間建立數據共享匯聚渠道,建立我國獸藥大數據中心,形成我國獸藥數據資產。

圖2 獸藥大數據平臺架構
3.3.2 完善數據標準,保證業務數據準確性、唯一性,確保原始業務數據質量 對已有數據需徹底清洗和規范,使之能符合數據分析的要求,此過程需要和業務部門商討,總結出數據的規范和標準,并通過一些專業的數據處理工具對原始數據進行自動清洗。還需引入業務專家對清洗后的數據進行人工審核,繼續找出數據中存在的問題,并給予修正,直到滿足后期數據分析的要求為止。
3.3.3 整合數據資源,強化頂層設計,建設數據中心 在獸藥大數據平臺建設過程中,應統籌規劃數據中心與之前系統,加強統一指導,分級建設,按照統一的信息化標準規范,加快整合各類業務應用系統,逐步建設成國家、省(市)兩級的獸藥大數據中心,實現資源整合和數據共享,為科學決策、智能監管以及行業服務提供數據支撐。
3.3.4 加強人才培養,建設復合型人才隊伍 大數據時代的到來對獸藥行業人才的技能和素質提出了新的要求,急需擅于處理龐大規模和復雜結構數據的專業人才,包括數據分析師、數據可視化人員和數據管理人員等,以適應深度分析數據的需要。除要具備較強的數理統計知識和技能,還要擁有一定管理、獸醫獸藥、信息技術等專業知識,才能具備跨學科、跨領域的數據綜合分析思想,駕馭大數據時代的數據挖掘與分析應用。
大數據是一種從海量數據中快速獲取信息的能力,為提高我國獸藥行業發展水平提供了新的思路和切入點。獸藥大數據平臺的建設是一項技術、業務、管理緊密結合的復雜工程,目前還處在探索和研究階段。 在平臺建設的設計過程中,應充分考慮平臺的標準化和開放性,以及完善的配套法規制度,如平臺運行保障制度、數據質量保障制度、數據安全保障制度等。
在獸藥電子追溯制度實施和大數據時代的背景下,期待進行大數據和獸藥行業的大融合,進一步推動獸藥行業的信息化建設,為提升獸藥監管效能,提供科學、有效的數據支撐。
[1] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶. 大數據時代[M]. 杭州:浙江人民出版社, 2013.
[2] 國務院. 國發[2015]50號國務院關于印發促進大數據發展行動綱要的通知[S] .2015.
[3] 農業部. 中華人民共和國農業部公告第2210號[EB/OL]. (2015-1-27). http://www.moa.gov.cn/govpublic/SYJ/201501/t20150127_4352158.htm
[4] 農業部辦公廳.《關于在全國范圍內組織開展獸藥經營追溯試點工作的通知》農辦醫[2016]22號[EB/OL]. (2016-4-15). http://www.moa.gov.cn/govpublic/SYJ/201604/t20160419_5100452.htm
[5] 農業部. 《關于加快推進農產品質量安全追溯體系建設的意見》農質發[2016]8號[EB/OL]. (2016-6-23). http://www.moa.gov.cn/govpublic/ncpzlaq/201606/t20160623_5184476.htm
[6] 農業部辦公廳. 《關于印發<農業農村大數據試點方案>的通知》農辦市[2016]30號[EB/OL]. (2016-10-14). http://www.moa.gov.cn/zwllm/tzgg/tfw/201610/t20161018_5308511.htm
[7] 陳剛. 科學研究大數據挑戰[J]. 科學通報, 2015, 60 (5/6):439-444.
[8] 孟憲民, 李磊. 大數據應用及相關財稅思考[J]. 地方財政研究, 2013, (10):70-72.
[9] Wikipedia. Big data[EB/OL]. http://en.wikipedia.org/wiki/Big_data,2014-05-16.
[10]Grobelnik M. Big data tutorial [EB/OL]. (2012-10-22). http://viedeolectures.net/eswc2012-grobelnik-big-data/
[11]陳冠如.善用“大數據”成就智慧監管[N]. 中國醫藥報, 2014-04-08(8).
[12]李國杰, 程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域[J]. 中國科學院院刊, 2012, (6):647-657.
[13]蔣勛, 劉喜文. 大數據環境下面向知識服務的數據清洗研究[J]. 圖書與情報, 2013, (5) : 16-21.
[14]馮登國, 張敏, 李昊. 大數據安全與隱私保護[J]. 計算機學報, 2014, (1): 246-258.
(編輯:李文平)
Research on Construction of Veterinary Drugs Big Data Platform Based on Veterinary Drugs Electronic Trace
HAO Hao-gang, GAO Lu-jun, ZHANG Ji-hui, LIU Ling, TANG Jun, LI Xiao-ping,ZHAO Li-dan*
(ChinaInstituteofVeterinaryDrugControl,Beijing100081,China)
In this paper the necessity of construction on veterinary drugs big data platform was analyzed,the key technology and analytical applications of big data were introduced from the current situation of state implementing veterinary drugs product electronic trace.Meanwhile,emphasis was on the specification of the construction principle and technology framework of veterinary drugs big data platform.In addition,reflection was made on the key factors in the construction of veterinary drugs big data platform in order to provide data support for the development of veterinary drugs industry.
big data; veterinary drugs electronic trace; data analysis
郝毫剛,碩士,工程師,從事獸藥信息化建設和大數據研究工作。
趙麗丹。E-mail: zhaolidan@ivdc.org.cn
2017-01-05
A
1002-1280 (2017) 03-0004-07
S851.66