2022年12月19日,中共中央、國務院發布“數據二十條”,強調了數據要素生產、流通、使用的重要性,要求充分發揮數據要素的作用。同年,我國的數據產量達8.1ZB,同比增長22.7%,存儲量達724.5EB,同比增長21.1%,在數據領域取得了顯著的增長和發展。與此同時,藥品銷售總額也在不斷擴大,2022年藥品銷售總額為27516億元,同比增長6.0%。隨著藥品產業規模的發展和數據產量的急速擴張,人們期望能夠從海量的生物醫藥數據中挖掘有價值的見解,一方面可以了解到藥品市場的運行狀況和發展趨勢,為制定和調整相關政策提供科學依據;另一方面通過對藥品產業數據的監測和分析,及時發現市場異動,為監管部門提供預警,有效助力打擊非法活動。然而不同實驗室、不同企業做的數據庫,格式不一、保密性強,存在嚴重的數據孤島等亟待解決的問題。因此,本文將基于數據生命周期理論,梳理數據管理流程,發掘其中的重點和難點,并提出相應的建議,以推動藥品產業數據管理的規范化和高效化,保證藥品數據的可靠性和有效性。
一、藥品數據管理流程分析
生命周期理論是將生物學中的生命周期引入社會科學研究而誕生的概念,指數據經歷“生成—捕獲—組織—評估—分析—存儲—二次利用”的動態循環過程。現階段,存在許多不同的大數據生命周期模型,DCC模型采用環形方式,將數據生命周期劃分為8個階段,包括概念化、創建和接收、評價和選擇、提取、保存、存儲、訪問使用和重用、 轉換。CSA模型則包括創建、 存儲、 使用、 共享、 存檔、 銷毀,并關注每階段的數據安全問題。DDI模型包含研究概念、數據收集、數據處理、數據存儲、數據分發、數據發布、數據分析、數據再利用,而ANDS模型則包括創建、存儲、描述、識別、記錄、發現、訪問、利用。DataONE模型同樣采用環形方式,將數據生命周期劃分為8個階段,分別是數據計劃、數據收集、數據確認、數據描述、數據存儲、數據發現、數據整合、數據分析。這些不同的模型對于數據生命周期的階段劃分不同,側重點也存在差異,并未形成統一的規定或標準,如今被廣泛應用于不同的研究對象和領域。盡管細節上存在差異,然而不同生命周期模型的本質都是試圖梳理出數據從獲取到應用這些不同階段的屬性特征。
在藥品數據領域,相關研究尚處于亟需完善階段。本文嘗試基于數據生命周期理論,參考不同生命周期模型的劃分方法,結合藥品數據管理的特點和實際,梳理出出藥品數據管理流程,可以劃分為6個階段和2個要點。6個階段分別為數據收集、數據清洗、數據存儲、數據處理、數據共享和使用、數據歸檔與刪除,而在其中每個階段,都應當關注數據安全與隱私保護、數據質量監控與評估兩個要點。
1.數據收集。作為數據管理的第一步,必須確保數據的真實性和準確性。首先,要明確采集的目的和范圍,并選擇合適的數據源。其次,應制定合理的采集計劃和時間表,避免數據的遺漏和重復。再其次,對于每次采集活動,應記錄采集的時間、人員、內容等信息,以便于后續的數據清洗和整合。數據錄入是數據采集的后續環節,也是數據維護的重要環節。在數據錄入過程中,應建立合理的錄入流程和規范,確保數據的完整和準確。
2.數據清洗。對采集的原始數據開展標準化的清洗工作,并通過統一社會信用代碼將藥品產業數據與監管產業數據進行匹配,采用機器+人工雙重清洗和整合的方式進行整合規整。數據清洗和整合是數據維護的重要環節,目的是去除無效和錯誤數據、統一數據格式、整合不同來源的數據,提高數據的質量和可用性。首先,應制定合理的清洗和整合規則,包括數據的缺失值處理、異常值處理、重復數據刪除等。其次,應進行數據轉換和整合,將不同來源的數據進行匹配和關聯,形成統一的數據集。再其次,應對數據進行格式化和標準化處理,以便于后續的數據分析和應用,并通過統一社會信用代碼將藥品產業數據與監管產業數據進行匹配,采用機器+人工雙重清洗和整合的方式進行整合規整。
3.數據存儲。選擇合適的存儲方式,確保數據的安全和可訪問。定期自動化對數據進行備份,防止數據的損壞,重要數據可采取雙渠道進行存儲。建立應急響應機制,對于備份存儲設備故障、網絡中斷等突發事件進行及時處理和恢復。同時,也建立及時恢復機制,保證一些丟失數據的連續性。另外,還應進行定期的備份恢復測試以確保備份數據的可用。
4.數據處理。根據業務需求,對數據進行處理和分析,提取有價值的信息。例如統計分析、機器學習、數據挖掘等。這些分析過程可以幫助發現數據中的模式、趨勢、關聯性。此外,也可將分析結果以可視化的形式呈現出來,如圖表、報告等。
5.數據共享和使用。在處理完數據后,將數據提供給其他人或組織進行進一步的分析、應用或決策。在數據共享過程中,需要確保只有具有合適權限的用戶或組織能夠訪問和使用數據。
6.數據歸檔與刪除。根據法規和業務需求,對不再需要的數據進行歸檔或刪除。期間需要遵守適用的法律和隱私政策,并采取合適的安全措施,防止數據泄露或濫用。
7.數據安全與隱私保護。統一隱藏敏感信息不被未被授權人員訪問,并結合相關法律法規要求,維護數據的安全性。實行數據分級管理,對于收集到的產業數據,進行分類儲存,需要時進行相應的授權調取。依據數據安全治理的理念,從軟件到硬件,從網絡邊界到內部,從事前準備到事后追溯,幾乎所有的安全技術都可以用在數據安全的防護上。主要包括:設備系統安全——防止攻擊者利用設備軟硬件的安全漏洞發起對數據的攻擊。數據越敏感,對承載其存儲和使用的設備的系統安全性要求越高。密碼學及隱私保護算法——在數據脫離系統安全機制保護的情況下,對數據安全和隱私提供保護。認證和訪問控制——根據數據等級以及相關業務的配套安全策略,對訪問者的身份和權限進行管控。數據安全管理——根據數據面臨的風險,配置策略,構建對攻擊快速感知和響應以及事后審計能力。
8.數據質量監控與評估。定期對收集到的藥品產業數據與國家統計局、地方統計局的數據進行對比核對,驗證數據的準確性,并對出現的偏差進行原因的查找。同時,逐步形成動態變化的質量控制標準和指標,進行藥品產業數據重要部分的監測。確保數據的準確性,不斷提高為分析結果的可信度提供保障,例如設定數據的準確性完整性時效性等參數指標,并根據實際情況對這些參數指標進行動態調整優化以提升數據質量水平。
二、建議
綜合上述流程分析的要點,一方面,要實現數據的處理,以及把握數據的安全,必須綜合利用多項技術,實行數據分級管理;另一方面,要完成不同來源的藥品數據整合,以及把握數據的質量,必須統一數據的參數,按照統一的標準對數據進行各項操作。因此,本文認為應當搭建藥品產業數據平臺,集成多種技術和功能,作為藥品產業數據管理的核心樞紐,并構建數據質量控制規則作為統一的標準。
1.搭建藥品產業數據平臺。為提升藥品數據管理的效率和可靠性,以及維護數據安全與隱私保護,對照上文梳理的數據管理流程,搭建藥品產業數據平臺,主要由以下四塊組成。
①信息采集平臺:信息采集平臺是藥品產業數據平臺的基礎,負責收集、整理和存儲藥品產業的各類數據。包括藥品的生產、銷售、使用等各個環節的數據,以及藥品的種類、成分、劑型、規格、價格等各類信息。信息采集平臺需要具備強大的數據處理能力,能夠處理大量、多樣、復雜的數據。同時,信息采集平臺還需要具備高度的安全性,確保數據的安全、準確、完整。通過信息采集平臺,可以全面、深入地得到藥品產業的數據。
②信息分析平臺:信息分析平臺是藥品產業數據平臺的核心,負責對收集到的數據進行深度分析和研究。信息分析平臺需要運用各種數據分析方法和技術,例如統計分析、數據挖掘、機器學習、人工智能等,對數據進行深入的挖掘和分析。通過信息分析平臺,可以發現藥品產業的發展趨勢,預測未來可能出現的問題,為政策制定提供科學依據。同時,信息分析平臺還可以為藥品產業的各個參與者提供有價值的信息和洞見,為藥品產業上下游做出更好的決策。
③信息運營平臺:信息運營平臺是藥品產業數據平臺的執行部分,負責根據分析結果,制定并執行有效的信息運營策略。信息運營平臺需要具備強大的數據運營能力,能夠根據數據分析結果,制定出針對性的運營策略,并將這些策略有效地執行下去。例如,信息運營平臺可以根據藥品銷售數據,制定針對性的管理策略,比如根據藥品使用數據,獲知短缺藥品多維度監測信息,從而推出藥品的使用指導意見,提高藥品的使用效率。
④信息賦能平臺:信息賦能平臺是藥品產業數據平臺的延伸部分,負責將分析結果以易于理解和使用的形式,提供給藥品產業的各個參與者。信息賦能平臺需要具備強大的數據服務能力,能夠將復雜的數據和信息,轉化為簡單、直觀、易于理解和使用的形式,如圖表、報告、預警等。通過信息賦能平臺,無論是藥品生產商、銷售商,還是醫生、患者,都可以根據這些信息,做出更加科學、合理的決策。可導入人工智能、大模型、知識圖譜等,實現智能推薦,精準化分析等。
2.構建數據質量控制規則。當前,區分各個維度以全方位控制及評估數據質量是常見的方法,國際標準化組織發布的《ISO/IEC 25012-2008》區分數據質量固有屬性、系統相關數據質量屬性、固有與系統相關關聯屬性,提出準確性、完整性等15個不同方面,較為全面的總結了質量控制的維度。但是在不同領域的實踐中,這些維度會存在重復或缺失,因此學者們基于不同的理論,根據不同行業的特性,提出了不同的數據質量控制體系,涉及相同或不同的維度。例如在電子病歷數據質量評估中強調了時效性和精細性,在企業數據質量評估中則強調有用性,在科學數據質量控制中強調開放可訪性,在食品安全監管大數據質量評估中強調數據的全面性。因此,本文將基于藥品數據管理的實踐,提出藥品數據質量控制的框架,并力求各維度全面而相互獨立。
首先,從數據本身的性質出發,需要保證錄入的數據都是真實的,其來源也應當是可靠的,在數據清洗中要統一其格式,使其符合國家標準或行業規范,并刪除重復的數據。其次,從數據平臺的系統性考量,不同來源的數據需要保持格式和內容的一致性,從而能夠進行整合、存儲并備份。為實現數據共享,則要保證數據能夠依據授權獲取。再其次,從藥品行業的性質考慮,為便于對藥品行業進行監管,藥品數據需要滿足數據的精細完整和可追溯。同時,數據應當包含有用信息,并注意及時刪除過時信息,使其可用于分析,從而為行業的發展提供價值。基于此,可以將藥品數據質量控制分為以下6個維度,并細分成17個規則。
①準確性:數據應該準確無誤,采集方法科學有效,能與現實世界中的事實和數值相匹配,能夠真實反映藥品的情況。據此,本維度下可以制定5條基本規則,要求數據與事實相符、要求數據的精確度符合規范、要求命名的定義準確、要求數據的測量方法科學、要求數據間的關系符合邏輯。
② 一致性:包括數據格式和概念的一致,由于數據來源不同,一方面,數據格式采用了不同的標準;另一方面,不同數據采集者對同一名詞的定義不同或對同一概念采用不同的表述,這些都需要進行統一。 據此,本維度下可以制定4條基本規則,要求相同的屬性必須采用相同的數據格式、要求名稱相同的屬性指同一個概念、要求同一個概念采用相同的名稱、要求跨表的數據不存在沖突。
③可訪性:數據應該易于訪問和使用,包括查找、檢索、組合和比較等方面。據此,本維度下可以制定3條基本規則,要求數據可以按規定訪問、要求數據兼容不同系統、要求數據可以按規定使用。
④完整性:數據應該完整,包括所需的所有數據元素和相關信息。據此,本維度下可以制定2條基本規則,要求數據不能出現空值、要求做到數據備份。
⑤可溯性:數據應當注明來源,以便溯源進行驗證。據此,本維度下可以制定1條基本規則,要求所有數據包含其來源。
⑥有效性:一方面,數據應當及時更新,以確保數據反映的不是過時的情況;另一方面應當避免數據重復。據此,本維度下可以制定2條基本規則,要求數據按時更新、要求數據不重復。
三、結語
中國生物醫藥行業的數字化發展自2010年起發展至今已初具規模,生物醫藥企業應發揮引領作用來推動數字醫療生態發展,根據調查數據顯示,目前已有超60%的企業表示開展數字化轉型,而剩余未開展數字化轉型的企業也認為有轉型必要,與生物醫藥產業的數字化趨勢相呼應。然而,由于生物醫藥產業既往數字化基礎弱,業務方向、投入占比等差異大,行業數字化相對來說落后于其他行業。本文在充分借鑒國內外文獻基礎上,從實踐出發,基于生命周期理論梳理出藥品數據管理流程,據此建議搭建藥品產業數據平臺和構建數據質量控制規則,并嘗試完善數據質量維度分類,包括準確性、一致性、可訪性、完整性、可溯性、有效性,并從中細分出17個規則類型,通過這些規則的落實可以保障數據的統一與規范。這些將為藥品產業管理規則構建,藥品產業數據平臺完善提供有益的依據。[國家自然科學基金公共治理變更創新的理論及機制(NSFC72234004)資助。]
(作者單位:同濟大學經濟與管理學院 同濟工程咨詢有限公司)