高 嵩 高月娟 朱仁英 王莉莉▲ 修艷麗 畢琳瑜
1.牡丹江醫學院護理學院,黑龍江牡丹江 157011;2.牡丹江醫學院附屬紅旗醫院藥學部,黑龍江牡丹江 157011;3.牡丹江醫學院附屬紅旗醫院護理部,黑龍江牡丹江 157011
數據挖掘(data mining,DM)是在海量、模糊且有干擾的隨機數據中,自動選取隱藏在其中的潛在有用的知識的過程[1]。其原理復雜,算法多樣,已廣泛應用于醫藥領域。其中,在藥品不良反應(adverse drug reaction,ADR)監測中更是被普遍運用。ADR 監測技術眾多,近年來人們一直在致力于提升監測報告的數量和質量,擴大監測網絡覆蓋面,并逐步完善監測體系,逐漸從ADR 的被動監測過渡到ADR 的主動監測。本文將從DM 技術在ADR 監測的應用方面進行綜述,以期為ADR 監測工作提供有意義的指導。
自1960年前后沙利度胺事件后,各國相繼出現許多影響惡劣的事件,國外從設立監測報告制度、建立專門監測系統到藥物警戒理念的應用,表明了ADR 監測正在逐步走向成熟。我國于1980年前后開始進行ADR 監測的工作,在京、滬、粵等地開始實施ADR 報告制度的試點。自1999—2019年,我國ADR監測網絡共累計收到1519 萬份的ADR 的報告,在2019年收到150 余萬份報告,其中新的和嚴重的ADR 報告數近48 萬份,占同期的31.5%[2]。面對這些情況,其解決的辦法主要是應用自發呈報系統來發現ADR 信號。盡管該系統多有不足[3],但其監測領域廣、使用經濟,是目前公認的主流的ADR 信號挖掘手段[4]。近年來,各國發現ADR 信號的方式已經由被動監測逐漸發展為主動監測,并設計開發了一系列的主動監測系統[5],給藥物安全提供了新的監測思路。各國研究者現已經將研究的焦點對準在ADR 監測上,為了改善傳統報告方式的缺陷,研究者們將DM 技術用在ADR監測中,期望指導人們更安全和有效地應用藥物。
DM 技術是從大數據中主動搜索隱藏于其中的特殊信息和知識的關聯的過程[1]。其應用的流程是在經過初步信息收集以后將數據集成和清洗,再進行數據的規約,經過反復多次數據清洗后,進行數據轉換,建立數據模型,選擇算法對數據進行挖掘,最后進行結果的評估,并在驗證和分析后對結果進行應用。DM的過程是需要經歷多次重復的,若其中一個環節未達預期,都要退回到前一環節再次進行操作[1]。應用DM技術是為了分析信息并將復雜的數據集轉換為可理解的數據[6],從而挖掘出對用戶潛在有用的知識。
2.2.1 頻數法 在頻數法的運用中,目前多用比值失衡測量法,該方法包含了報告比數比(reporting odds ratio,ROR)法和比例報告比值比(proportional reporting ratio,PRR)法。可用于單藥或聯合用藥的信號監測。計算方法以四格表為核心,若某種藥品與其不良反應之間的計算結果超出臨界值,則出現比值失衡,說明生成了信號。如果95%置信區間大于1,說明生成信號[7]。李雙嬌等[8]將該方法應用在甲氨蝶呤(Methotrexate)的不良反應危險信號的挖掘中,采用上述的兩種方法均找到了1364 個信號,且完全重合。其強相關的、新的不良反應的危險信號有治療藥物影響、骨骼肌肉系統、皮膚影響等。研究者基于這些信號建議采取相應措施加強監護,防范用藥風險。其他方法還有英國藥品和保健產品管理局(medicines and healthcare products regulatory agency,MHRA)的綜合標準法。若滿足例數不低于3,PRR 不低于2,χ2不低于4 的上述3 個條件,則提示生成信號。劉艷[9]使用了ROR、PRR、MHRA這三種方法挖掘了545 例兒童ADR 數據的信號,結果得出MHRA 法監測的可疑藥物風險信號較少。其余還有Yule′s Q 法、序貫概率比檢驗法等,上述方法在ADR 監測中的應用效果研究的報道,相對比值失衡測量法較少。
2.2.2 貝葉斯法 在貝葉斯法中,貝葉斯置信傳播神經網絡(Bayesian confidence propagation neural network,BCPNN)法較常用,這是運用傳統四格表法加貝葉斯判別分析的方法來檢測信號生成的一種方法。BCPNN法讓模型能夠隨數據庫信息的更新而自行做出演繹推斷,并結合更新的知識,對從前累積的ADR 報告進行再次評價[10],從而起到前饋性作用,能夠更有效的發現信號。該方法可用于處理復雜變量,對不完全數據的處理穩定性較好,可用于單藥或聯合用藥的信號監測。該方法的核心是需要算出信息成分的數值,根據該數值的大小來表示可疑的藥物和其不良反應的發生之間的強弱關系。如果計算數值大于0,說明可疑藥物和不良反應之間存在一定關聯,可能生成信號[10]。Rodrigues 等[11]將貝葉斯方法應用在評估藥物不良反應報告的因果關系中,該方法提高了藥物監測數量和質量,增加了衛生專業人員舉報其對ADR 懷疑的積極性,從而提高藥品的安全監測程度,更好地維護了人們的健康。
其他方法包括伽馬泊松分布縮減(Gamma possion shrinker,GPS)法和多項伽馬泊松分布縮減(multi-item gamma possion shrinker,MGPS)法。GPS 法現已升級為多項伽馬泊松分布縮減法。MGPS 法的算法是計算出經驗貝葉斯幾何均數,算法與IC 值相近,算出貝葉斯幾何均數的95%置信區間,其下限用經驗貝葉斯幾何均數95%置信下限表示,如果結果大于2,則說明生成信號。MGPS 方法可以對藥物以外的變量進行各個層次的剖析,探索各層變量特征是否與不良反應之間存在聯系。George 等[12]應用其進行375 種具有肝損傷潛力藥物的研究,計算了年齡、性別、肝事件相關報告的置信區間的經驗貝葉斯幾何均數,對性別、年齡和藥物性質與藥物性肝損傷關聯問題進行研究。臨床上多將上述幾種方法聯合應用,綜合評估,更快速的發現危險信號,并進行分析,從而找出解決辦法。
2.2.3 關聯規則 關聯規則是關聯分析的形式之一[13],是為了發現大型數據集中各項集之間“有趣”的關聯關系的一種DM 方法[14]。其主要客觀度量指標包括支持度、置信度等等,其最重要的是支持度的測量。在ADR 信號監測中的支持度表示同時含有某種藥品與某種不良反應報告占ADR 報告總數的百分比[13],核心是在多次掃描后算出項集支持度,盡力發現全部頻繁項目集,最終形成關聯規則[14]。其中Apriori 算法應用較多,是一種較為經典的頻繁項集挖掘算法。馬潔等[15]基于該算法分析發現,高齡及患病史是阿托伐他汀聯合降壓藥應用時發生不良反應的高危因素。因此,這種算法的應用可以輔助臨床診療人員進行合理用藥。Chen 等[16]將χ2檢驗引入到傳統的Apriori 算法中,經研究后發現,修改后的Apriori 算法,縮短了計算時間,減少了無效關聯規則,可更有效、準確地研究病歷中藥物與其相關不良事件之間的關聯規則。
2.2.4 聚類分析 聚類分析又稱集群分析,該方法是利用數字信息知識來實現“歸類”,盡量去縮短類別之中的差別,并盡量去擴充各個類別之間的差別[14]。聚類分析的種類有很多,已在藥品安全性的監測等方面得到了普遍地應用。Chandler 等[17]將人乳頭瘤病毒(human papilloma virus,HPV) 疫苗應用后出現的不良反應進行聚類分析,結果顯示,與9~25 歲女性的非HPV疫苗報告相比,在HPV 疫苗報告中,頭痛、頭暈和疲勞或暈厥的發生率明顯更高。張淵[18]將聚類分析中近年來發展起來的一種雙聚類算法應用到我國ADR 監測中,為潛在ADR 確認、篩選需重點關注不良反應信號以及不良反應的病因學研究等方面提供有效的參考信息,旨在促進我國ADR 監測中信號評價工作效率的提高。
2.2.5 決策樹 決策樹是利用一種類似流程圖的樹狀結構進行分析的一種DM 的方法[14]。該方法的核心在于對其的生長和剪枝。常用的算法包括CART、ID3、CHAID 等生長算法和后剪枝、預剪枝等剪枝算法。王勇等[19]應用決策樹技術挖掘左氧氟沙星的不良反應的流行病學特點。在分析的4318 例報告中,皮膚及附件損害是較主要的損害,年齡是其重要因素。其三個分節點分別是31.3、33 歲及體重>75.5 kg,第1 個和第3 個分節點可能對皮膚及附件損害影響大,第2 個分節點可能對神經系統損害影響大。
2.2.6 主成分分析 主成分分析法是對得到的數據進行降維操作,經再次組合后產生新的綜合變量,從而進行進一步分析的DM 方法[14]。徐瑾等[20]將其應用于對收集到的4031 例頭孢呋辛不良反應數據進行信號挖掘,結果得出,皮疹、瘙癢、惡心、心悸等與頭孢呋辛的應用相關性高。而心悸未在藥品說明書內標注,可作為頭孢呋辛不良反應的新參考依據。
2.2.7 其他方法 其他方法還包括反向傳播人工神經網絡、序列對數分析法、監督機器學習法等。Bajzelj 等[21]對反向傳播人工神經網絡進行了應用,探究其對與特異藥物引起的肝損傷相關的不平衡數據集進行分類的能力,并建立了預測藥物肝毒性潛力的模型。國外有研究表明,序列對數分析法可以早期識別安全信號,該方法具有中等靈敏度和高度的特異性[22]。而相比序列對數分析法,監督機器學習法的靈敏度和特異性相對來說會更高[23],而這兩種方法的實用性也較好,可作為現有的藥物監測方法的補充。但是,這些方法在我國應用較少,今后可進行深入探索。
現今對ADR 的監測正逐漸從ADR 的被動監測過渡到ADR 的主動監測,許多機構也正著力研發ADR主動監測系統。在各方支持下,國家藥品監督管理局開發了基于醫院HIS 系統的可以主動獲取藥物警戒信息的系統——中國醫院藥物警戒系統,該系統的應用改進了報告流程,縮短報告的時間,提高報告者的積極性[24]。王蒙[25]將貝葉斯工具變量方法應用在ADR的主動監測中,其重點評價服用中藥制劑過程中伴隨療法的應用對發生藥品不良事件和嚴重不良事件的影響,進一步確認了其中的危險信號,改善了用藥的安全性。除指南提出的如ICH 藥物警戒計劃等主動監測方法外,隨著計算機等諸多領域發展,電子健康記錄(electronic health records,EHRs)逐漸在國內外應用。在ADR 主動監測方面,許多學者將DM 技術應用在監測EHRs 上以發現藥品的不良反應。一項研究開發了稱為Readpeer HSA 的DM 算法系統,可自動提取藥品和不良事件名稱,并將其應用于對電子健康記錄的ADR 監測以及主動藥物警戒中,有助于藥物的使用安全[26]。近年來,國外在應用EHRs 的基礎上,開發關于觀測性醫學效果合作關系網絡(observational medical outcomes partnership,OMOP) 的通用數據模型(common data model,CDM),其正被逐漸應用于藥物不良反應監測中。XU 等[27]將2007—2012年的Humana 數據提取轉化成OMOP CDM 后發現CDM 可將不同格式的源數據轉換為標準化的數據結構,可在大型的觀測數據中快速地發現ADR 信號,進行藥物安全評估。在OMOP CDM 模型的項目研究結束后,研究調查人員在OMOP CDM 基礎上啟動了名為觀測衛生大數據科學和信息學(observational health data sciences and informatics,OHDSI) 的CDM 的項目研究,以期利用大數據科學和信息學方法,促進衛生健康數據科研工作的發展[28]。Duke 等[29]應用OHDSI CDM發現左乙拉西坦與苯妥英鈉具有相同或更低的血管性水腫風險,而苯妥英鈉目前還沒有被標記其可能發生血管水腫的警告。Yu 等[30]在使用OMOP 通用數據模型基礎上開發了下一代藥物警戒信號檢測框架——ADEpedia-on-OHDSI,經研究得出基于CDM的方法將有助于提供可擴展的解決方案,其能夠整合藥物安全性數據和電子健康記錄以生成真實的世界證據來改善信號檢測。
該技術融合了多學科理論,并順應知識智能化的發展趨勢,對于其在ADR 的監測的應用筆者認為:①隨著可視化技術的廣泛應用,研究者將多維度,多層次的結果呈現在用戶面前,將有助于DM 結果的表達,今后應繼續探討更容易被用戶理解的表達方式。②完善DM 技術術語集,鼓勵各國學者對其進行更深入的研究,尤其注意其在本土化的應用和開展,尤其在中藥方面。加快推進醫療機構、藥品企業等ADR 監測主體與國際接軌,取國外之長,完善大數據平臺建設,促進該技術在我國的運用和創新。③該技術專業性較強,實施的主體人員——醫生、護士、藥師等對于具體方法的選擇和應用一般不具備較強的水平,需要多學科及團隊合作,加強交叉學科人才培養,如培養高級信息護理方面的專家以及培養具有高級計算機水平的臨床藥師等,提升其信息能力和DM 能力,以促進其在ADR 監測中更充分的運用,為實現精準醫藥奠定堅實的基礎。④要培養大數據思維,利用DM 發展更為完善的用藥安全監測體系,轉變模式,迎難而上,從在總體和抽樣之間更注重總體、追求效率而非絕對精確、更關注相關而非因果等方面入手[14],剖析大數據給醫療、護理及藥學帶來的影響,挖掘數據背后的價值規律,促進用藥安全的協調發展,為公眾健康謀福。